当前位置: 首页 > news >正文

人机交互动画制作新突破!文本驱动扩散框架HOIDiNi:一句话驱动虚拟人高精度操作物体。

在人机交互、动画制作等领域,如何生成逼真且符合严格约束的人体 - 物体交互(HOI)一直是科研人员努力攻克的难题。今天给大家分享一个文本驱动扩散框架——HOIDiNi,它不仅满足 HOI 的严格约束,还能保留真实人体运动的流形。通过巧妙运用扩散噪声优化(DNO)这一测试时采样方法,在生成过程中精准引导。同时,训练出的扩散模型 CPHOI 更是独具匠心,能动态预测手掌与物体表面的接触对,实现精确、帧一致性的交互,生成更稳定逼真的行为。

文本驱动的对象交互

相关链接

  • 论文:https://arxiv.org/pdf/2506.15625

  • 主页:https://hoidini.github.io/

  • 代码:https://github.com/hoidini/HOIDiNi(Coming soon...)

论文介绍

论文提出了一个文本驱动的扩散框架 HOIDiNi,用于合成逼真且合理的人机交互 (HOI)。HOI 的生成极具挑战性,因为它需要严格的接触精度以及多样化的运动流形。尽管现有文献在真实性和物理准确性之间进行权衡,但 HOIDiNi 使用扩散噪声优化 (DNO) 直接在预训练扩散模型的噪声空间中进行优化,从而兼顾了真实性和物理准确性。这得益于论文观察到问题可以分为两个阶段:以物体为中心阶段,主要对手部与物体的接触位置进行离散选择;以及以人为中心阶段,通过优化全身运动来实现这一蓝图。这种结构化方法能够在不影响运动自然度的情况下实现精确的手部与物体的接触。仅在 GRAB 数据集上进行的定量、定性和主观评估就清楚地表明,HOIDiNi 在接触精度、物理有效性和整体质量方面均优于先前的研究和基线。我们的结果表明,仅通过文本提示就能产生复杂、可控的交互,包括抓取、放置和全身协调。

方法概述

HOIDiNi 是一个文本驱动的扩散框架,它满足 HOI 的严格约束,同时保留了真实人体运动的流形。我们使用一种优化策略来应对这一挑战,该策略在设计上保留了已学习到的运动分布。扩散噪声优化 (DNO) 是一种测试时采样方法,它遍历预训练扩散模型的噪声空间,以引导生成过程朝着期望的损失方向发展。DNO 最初用于控制自由形式的运动合成,经仔细调整以适应任务的结构和需求后,被证明非常适合 HOI。

首先训练一个扩散模型 CPHOI,以学习全身人体运动和物体轨迹的联合分布,从而在统一的生成空间内实现协调交互。一个关键洞察是,准确的 HOI 取决于识别手掌表面和输入物体表面之间语义上有意义的接触对。与以往依赖启发式方法不同,CPHOI 除了预测全身、手指和物体轨迹外,还能动态预测每一帧的这些接触,从而实现精确、帧一致性的交互,并根据物体形状和运动进行自适应调整,最终产生更稳定、更逼真的行为。

事实证明,在接触对、人体和物体运动的离散/连续联合空间中使用DNO进行扩散噪声优化极具挑战性,因为许多局部不连续性会破坏收敛稳定性。我们观察到,HOI优化的复杂性可以分为两个优化阶段。第一个阶段,即以物体为中心的阶段,仅考虑物体的运动及其与手的接触,为随后的全身运动构建可靠的结构蓝图。该蓝图随后引导第二个阶段,即以人体为中心的阶段,该阶段完成全身运动,优化手指关节以实现精确抓握,并生成自然的身体姿势,从而在语义上支持物体的行为和动态。

两相运动生成

第一阶段生成物体运动和接触点对,这些接触点对构成了生成完整运动的轮廓。在第二阶段,根据预定的接触点(此处为将球从一只手传到另一只手)生成人体运动。

结果

HOIDiNi 可以产生毫米级精度的精确交互,成功处理诸如操纵不同大小的球或金字塔等精细任务。

比较

与其他基线相比,IMOS 采用的竞争优化方案会导致生成结果偏向于不良接触和不切实际的运动。将我们的定律应用于分类制导基线无法充分满足约束条件,并且使用流行的最近邻启发式算法(而非我们的预测)来处理接触对时,无法找到语义上正确的接触。相比之下,HOIDiNi 展示了令人满意且物理上合理的结果。

http://www.lqws.cn/news/508897.html

相关文章:

  • 美团小程序闪购 mtgsig1.2
  • 关于 Babel 编译后的 Generator 状态机结构解析
  • 读取ILA数据进行MATLAB分析
  • 软件行业如何权衡“统一规范“与“灵活创新“?
  • Vue.js 列表过滤实现详解(watch和computed实现)
  • PYTHON从入门到实践4-数据类型
  • 原子操作(CAS)
  • OSS跨区域复制灾备方案:华东1到华南1的数据同步与故障切换演练
  • 嵌入式开发学习日志Day8(ARM体系架构——按键、蜂鸣器及中断)
  • 【bug】searchxng搜索报错Searx API returned an error
  • Vue项目使用defer优化页面白屏,性能优化提升,秒加载!!!
  • java-SpringBoot框架开发计算器网页端编程练习项目【web版】
  • QT多线程
  • Git 子模块 (Submodule) 完全使用指南
  • 烟花爆竹生产企业库房存储安全风险预警系统
  • 【Pandas】pandas DataFrame update
  • 【Docker基础】Docker容器管理:docker stop详解
  • Vue.js:渐进式框架赋能现代Web开发
  • 蓝桥杯嵌入式学习(cubemxkeil5)
  • word中如何快速打出上标?
  • 20250624java面试总结
  • 第九节 CSS工程化-预处理技术对比
  • 大白话蓝牙中的RPC:Remote Procedure Call远程过程调用
  • 壁挂马桶品牌推荐:我的“瑞尔特瑞家HX5”沉浸式体验报告健康与洁净的硬核科技
  • 从设备自动化到智能管控:MES如何赋能牛奶饮料行业高效生产?
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 10(题目+回答)
  • Flask(四) 模板渲染render_template
  • 用Rust写平衡三进制加法器
  • 调试HDMI音频能8通道播放声音
  • 开疆智能CCLinkIE转ModbusTCP网关连接川崎机器人配置案例