人机交互动画制作新突破!文本驱动扩散框架HOIDiNi:一句话驱动虚拟人高精度操作物体。
在人机交互、动画制作等领域,如何生成逼真且符合严格约束的人体 - 物体交互(HOI)一直是科研人员努力攻克的难题。今天给大家分享一个文本驱动扩散框架——HOIDiNi,它不仅满足 HOI 的严格约束,还能保留真实人体运动的流形。通过巧妙运用扩散噪声优化(DNO)这一测试时采样方法,在生成过程中精准引导。同时,训练出的扩散模型 CPHOI 更是独具匠心,能动态预测手掌与物体表面的接触对,实现精确、帧一致性的交互,生成更稳定逼真的行为。
文本驱动的对象交互
相关链接
-
论文:https://arxiv.org/pdf/2506.15625
-
主页:https://hoidini.github.io/
-
代码:https://github.com/hoidini/HOIDiNi(Coming soon...)
论文介绍
论文提出了一个文本驱动的扩散框架 HOIDiNi,用于合成逼真且合理的人机交互 (HOI)。HOI 的生成极具挑战性,因为它需要严格的接触精度以及多样化的运动流形。尽管现有文献在真实性和物理准确性之间进行权衡,但 HOIDiNi 使用扩散噪声优化 (DNO) 直接在预训练扩散模型的噪声空间中进行优化,从而兼顾了真实性和物理准确性。这得益于论文观察到问题可以分为两个阶段:以物体为中心阶段,主要对手部与物体的接触位置进行离散选择;以及以人为中心阶段,通过优化全身运动来实现这一蓝图。这种结构化方法能够在不影响运动自然度的情况下实现精确的手部与物体的接触。仅在 GRAB 数据集上进行的定量、定性和主观评估就清楚地表明,HOIDiNi 在接触精度、物理有效性和整体质量方面均优于先前的研究和基线。我们的结果表明,仅通过文本提示就能产生复杂、可控的交互,包括抓取、放置和全身协调。
方法概述
HOIDiNi 是一个文本驱动的扩散框架,它满足 HOI 的严格约束,同时保留了真实人体运动的流形。我们使用一种优化策略来应对这一挑战,该策略在设计上保留了已学习到的运动分布。扩散噪声优化 (DNO) 是一种测试时采样方法,它遍历预训练扩散模型的噪声空间,以引导生成过程朝着期望的损失方向发展。DNO 最初用于控制自由形式的运动合成,经仔细调整以适应任务的结构和需求后,被证明非常适合 HOI。
首先训练一个扩散模型 CPHOI,以学习全身人体运动和物体轨迹的联合分布,从而在统一的生成空间内实现协调交互。一个关键洞察是,准确的 HOI 取决于识别手掌表面和输入物体表面之间语义上有意义的接触对。与以往依赖启发式方法不同,CPHOI 除了预测全身、手指和物体轨迹外,还能动态预测每一帧的这些接触,从而实现精确、帧一致性的交互,并根据物体形状和运动进行自适应调整,最终产生更稳定、更逼真的行为。
事实证明,在接触对、人体和物体运动的离散/连续联合空间中使用DNO进行扩散噪声优化极具挑战性,因为许多局部不连续性会破坏收敛稳定性。我们观察到,HOI优化的复杂性可以分为两个优化阶段。第一个阶段,即以物体为中心的阶段,仅考虑物体的运动及其与手的接触,为随后的全身运动构建可靠的结构蓝图。该蓝图随后引导第二个阶段,即以人体为中心的阶段,该阶段完成全身运动,优化手指关节以实现精确抓握,并生成自然的身体姿势,从而在语义上支持物体的行为和动态。
两相运动生成
第一阶段生成物体运动和接触点对,这些接触点对构成了生成完整运动的轮廓。在第二阶段,根据预定的接触点(此处为将球从一只手传到另一只手)生成人体运动。
结果
HOIDiNi 可以产生毫米级精度的精确交互,成功处理诸如操纵不同大小的球或金字塔等精细任务。
比较
与其他基线相比,IMOS 采用的竞争优化方案会导致生成结果偏向于不良接触和不切实际的运动。将我们的定律应用于分类制导基线无法充分满足约束条件,并且使用流行的最近邻启发式算法(而非我们的预测)来处理接触对时,无法找到语义上正确的接触。相比之下,HOIDiNi 展示了令人满意且物理上合理的结果。