当前位置: 首页 > news >正文

复旦联合百度发布Hallo4:让AI肖像“活”起来!新型扩散框架实现高保真音频驱动动画生成!

复旦联合百度发布扩散框架Hallo4,实现了准确的唇音同步、自然的面部表情,并能够稳健地处理各种角色身份和环境场景中快速的语音节奏和突然的上身运动。

相关链接

  • 论文:https://arxiv.org/pdf/2505.23525

  • 项目:https://github.com/xyz123xyz456/hallo4

论文介绍

由于需要精确的唇部同步、自然的面部表情和高保真度的身体运动动态,生成由音频和骨骼运动驱动的高动态和逼真的肖像动画仍然具有挑战性。我们提出了一个与人类偏好一致的扩散框架,通过两项关键创新来应对这些挑战。首先,我们引入了针对以人为中心的动画定制的直接偏好优化,利用精选的人类偏好数据集,将生成的输出与感知指标进行对齐,以实现肖像运动与视频的对齐和表情的自然性。其次,我们提出的时间运动调制通过时间通道重分配和比例特征扩展,将运动条件重塑为维度对齐的潜在特征,从而解决了时空分辨率不匹配的问题,并在基于扩散的合成中保留了高频运动细节的保真度。所提出的机制是对现有基于 UNet 和 DiT 的肖像扩散方法的补充。实验表明,与基线方法相比,该方法在唇音同步、表情生动度和身体运动连贯性方面均有显着提升,同时在人类偏好指标方面也取得了显着提升。

方法概述

所提出的肖像动画框架示意图。 给定参考肖像图像和多模态控制信号(音频波形和可选的骨骼运动序列),论文方法通过两项关键创新生成高保真、动态连贯的动画:

  1. 直接偏好优化,以实现与人类对齐的同步和表现力;

  2. 统一的时间运动调制,以保留高频身体运动细节。

该框架实现了准确的唇音同步、自然的面部表情,并能够稳健地处理各种角色身份和环境场景中快速的语音节奏和突然的上身运动。

演示基于 DiT 且具有统一时间运动调制的肖像生成流程。

演示基于 DiT 且具有统一时间运动调制的肖像生成流程。

实验结果

结论

论文提出了一个基于人类偏好的头像动画新框架,该框架将直接偏好优化与统一的时间运动调制相结合。通过整理首个以运动视频同步和表情自然度为目标的DPO数据集,论文方法显著提升了唇部同步的准确性和面部表情的丰富性,同时保持了高保真渲染。提出的时间调制机制通过特征重分配有效地解决了DiT架构中的运动粒度下降问题,从而实现了快速关节手势的精确同步。虽然工作目前专注于上半身合成,但它为将偏好感知优化扩展到全身头像动画奠定了基础。

http://www.lqws.cn/news/202159.html

相关文章:

  • Python 函数全攻略:函数进阶(生成器、闭包、内置函数、装饰器、推导式)
  • AI大模型:(二)3.2 Llama-Factory微调训练deepseek-r1实践
  • 微前端架构下的B端页面设计:模块化与跨团队协作的终极方案
  • 【图像处理基石】如何构建一个简单好用的美颜算法?
  • 向 AI Search 迈进,腾讯云 ES 自研 v-pack 向量增强插件揭秘
  • JAVA理论第五章-JVM
  • JVM 垃圾回收器 详解
  • LVGL手势识别事件无上报问题处理记录
  • C++图书管理
  • 《前缀和》题集
  • [yolov11改进系列]基于yolov11融合改进检测头特征融合模块AFPN的python源码+训练源码
  • CCPC chongqing 2025 H
  • 振动力学:多自由度系统
  • AI书签管理工具开发全记录(十五):TUI基本逻辑实现与数据展示
  • 【Hot 100】295. 数据流的中位数
  • PyTorch 中contiguous函数使用详解和代码演示
  • Linux(14)——库的制作与原理
  • 华为云Flexus+DeepSeek征文 | 从零到一:用Flexus云服务打造低延迟联网搜索Agent
  • 为什么React列表项需要key?(React key)(稳定的唯一标识key有助于React虚拟DOM优化重绘大型列表)
  • Vue3中computed和watch的区别
  • CSS3 的特性
  • redis分布式锁
  • DAY 24 元组和OS模块
  • 机器学习期末复习
  • 【leetcode】递归,回溯思想 + 巧妙解法-解决“N皇后”,以及“解数独”题目
  • 16-Oracle 23 ai-JSON-Relational Duality-知识准备
  • Java并发编程之并发编程的调试与测试
  • 性能测试-jmeter实战2
  • 打卡第38天:早停策略和模型权重的保存
  • 企业微信授权登录(uniapp项目)