当前位置: 首页 > news >正文

力提示(force prompting)的新方法

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

布朗大学与DeepMind的研究团队最近展示了一项名为“力提示(force prompting)”的新方法,该方法允许生成式视频模型在无需依赖3D建模或物理引擎的情况下,通过模拟“力”的作用来生成逼真的视频运动效果。

所谓“力提示”,即研究人员通过人工设定方向与强度的力向量,引导AI生成运动。模型可以处理两种类型的力:一种是作用于整个场景的“全局力”(如风),另一种是针对特定点的“局部力”(如轻敲物体)。这些力被表示为向量场,并被直接输入至视频生成系统,从而转化为自然的运动表现。

本研究基于CogVideoX-5B-I2V视频模型,并整合了ControlNet模块以处理物理控制信号,整个系统以Transformer架构为基础,可生成每段49帧的视频。训练仅耗时一天,使用了四张Nvidia A100显卡。

在训练阶段,研究人员采用了完全合成的数据集:包括1.5万段不同风速下旗帜飘动的视频,用于训练对全局风力的响应;1.2万段滚球视频和1.1万段花朵因撞击而晃动的视频,则用于训练局部力的处理。每个训练样本都包括文本提示、初始图像和一个代表力的向量场(或移动信号),这些三维模拟力被投影到二维图像坐标中。研究人员还对背景、光照、摄像机角度和力的方向进行随机化,增强模型泛化能力。

尽管数据量有限,模型依然展现出较强的泛化能力。例如,它能分辨轻物体比重物体更易被推动,还能识别满的洗衣篮比空的移动得慢。这种“直觉物理”(intuitive physics)能力是在没有真实物理模拟的条件下学到的。

在人类主观评估中,“力提示”方法优于文本描述或运动路径控制等传统方式,甚至在运动匹配度与现实感方面超过了使用真实物理模拟的PhysDreamer模型(尽管后者图像质量更高)。消融实验进一步显示,训练数据的多样性对于模型识别力的方位与强度至关重要。若缺乏多样背景或文本中缺少与物理相关的词汇,模型表现显著下降。

值得注意的是,模型将物体视为整体单位:即使只是某个部位受力,整个物体都会运动。同时,模型还能够在生成视频过程中保留原图中的风格特征,如光照和景深。

不过研究人员也指出,该方法并不能完全替代高精度物理仿真。在复杂场景中,模型有时仍会出错,比如烟雾忽略风的作用,或人体手臂像布一样摆动。然而,作为一种高效手段,“力提示”为AI生成视频注入了具有物理可信度的动态表现。

DeepMind首席执行官Demis Hassabis近期也强调,像Veo 3这样的AI视频模型正在逐步理解物理规律。他认为,这是AI从图像处理迈向对世界物理结构建模的重要一步,也将推动更具通用性AI系统的发展,使其能通过模拟环境中的经验学习,而不再仅仅依赖于静态数据。

http://www.lqws.cn/news/121159.html

相关文章:

  • PHP 复制商品扩展实操:轻松切换一号通、99api ,实现商品复制功能
  • 【Linux 】centos8搭建nextcloud全过程
  • 直播美颜SDK深度解析:AI人脸美型与智能美白技术揭秘
  • 机器学习实战37-基于情感字典和机器学习的股市舆情分析可视化系统
  • 微信小程序开发一个自定义组件的详细教程
  • 概念全解析:结构化数据,半结构化数据,非结构化数据分别是什么意思?
  • TPU(张量处理单元)和 TVM(张量虚拟机)深度分析
  • 分类预测 | Matlab实现CNN-BiLSTM-Attention高光谱数据分类预测
  • 【LLM大模型技术专题】「入门到精通系列教程」LangChain4j与Spring Boot集成开发实战指南
  • 美业破局:AI智能体如何用数据重塑战略决策(5/6)
  • VSCode 工作区配置文件通用模板创建脚本
  • OpenHarmony平台驱动使用(十五),SPI
  • springboot--实战--大事件--文章分类接口开发详解
  • 解决:如何在Windows adb使用dmesg | grep检查内核日志
  • 系统调试——ADB 工具
  • yum更换阿里云的镜像源
  • 【论文阅读笔记】Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation
  • 突破数据孤岛:StarRocks联邦查询实战指南
  • RDMA简介3之四种子协议对比
  • 数据结构第一章
  • git操作指南
  • layer norm和 rms norm 对比
  • 数据结构(7)—— 二叉树(1)
  • Facebook用户信息爬虫技术分析与实现详解
  • Kafka入门- 基础命令操作指南
  • springboot 微服务 根据tomcat maxthread 和 等待用户数量,达到阈值后,通知用户前面还有多少用户等待,请稍后重试
  • 数学复习笔记 25
  • CMake在VS中使用远程调试
  • OpenCV C/C++ 视频播放器 (支持调速和进度控制)
  • CentOS在vmware局域网内搭建DHCP服务器【踩坑记录】