当前位置: 首页 > news >正文

CVPR 2025 | 港中文 MMLab 提出文生图模型 T2I-R1,文生图进入R1时刻!

香港中文大学 MMLab 提出了一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型 T2I-R1,该模型结合了语义级和 token 级的链式思维(CoT)推理过程,并通过强化学习进行增强。T2I-R1 旨在通过在图像生成的不同阶段应用 CoT 推理策略,提升生成质量和文本与图像的对齐度。

相关链接

  • 论文:https://arxiv.org/pdf/2505.00703

  • 代码:https://github.com/CaraJ7/T2I-R1

论文介绍

大型语言模型的最新进展已经证明了思维链 (CoT) 和强化学习 (RL) 如何提升性能。然而,将此类推理策略应用于视觉生成领域仍未得到广泛探索。本文提出了 T2I-R1,这是一种新颖的推理增强型文本到图像生成模型,它由强化学习驱动,并采用双层 CoT 推理过程。具体而言,我们确定了两个可用于增强不同生成阶段的 CoT 层级:

  1. 用于提示高级规划的语义层 CoT;

  2. 用于逐块生成过程中低级像素处理的 token 层 CoT。

为了更好地协调这两个 CoT 层级,引入了具有生成奖励集合的 BiCoT-GRPO,它可以在同一训练步骤中无缝优化两个生成 CoT。通过将推理策略应用于基线模型 Janus-Pro,该方法取得了卓越的性能,在 T2I-CompBench 上提高了 13%,在 WISE 基准上提高了 19%,甚至超越了最先进的模型 FLUX.1。

方法概述

图像理解和生成任务中认知能力(CoT)的图示。在图像理解任务中,认知能力(CoT)是文本推理过程。在自回归视觉生成任务中,我们定义了两个级别的认知能力(CoT):语义级认知能力(CoT)和标记级认知能力(CoT)。语义级认知能力(CoT)是图像生成之前的高级规划,以文本的形式呈现。标记级认知能力(CoT)是逐个图像块(patch)的中间生成过程,关注图像块内的局部像素细节,以图像标记的形式呈现。

T2I-R1 图像生成过程可视化。所有提示都需要推理,或包含不常见的场景。我们观察到,T2I-R1 能够成功推断出提示背后的真实意图,或对不常见的场景(文中突出显示)进行合理的想象,从而与基线模型 Janus-Pro 相比,产生了令人满意的结果。

BiCoT-GRPO 框架。 在步骤 1 中,指示模型根据图像提示生成语义级 CoT。在步骤 2 中,基于图像提示和语义级 CoT 生成图像,中间生成过程作为 token 级 CoT。 生成的图像由视觉专家团队评估以获得奖励。从每个提示生成 N 张图像,以计算群体相对奖励并进行 GRPO 训练。

生成奖励集合示意图。使用 GPT-4o mini 在训练前提取对象及其属性。每个专门的奖励模型都会接收定制的信息输入,用于奖励计算。将所有奖励的平均值作为最终奖励。

实验结果

可视化结果。提供了四个模型针对同一问题的图像生成结果:基础模型、仅优化语义级 CoT 的模型、仅优化 token 级 CoT 的模型以及同时优化两个级别 CoT 的模型。

单个提示图像多样性的可视化结果。展示了仅对 token 级 CoT 进行优化的结果,以及同时对语义级和 token 级 CoT 进行优化的结果。

结论

论文介绍的 T2I-R1 是首个基于双层 CoT 推理过程的推理增强型文本转图像模型。作者识别了用于高级规划的语义级 CoT 和用于逐块生成的 token 级 CoT。通过提出的 BiCoT-GRPO 进一步整合了它们,这是一个在同一训练步骤中整合了两级 CoT 的强化学习框架。通过利用同时具备视觉理解和生成能力的 ULM,提出的方法无需使用单独的专用模型,同时实现了显著的性能提升,在 T2I-CompBench 上提升了 13%,在 WISE 基准上提升了 19%,甚至超越了 FLUX.1。定性分析表明,T2I-R1 能够更好地理解复杂的提示,推理用户意图,并以更高的鲁棒性处理不常见场景,从而为以推理为中心的生成系统建立了新的范式。

http://www.lqws.cn/news/187255.html

相关文章:

  • [论文阅读] 人工智能 | 大语言模型计划生成的新范式:基于过程挖掘的技能学习
  • 【Bluedroid】蓝牙启动之 SMP_Init 源码解析
  • 外卖大战背后的创始人IP智慧:差异化、护城河与心智占领
  • MySQL基础(三)DQL(Data Query Language,数据查询语言)
  • 如何使用k8s安装redis呢
  • 深入理解 Python `asyncio` 的子进程协议(Subprocess Protocol)
  • C++算法-动态规划2
  • 数据库优化秘籍:解锁性能提升的 “潘多拉魔盒”
  • OpenLayers 分屏对比(地图联动)
  • 记录一个用了很久的git提交到github和gitee比较方便的方法
  • JDK8之后的新特性
  • React源码阅读-fiber核心构建原理
  • 【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习
  • QPair 类说明
  • 水库大坝安全监测系统是什么?需要用到哪些设备?
  • 1.3 古典概型和几何概型
  • 2025.6.5学习日记 Nginx主目录文件 .conf介绍、热部署 定时日志切割
  • 实战设计模式之模板方法模式
  • Go 中的 Map 与字符处理指南
  • 如何使用Webhook触发器,在 ONLYOFFICE 协作空间构建智能工作流
  • C++中的概念(Concepts)
  • 自然语言处理的发展
  • 数字孪生恰似企业的“智能军师”,精准助力决策
  • 【python基础知识】 *args, **kwargs介绍
  • 一篇文章实现Android图片拼接并保存至相册
  • 深入了解linux系统—— 进程池
  • Redis哨兵模式
  • CSS 性能优化
  • 微信小程序动态效果实战指南:从悬浮云朵到丝滑列表加载
  • 密码学基础——SM4算法