当前位置: 首页 > news >正文

【论文笔记】【强化微调】T-GRPO:对视频数据进行强化微调

tulerfeng/Video-R1: Video-R1: Reinforcing Video Reasoning in MLLMs [🔥the first paper to explore R1 for video]

1. 引述

在强化微调中,像 GRPO、DAPO 这样的方法都是对文本或者图片进行微调思考,所以这类微调方法不对时序信息做处理,因此无法很好的迁移到视频的强化微调中。

虽说目前有不少视频理解的工作,但是都没有加上强化微调的方法。也就是说,针对视频数据的强化微调很稀缺。

于是几个大学(港大+清华+中科大)联合搞了一个 Video-R1,提出 T-GRPO,实现对视频进行思考。

2. T-GRPO

T-GRPO 的核心思路如上图。

相比 GRPO,T-GRPO 的创新在于使大模型微调的时候,能关注时序信息。做法就是将视频数据复制一份,并将这一份的视频帧打乱,打乱视频帧的视频就没有时序信息了。

于是,设置奖励,使得模型在分析视频内容时,要求对有时序信息的视频帧分析正确,对乱序的视频帧分析错误。写成公式如下:(这里的 \alpha 设置为 0.3)

r_t = \begin{cases} \alpha, & \text{if } p \geq \tilde{p} \\ 0, & \text{otherwise} \end{cases}

于是乎,T-GRPO 的核心奖励如下:

R_i = \begin{cases} r_i + r_t, & \text{if } o_i \text{ is correct} \\ r_i, & \text{otherwise} \end{cases}

其中,r_i 代表问题是否回答正确。这个公式的意思就是说,如果有时序信息的视频帧的分析效果比乱序的更好,那么奖励就是 r_i+r_t

除此之外,还对模型输出长度通过奖励做了限制。如果输出长度少,还有额外奖励:

R_i = \begin{cases} R_i + \omega, & \text{if } o_i \text{ is correct and } l_{\min} \leq \mathrm{len}(o_i) \leq l_{\max} \\ R_i, & \text{otherwise} \end{cases}

最小长度 l_\text{min} 被设置为 320,最大长度 l_\text{max} 被设置为 512

http://www.lqws.cn/news/470809.html

相关文章:

  • [muduo] TcpConnection | 回调交互
  • LLM-201: OpenHands与LLM交互链路分析
  • Linux致命漏洞CVE-2025-6018和CVE-2025-6019
  • 1、自然语言处理任务全流程
  • 什么是redission看门狗机制
  • Redis 分布式锁、红锁分别是什么?红锁有什么问题?
  • Python漂浮的爱心
  • 【Ambari3.0.0 部署】Step2—免密登陆认证-适用于el8
  • 智能机器人后期会如何发展?
  • 【烧脑算法】枚举:有序穷举,分步排查
  • 植物神经小知识
  • 教育培训APP源码核心功能开发详解:直播、考试、组卷系统全拆解
  • 力扣1546. 和为目标值且不重叠的非空子数组的最大数目
  • 1. 常见K线组合
  • 【STM32笔记】F1F4 STM32初识、MDK调试、HAL简介
  • 3.10 坐标导航
  • C++ 函数模板
  • 【基础算法】贪心 (一) :简单贪心
  • JavaWeb后端部分
  • win2003_ddk.3790里面有windbg--6.1.0017.2----备忘
  • 【环境配置】在Ubuntu Server上安装5090 PyTorch环境
  • Python 正确重载运算符(增量赋值运算符)
  • C++重点知识详解(命名空间,缺省参数,函数重载)
  • 【舞蹈】编排:如何对齐拍子并让小节倍数随BPM递减
  • 两个python独立进程通信
  • Kubernetes 节点故障自愈方案:结合 Node Problem Detector 与自动化脚本
  • Java面试题025:一文深入了解数据库Redis(1)
  • 自定义 Hook:在 Vue3 中复用逻辑
  • Vue3 + TypeScript + xlsx 导入excel文件追踪数据流转详细记录(从原文件到目标数据)
  • Vue+spring boot前后端分离项目搭建---小白入门