当前位置: 首页 > news >正文

如何通过RL真正提升大模型的推理能力?NVIDIA提出长期强化学习训练框架ProRL

原文:https://mp.weixin.qq.com/s/QLFKvb8Ol3CX9uWKBXSrow

论文:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
Abs:https://arxiv.org/abs/2505.24864
权重下载:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

最近LLM + RL的研究越来越火,但关于“RL是否真的能提升模型的推理能力”这一问题,社区仍存在不少争议。一些研究指出,RL只是在让模型变得更会“猜答案”,而非真正学会新能力。

我们认为这些质疑可能来自两个“隐藏问题”:

  • 太多研究只在数学领域做实验,而这类任务基础模型早就见过,根本没有探索新能力的空间;
  • RL训练都太短了——几百步就停止,模型还没开始“发掘潜能”就被叫停了。

因此,我们认为应该在更加多样的任务上做更加长期的强化学习训练。然而,让模型在强化学习中实现长期且稳定的训练并不容易。传统方法常常面临梯度爆炸或训练坍塌等问题。为此,我们将 模型的 entropy(熵) 作为衡量训练健康程度的关键指标。Entropy 反映了模型在探索与利用之间的平衡能力,也代表了模型对问题理解的深度

训练过程中,我们力求保持 entropy 在一个合理且稳定的区间:过高的 entropy 意味着模型在做出决策时过于随机,缺乏有效判断;过低的 entropy 则表明模型可能陷入某个解法,失去了进一步探索的能力

通过持续监控并调控 entropy,我们有效促进了 RL 训练的稳定性和推理能力的提升。在此基础上,我们提出了ProRL(Prolonged Reinforcement Learning),一个长期强化学习训练框架,核心包括:

  • KL控制(保持模型不跑偏)
  • 参考策略重置(防止陷入局部最优)
  • 多样化任务集合(激发模型学习不同推理策略)

我们基于 DeepSeek-Distilled-Qwen-1.5B,训练了一个专注于推理能力的模型 —— Nemotron-Research-Reasoning-Qwen-1.5B,在数学/编程/逻辑题/STEM推理/任务指令理解等多个领域展现出显著提升。

在这里插入图片描述

更关键的是:

我们发现 RL 模型能解出 base model 无论怎么 sampling 都完全答不出的题,甚至做到 pass rate 100%。这不是随机波动,而是新能力的诞生

我们还用 Creativity Index 量化了“新解法”的创意程度,发现训练越久,模型“跳出预训练语料”的能力越强,推理路径越来越有创造性

在这里插入图片描述

此外,强化学习的效果与基础模型的初始表现呈负相关关系:初始 pass@k 较低的任务,在推理边界扩展方面的提升最大;而在诸如数学和代码等高表现领域(其创造力指数较低),推理边界的扩展则较为有限。对于改善幅度较小的任务(即图中显示为“Diminished Area”的部分),基础模型通常具有较低的创造力指数,这表明这些任务可能已在预训练数据中得到了充分覆盖,因此在推理边界上的扩展潜力有限。

在这里插入图片描述

我们希望这项工作为“如何通过RL真正提升大模型的推理能力”提供一个新的思考方向,欢迎大家交流!

http://www.lqws.cn/news/125623.html

相关文章:

  • 内网穿透之Linux版客户端安装(神卓互联)
  • K8S主机漏洞扫描时检测到kube-服务目标SSL证书已过期漏洞的一种永久性修复方法
  • Python IP可达性检测脚本解析
  • 蓝桥杯17114 残缺的数字
  • NPOI操作EXCEL文件 ——CAD C# 二次开发
  • 【Linux】Linux 环境变量
  • [3-02-01].第13节:三方整合 - Jedis客户端操作Redis
  • 【游戏科学】游戏开发中数学算法的核心与应用
  • 四款主流物联网操作系统(FreeRTOS、LiteOS、RT-Thread、AliOS)的综合对比分析
  • 依赖注入的注解
  • IDEA中微服务指定端口启动
  • 每日Prompt:每天上班的状态
  • 【android bluetooth 协议分析 12】【A2DP详解 2】【开启ble扫描-蓝牙音乐卡顿分析】
  • 在 Android 框架中,接口的可见性规则
  • 解决Java项目NoProviderFoundException报错
  • 代码随想录 算法训练 Day22:回溯算法part01
  • 07 APP 自动化- appium+pytest+allure框架封装
  • java31
  • Vue.js教学第十九章:Vue 工具与调试,Vue DevTools 的使用与 VS Code 插件辅助开发
  • 匀速旋转动画的终极对决:requestAnimationFrame vs CSS Animation
  • AI在网络安全领域的应用现状和实践
  • unix/linux,sudo,其发展历程详细时间线、由来、历史背景
  • 《PyTorch:开启深度学习新世界的魔法之门》
  • 使用 React Native 开发鸿蒙(HarmonyOS)运动健康类应用的系统化准备工作
  • DrissionPage调试工具:网页自动化与数据采集的革新利器
  • AI自动化任务执行工具OpenManus一键启动整合包
  • unix/linux,sudo,其历史争议、兼容性、生态、未来展望
  • @Prometheus 监控-MySQL (Mysqld Exporter)
  • 第四十二天打卡
  • 深度学习之路——CNN卷积神经网络详解