当前位置: 首页 > news >正文

OpenAI:Let’s Verify Step by Step 解读

前言

Let’s Verify Step by Step

OpenAI的一篇经典论文。

  • 链接:https://arxiv.org/pdf/2305.20050
  • github: https://github.com/openai/prm800k

实验

目的

  • 对于multi step reasoning的问题,模型经常出现逻辑的错误
  • 讨论结果监督(Outcome-supervised Reward Models ,ORMs)和过程监督(Process-supervised Reward Models,PRMs)的优劣

ORM和PRM的区别

  • ORM只关注于结果对与否(存在结果恰好正确,但其中的reasoning的部分出现错误,属于误判样本), PRM关注于某个过程的对与否
  • PRM可以对与错误的样本给出错误的步骤,而ORM给不出错误的细节

实验细节

  • 使用GPT-4训练得到ORM和PRM
  • 利用GPT-4当作生成器,对一个prompt生成多个结果(BON),选择其中一个结果,作为final response进行评估

数据构成

对每个步骤进行人工的标注(对与错), 过程结果和最终结果就都有了,但也做了更多的优化:选择了更具有迷惑性的样本(简单来说就是更难的样本,模型更容易判断错误的样本)

结果

比较三种方式来给出最终的top1作为评估的回答

  • ORM
  • PRM
  • vote(类似于model ensemble)

横坐标为每个prompt生成的response数量,可以发现随着数量的增多,PRM远超于ORM和vote,并且ORM也大于vote方法,说明ORM也是有一定的作用的,但是在reasoning的过程中进行反馈的作用更大。

http://www.lqws.cn/news/559441.html

相关文章:

  • 权电阻网络DAC实现电压输出型数模转换Multisim电路仿真——硬件工程师笔记
  • Http请求参数的区别
  • 户外人像要怎么拍 ?
  • 行为型 - 责任链模式详解
  • gantt-task-react的改造使用
  • MCP基础知识一
  • 【原理图设计】5Vto3.7Vto1.5V电源板一
  • 基于Uniapp+SpringBoot+Vue 的在线商城小程序
  • 前端react面试题之实现网页多选搜索框
  • 变长字节的数字表示法vb224
  • 抽屉打印公共组件想要实现的打印预览样式效果
  • 个人日记本小程序开发方案(使用IntelliJ IDEA)
  • C语言---常见的字符函数和字符串函数介绍
  • 【EDA软件】【联合Modelsim 同步FIFO仿真】
  • FPGA原理结构
  • 用AI给AR加“智慧”:揭秘增强现实智能互动的优化秘密
  • FPGA设计的用户约束
  • 领域驱动设计(DDD)【23】之泛化:从概念到实践
  • Spring Cloud Gateway 实战:网关配置与 Sentinel 限流详解
  • win10部署本地LLM和AI Agent
  • NLP——RNN传统模型
  • Linux系统环境编程之进程1
  • Jina-Embeddings-V4:多模态向量模型的革命性突破与实战指南
  • 华为云Flexus+DeepSeek征文|基于Dify构建AI资讯语音播报工作流
  • 鸿蒙5:组件监听和部分状态管理V2
  • Conformal LEC:官方学习教程
  • 【软考高项论文】论信息系统项目的沟通管理
  • [Andrej Karpathy_2] vibe coding | 大型语言模型的1960年代 | 自主性滑块
  • 某省赛题-windows内存取证
  • 【Linux】mmap分析