当前位置: 首页 > news >正文

STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning论文笔记

前言

STaR: Self-Taught Reasoner
Bootstrapping Reasoning With Reasoning

斯坦福和google research共同的论文

link:https://arxiv.org/pdf/2203.14465

一、 方法

  • 数据集包含 少量cot的数据和不包含cot的大量数据集。

1.1 通过少量cot fewshot生成

通过少量逻辑的样例,生成回答大量问题的逻辑

把少量的带有逻辑的示例,当作Prompt中的few shot引导llm生成cot范式的response

1.2 Refine

对于生成答案如果正确,则生成带有cot正确的response和原本的prompt组合成一个训练数据

对于答案错误的,则通过在输入Prompt中hint正确答案,根据正确答案来引导模型生成正确的cot逻辑

1.3 训练

最终对于可以生成正确答案的response和prompt做训练,反复迭代这个过程

二、实验结果

http://www.lqws.cn/news/486847.html

相关文章:

  • ISCSI存储
  • Java性能优化权威指南-操作系统性能监控
  • FreeRTOS 介绍、使用方法及应用场景
  • redis如何使用IO多路复用
  • 从语言到生态:编程语言在各行业的应用格局与未来演进
  • Data Vault 初探(五) —— 定期装载_SQL
  • 从java角度理解io多路复用和redis为什么使用io多路复用
  • docker启动的rabbitmq搭建并集群和高可用
  • AS32系列MCU芯片I2C模块性能解析与调试
  • 秘塔AI搜索:国产无广告智能搜索引擎,重塑高效信息获取体验
  • 1 Studying《Systems.Performance》1-6
  • 跨域视角下强化学习重塑大模型推理:GURU框架与多领域推理新突破
  • 黑马python(十三)
  • 二刷苍穹外卖 day03
  • K8s入门指南:架构解析浓缩版与服务间调用实战演示
  • C#Halcon从零开发_Day14_AOI缺陷检测策略1_Bolb分析+特征分析_饼干破损检测
  • 国产12537穿甲弹侵彻仿真(显式动力学)
  • DeepSeek15-揭密模型上下文协议(MCP)
  • 从零开始手写redis(15)实现自己的 HashMap
  • 大模型LoRA微调实践
  • C语言:位段
  • Python期末速成
  • 没掌握的知识点记录
  • day39/60
  • 链接脚本基础语法
  • Python打卡训练营Day56
  • 给同一个wordpress网站绑定多个域名的实现方法
  • ICML 2025 | 时空数据(Spatial-Temporal)论文总结
  • C++智能指针编程实例
  • 消息队列:基本知识