当前位置: 首页 > news >正文

LLM 笔记:Speculative Decoding 投机采样

1 基本介绍 

  • 投机采样(Speculative Sampling)是一种并行预测多个可能输出,然后快速验证并采纳正确部分的加速策略
    • 在不牺牲输出质量的前提下,减少语言模型生成 token 所需的时间
  • 传统的语言模型生成是 串行
    • 必须生成一个,再输入到模型中,才能生成下一个
  • 投机采样的核心思想是
    • 用一个“小模型”提前生成多个候选 token(投机结果),然后用“大模型”一起验证这批候选,并行加速

2 举例 

  • 比如已有 prompt 是:“The weather today is”
  • 小模型(Draft Model)快速生成多个候选 token
    • 例如预测出:"The weather today is [sunny, and, warm, with, ...]" 共 5 个 token
  • 大模型(Target Model)验证这些 token
    • 大模型并行地计算这 5 个 token 的概率;

    • 如果小模型的结果和大模型的前几个 token 一致(大模型在这个token上概率小于小模型的,即小模型“更有把握”),就“采纳”它;如果中途发现不一致,就在那个位置停止,用大模型重新生成。

      •  那么下一轮:
http://www.lqws.cn/news/217117.html

相关文章:

  • C++动态分配内存知识点!
  • Redis主从复制原理二 之 主从复制工作流程
  • Java 中 synchronized 和 ReentrantLock 的全面对比解析
  • 一些因子的解释
  • 「Java基本语法」代码格式与注释规范
  • Redis 与 MySQL 数据一致性保障方案
  • sendDefaultImpl call timeout(rocketmq)
  • 什么是高考?高考的意义是啥?
  • Burp Suite 基础
  • 第三章支线二 ·函数幻阶:语法召唤与逻辑封印
  • 快捷键的记录
  • 6.7本日总结
  • 2023年ASOC SCI2区TOP,随机跟随蚁群优化算法RFACO,深度解析+性能实测
  • PCB设计教程【大师篇】——STM32开发板电源设计(电压基准、滤波电容)
  • 基于TarNet、CFRNet与DragonNet的深度因果推断模型全解析
  • 当SAP系统内计划订单转换为生产订单时发生了什么?
  • 使用 SAM + YOLO + ResNet 检测工业开关状态:从零到部署
  • 在 Java 中!(逻辑非)和 ||(逻辑或)的优先级关系
  • Qt(part 2)1、Qwindow(菜单栏,工具栏,状态栏),铆接部件,核心部件 ,2、添加资源文件 3、对话框
  • LINUX67 FTP 3客户服务系统;FTP 上传、下载测试调试
  • 从认识AI开始-----AutoEncoder:生成模型的起点
  • STM32开发,创建线程栈空间大小判断
  • 手拉手处理RuoYi脚手架常见文问题
  • 零基础在实践中学习网络安全-皮卡丘靶场(第十六期-SSRF模块)
  • 【C/C++】std::vector成员函数清单
  • Global Security Market知识点总结:主经纪商业务
  • 以智能管理为基础,楼宇自控打造建筑碳中和新路径
  • Java基于SpringBoot的校园闲置物品交易系统,附源码+文档说明
  • 总结html标签之button标签
  • 6月7日day47打卡