当前位置: 首页 > news >正文

大语言模型LLM在训练/推理时的padding

讨论的是在训练大型语言模型(Transformer-based models,比如GPT等)时,文本序列的填充(padding)问题,即训练和推理时分辨填充在序列的左侧(left padding)或右侧(right padding)进行?

先说结论:常规实践时,训练时,我们通常使用右填充(right padding);在推理时,使用左填充(left padding)。当然在通常的训练推理框架中这是一个可选配置。例如,在Hugging Face的Transformers库中,默认的填充方式可以通过tokenizer的设置来选择。
为什么会有这样的常规设置?

下面先详细解释一下左右padding的含义:

1. 右填充(Right Padding): 在序列的右侧(即末尾)添加填充符号(如[PAD] token)直到达到最大长度。 例如,假设最大长度为5,一个序列为["A", "B"],右填充后变成["A", "B", "[PAD]", "[PAD]", "[PAD]"]。
2. 左填充(Left Padding): 在序列的左侧(即开头)添加填充符号。 同样的例子,左填充后变成["[PAD]", "[PAD]", "[PAD]", "A", "B"]。

padding的作用是:

  • 一个批次(batch)中的文本序列长度不同,需通过添加特殊符号(如[PAD])使所有序列等长。

  • 便于并行计算(如GPU加速),避免因长度不一致导致的计算错误。

接下来解释为什么训练是右填充,推理是左填充:

训练时,对于自回归模型(从左到右生成),我们一次处理整个序列,模型在预测下一个token时,注意力机制会关注到左侧的所有token,因此我们把填充部分放在右边,右填充确保真实token集中在左侧,模型更易学习连续依赖关系。然后通常会对填充位置计算损失时进行掩码(mask),所以填充部分不会影响训练。

在推理时,当我们使用批次推理(batch inference)并采用自回归生成时,左填充可以使得每个序列的真实内容都位于右侧,这样在生成过程中,模型每次只需要关注最新的token(即最右侧的token),而左侧的填充不会干扰生成。同时,由于模型在生成时是从左到右,左填充确保了真实内容在生成过程中始终位于模型的右侧上下文,生成文本时(如逐token生成),左填充将真实token推向右侧,使模型每次只需关注最新生成的token(右侧)。若用右填充,生成过程中真实token在左侧,而模型会根据右侧Padding token来生成新内容,效果差。

http://www.lqws.cn/news/577351.html

相关文章:

  • SQL参数化查询:防注入与计划缓存的双重优势
  • 衡石科技chatbot分析手册--钉钉数据问答机器人配置
  • 设计模式之外观模式
  • 【微服务】.Net中使用Consul实现服务高可用
  • 大语言模型微调的效能控制与评估策略
  • 提示技术系列——链式提示
  • 跨主机用 Docker Compose 部署 PostgreSQL + PostGIS 主从
  • 对象池模式:减少GC的Kotlin实战指南
  • 基于 SpringBoot+Vue.js+ElementUI 的 Cosplay 论坛设计与实现7000字论文
  • LeetCode 1456. 定长子串中元音的最大数目
  • MapReduce
  • EtherCAT主站教程4--IGH主站代码详解
  • 云手机的用途都有哪些?
  • Deep Mean-Shift Priors for Image Restoration论文阅读
  • mysql mvcc
  • Hadoop WordCount 程序实现与执行指南
  • Java 案例 6 - 数组篇(基础)
  • 第 89 场周赛:山脉数组的峰值索引、车队、考场就坐、相似度为 K 的字符串
  • 大语言模型(LLM)笔记
  • UE5 一台电脑+双显示器 配置nDisplay裸眼3D效果
  • 东芝TC78S600FNG在打印机中的应用:静音、防卡纸与能效
  • Python 数据分析与机器学习入门 (八):用 Scikit-Learn 跑通第一个机器学习模型
  • 智慧畜牧-猪场猪只行为状态检测数据集VOC+YOLO格式3790张15类别
  • Java中for与foreach
  • python+uniapp基于微信小程序的生鲜订购系统nodejs+java
  • 基于uniapp的老年皮肤健康管理微信小程序平台(源码+论文+部署+安装+售后)
  • JAVA八股文:异常有哪些种类,可以举几个例子吗?Throwable类有哪些常见方法?
  • HTML5 实现的圣诞主题网站源码,使用了 HTML5 和 CSS3 技术,界面美观、节日氛围浓厚。
  • 湖北理元理律师事务所债务解法:从法律技术到生活重建
  • 车载Tier1 supplier梳理