LLM 编码器 怎么实现语义相关的 Token 向量更贴近? mask训练:上下文存在 ;; 自回归训练:只有上文,生成模型
LLM 编码器 怎么实现语义相关的 Token 向量更贴近?
目录
- LLM 编码器 怎么实现语义相关的 Token 向量更贴近?
- mask训练:上下文存在
- 自回归训练:只有上文,生成模型
- 一、核心机制:损失函数与反向传播的“语义校准”
- 1. 损失函数的“语义约束”
- 2. 嵌入层参数的“动态调整”
- 二、关键方法:从基础到进阶的训练策略
- 1. 基础方法:自回归预测与掩码语言建模
- 2. 进阶方法:对比学习与多任务学习
- 3. 结构优化:位置编码与多模态融合
- 三、实际案例:从训练到应用的语义关联捕捉
- 1. 词类比任务的语义推理
- 2. Qwen 模型的语义向量优化
- 四、总结:训练的本质是“语义规律的数学化映射”
mask训练:上下文存在
自回归训练:只有上文,生成模型
让语义相关的 Token 向量在高维空间中更贴近,核心是通过损失函数驱动的参数优化和针对性训练策略实现。
一、核心机制:损失函数与反向传播的“语义校准”
1. 损失函数的“语义约束”
在语言模型训练中(如预测下一个词),模型通过交叉熵损失衡量预测结果与真实标签的差异。若语义相关的 Token(如“猫”和“狗”)频繁出现在相似上下文,模型会通过以下逻辑调整向量:
- 正向信号:当“猫”的上下文正确预测“狗”时,损失降低,反向传播会强化“猫”和“狗”向量的相似性。
- 负向信号:若“猫”的上下文错误预测“桌子”,损失升高,反向传播会拉开“猫”与“桌子”的向量距离。