RL中的熵机制:策略熵坍缩分析与协方差正则化方法
文章目录
- 1. 研究背景
- 2. 策略熵的可预测“坍缩”现象及分析
- 2.1 预备知识
- 2.2 实验分析
- 3. 策略熵动态分析
- 3.1 softmax策略的熵动态理论推导
- 3.2 策略梯度下的熵动态变化机制
- 3.3 实验验证
- 3.4 核心结论
- 4. 熵控制方法:协方差正则化
- 4.1 熵正则化方法分析
- 4.2 抑制高协方差Token
- 4.2.1 Clip-Cov(协方差裁剪)
- 4.2.2 KL-Cov(协方差KL惩罚)
- 4.3 实验
- 5. 总结

1. 研究背景
- RL在LLMs推理中的应用瓶颈:RL是提升大语言模型推理能力的重要方向,但规模化训练面临“探索-利用失衡”问题,策略熵快速下降导致模型过早丧失探索能力,性能陷入停滞。
- 策略熵坍缩现象:无干预时,策略熵在RL训练初期急剧下降(如前200步消耗95%熵),伴随验证性能快速饱和,且性能与熵满足指数关系 R = − a exp H + b R = -a \exp H + b R=−aexpH+b,熵耗尽( H = 0 H=0 H=0)时性能达可预测上限。
- 传统方法的局限性:传统熵正则化方法(如熵损失、KL惩罚)对超参数敏感,易导致性能下降或不稳定,且未针对LLMs中高协方差tokens主导熵坍缩的机制设计,干预低效。
- 研究目标:揭示策略熵动态的理论机制(协方差驱动),提出精准控制高协方差tokens的方法,突破熵瓶颈,提升RL在LLMs推理中的计算效率和性能上限。
2. 策略熵的可预测“坍缩”现象及分析
2.1 预备知识
考虑使用强化学习在可验证任务(如数学和编程)上对大语言模型进行调优,以避免reward hacking。给定输入提示 x x x,大语言模型 π θ \pi_{\theta} πθ自回归生成由 T T T个 token { y 1 , ⋯ , y t , ⋯ , y T } \{y_1, \cdots, y_t, \cdots, y_T\} {y1,⋯,yt,⋯,yT}组成的输出序列 y y y。使用强化学习优化语言模型策略,以最大化从验证器获得的累积奖励 r r r:
max θ J ( θ ) : = E x ∼ D , y ∼ π θ ( x ) [ r ( y ) ] \max_{\theta} J(\theta) := \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(x)}[r(y)] θmaxJ(θ):=Ex∼D,y∼πθ(x)[r(y)]
其中 D \mathcal{D} D为训练分布。为优化目标函数,通常采用策略梯度算法进行梯度估计:
∇ θ J ( θ ) = E x ∼ D , y ∼ π θ ( x ) [ ∑ t = 0 T ∇ θ log π θ ( y t ∣ y < t ) A t ] \nabla_{\theta} J(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}(x)}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(y_t | y_{<t}) A_t\right] ∇θJ(θ)=Ex∼D,y∼πθ(x)[t=0∑T∇θlogπθ(yt∣y<t)At]
这里 A t A_t At为当前动作的优势值,在不同强化学习算法中有不同实现。例如,GRPO 对每个提示采样 K K K个response,并将优势估计为:
A t = r ( y ) − mean ( r ( y 1 : K ) ) std ( r ( y 1 : K ) ) A_t = \frac{r(y) - \text{mean}(r(y^{1:K}))}{\text{std}(r(y^{1:K}))} At=std(r(y1:K))r(y)−mean(r(y1:K))
为处理离策略数据并限制策略更新幅度,PPO提出:
L ( θ ) = E t [ min ( π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t , clip ( π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) , 1 − ϵ , 1 + ϵ ) A t ) ] L(\theta) = \mathbb{E}_t\left[\min\left(\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t, \text{clip}\left(\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})}, 1 - \epsilon, 1 + \epsilon\right) A_t\right)\right] L(θ)=Et[min(πθold(yt∣y<t)πθ(yt∣y<t)At,clip(πθold(yt∣y<t)πθ(yt∣y<t),1−ϵ,1+ϵ)At)]
策略熵用于量化 Agent 动作选择的可预测性或随机性。给定策略模型 π θ \pi_{\theta} πθ和训练数据集 D \mathcal{D} D,策略模型在训练数据上的平均 token-level 熵,即策略熵,被定义为:
H ( π θ , D ) = − E D , π θ [ log π θ ( y t ∣ y < t ) ] = − 1 ∣ D ∣ ∑ x ∈ D 1 ∣ y ∣ ∑ t = 1 ∣ y ∣ E y t ∼ π θ [ log π θ ( y t ∣ y < t , x ) ] \mathcal{H}(\pi_{\theta}, \mathcal{D}) = -\mathbb{E}_{\mathcal{D}, \pi_{\theta}}\left[\log \pi_{\theta}(y_t | y_{<t})\right] = -\frac{1}{|\mathcal{D}|} \sum_{x \in \mathcal{D}} \frac{1}{|y|} \sum_{t=1}^{|y|} \mathbb{E}_{y_t \sim \pi_{\theta}}\left[\log \pi_{\theta}(y_t | y_{<t}, x)\right] H(πθ,D)=−ED,πθ[logπθ(yt∣y<t)]=−∣D∣1x∈D∑∣y∣1t=1∑∣y∣Eyt∼πθ[logπθ(yt∣y<t,x)]
该熵量化了策略模型在当前prompt下的不确定性水平,在最大熵强化学习中被广泛用作正则化项。
2.2 实验分析
作者在4个模型家族、11个基础模型(0.5-32B参数)上,针对数学和编程等可验证任务,采用GRPO、REINFORCE++等4种RL算法进行了策略熵与性能关系的实验。然后,有以下结论:
(1)熵坍缩与性能饱和的动态特征
- 策略熵的快速坍缩:在2400步RL训练中,前200步(1/12)消耗73%熵并实现76%性能提升,前800步(1/3)消耗94%熵、获得93%性能增益,后续训练收益趋近于零,表明熵耗尽导致探索停滞。
- 模型一致性:所有11个模型均呈现上述模式,验证熵坍缩是LLM在RL中的普遍问题。
(2)熵与性能的指数关系及预测性
- 公式拟合:验证性能 R R R(准确率)与策略熵 H H H满足指数函数 R = − a exp ( H ) + b R = -a \exp(H) + b R=−aexp(H)+b,仅需2个系数即可拟合超200个数据点,适用于不同模型、任务及数据集。
- 早期预测能力:利用前36步(15%训练量)数据拟合曲线,可准确预测Qwen2.5家族后续200步性能,且能通过 H = 0 H=0 H=0预测性能上限 R = − a + b R=-a+b R=−a+b。
(3)参数含义
- 根据 d R / d H = − a exp ( H ) dR/dH = -a \exp(H) dR/dH=−aexp(H)可知,系数 a a a反映了模型将不确定性即熵转化为下游性能的速率,与模型参数呈对数线性关系。
- 系数 b b b决定了理论上的最大性能,由模型架构和数据决定,大模型(如32B)的 b b b值显著高于小模型,表明其潜在推理能力更强。如下图所示,两个参数随着策略模型尺寸增加以对数线性速率变化。
- 不同RL算法(GRPO、RLOO、PRIME)不影响拟合曲线形式,证实熵-性能关系是模型内在特性,而非算法差异导致。
此外,作者还指出,熵耗尽时的固定上限 R = − a + b R=-a+b R=−a+b表明,无干预的RL无法突破预训练模型的潜在能力,单纯增加计算量难以提升性能,需主动管理熵以维持探索。
3. 策略熵动态分析
第2节揭示了熵坍缩问题将大大障碍RL对模型性能的提升。 为了解决它,需要对策略熵的动态变化有更进一步地理解,即熵何时减少以及熵何时增加。
3.1 softmax策略的熵动态理论推导
核心问题:策略熵在参数更新前后的变化机制,即step k和step k+1间的策略熵之差 H ( π θ k + 1 ) − H ( π θ k ) H(\pi_{\theta}^{k+1})-H(\pi_{\theta}^{k}) H(πθk+1)−H(πθk)。作者首先考虑了LLM的softmax策略,即策略由以下公式参数化:
π θ ( a ∣ s ) = exp ( z s , a ) ∑ a ′ ∈ A exp ( z s , a ′ ) \pi_{\theta}(a | s) = \frac{\exp(z_{s, a})}{\sum_{a' \in \mathcal{A}} \exp(z_{s, a'})} πθ(a∣s)=∑a′∈Aexp(zs,a′)exp(zs,a)
其中 s ∼ d π θ s \sim d_{\pi_{\theta}} s∼dπθ和 a ∼ π θ k ( ⋅ ∣ s ) a \sim \pi_{\theta}^{k}(\cdot | s) a∼πθk(⋅∣s)分别表示状态和动作, z s , a z_{s, a} zs,a是给定状态 s s s时动作 a a a的输出对数几率(logit)。对于softmax策略,利用泰勒展开一阶近似,推导得出熵变化与动作概率的对数 log π θ ( a ∣ s ) \log \pi_{\theta}(a|s) logπθ(a∣s)和对数几率变化 Δ z s , a = z s , a k + 1 − z s , a k \Delta z_{s,a} = z_{s,a}^{k+1} - z_{s,a}^{k} Δzs,a=zs,ak+1−zs,ak的协方差成反比:
Δ H ≈ − E s [ Cov a ∼ π θ k ( log π θ k ( a ∣ s ) , Δ z s , a ) ] \Delta H \approx -\mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), \Delta z_{s,a} )\right] ΔH≈−Es[Cova∼πθk(logπθk(a∣s),Δzs,a)]
- 物理意义:高概率动作的对数几率增加(正协方差)会降低熵,低概率动作的对数几率增加(负协方差)会提升熵。
3.2 策略梯度下的熵动态变化机制
策略梯度类算法(如REINFORCE、GRPO):
- 对数几率变化与动作优势 A ( s , a ) A(s,a) A(s,a)成正比: Δ z s , a = η ⋅ π θ ( a ∣ s ) ⋅ A ( s , a ) \Delta z_{s,a} = \eta \cdot \pi_{\theta}(a|s) \cdot A(s,a) Δzs,a=η⋅πθ(a∣s)⋅A(s,a)( η \eta η为学习率)。
- 熵变化公式:
Δ H ≈ − η ⋅ E s [ Cov a ∼ π θ k ( log π θ k ( a ∣ s ) , π θ k ( a ∣ s ) ⋅ A ( s , a ) ) ] \Delta H \approx -\eta \cdot \mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), \pi_{\theta}^k(a|s) \cdot A(s,a) )\right] ΔH≈−η⋅Es[Cova∼πθk(logπθk(a∣s),πθk(a∣s)⋅A(s,a))]
结论:高概率且高优势的动作(如训练初期的“自信”动作)会显著降低熵。
自然策略梯度(Natural Policy Gradient):
- 对数几率变化直接与优势成正比: Δ z s , a = η ⋅ A ( s , a ) \Delta z_{s,a} = \eta \cdot A(s,a) Δzs,a=η⋅A(s,a)。
- 熵变化公式:
Δ H ≈ − η ⋅ E s [ Cov a ∼ π θ k ( log π θ k ( a ∣ s ) , A ( s , a ) ) ] \Delta H \approx -\eta \cdot \mathbb{E}_{s}\left[\text{Cov}_{a \sim \pi_{\theta}^k}( \log \pi_{\theta}^k(a|s), A(s,a) )\right] ΔH≈−η⋅Es[Cova∼πθk(logπθk(a∣s),A(s,a))]
结论:动作优势与概率的正相关性仍主导熵下降。
3.3 实验验证
采用GRPO算法在Qwen2.5-7B上进行带策略梯度的在线学习,计算每个prompt的组内协方差,并按准确率划分难度组(低准确率=高难度)。
实验结论:
- 协方差与熵变化的一致性:
- 训练初期协方差显著为正,且与熵下降速率高度吻合,验证了“正协方差导致熵单调下降”的理论。
- 协方差随训练逐渐降低但保持正值,解释了熵持续缓慢下降的现象。
- 难度依赖性:
- 简单任务(高准确率)的协方差更高,模型对高概率动作的优势估计更一致,加速熵坍缩;
- 困难任务(低准确率)的协方差较低,模型不确定性更高,熵下降更缓慢。
3.4 核心结论
- 熵坍缩的本质原因:RL算法对高概率高优势动作的偏好(正协方差主导)导致策略分布快速集中,探索能力丧失。
- 结论:若要提升熵,需抑制高协方差动作的更新(如减少其梯度贡献),或鼓励低概率高优势动作(负协方差)的探索。
4. 熵控制方法:协方差正则化
4.1 熵正则化方法分析
传统RL中常用熵损失(Entropy Loss)或KL惩罚(KL Penalty)维持策略熵,但在LLMs的RL场景中效果有限。
实验设计:
- 熵损失:在损失函数中添加熵项 L ent = L − α H ( π θ ) L_{\text{ent}} = L - \alpha \mathcal{H}(\pi_{\theta}) Lent=L−αH(πθ),其中 α \alpha α为熵系数。
- KL惩罚:在损失函数中引入当前策略与参考策略的KL散度。
实验结论:
- 熵损失的敏感性:当 α ≤ 0.001 \alpha \leq 0.001 α≤0.001时,熵几乎无变化,性能提升有限;当 α = 0.01 \alpha = 0.01 α=0.01时,熵出现“爆炸”式增长,模型陷入随机探索,性能显著下降; α = 0.005 \alpha = 0.005 α=0.005虽能暂时稳定熵,但最终性能未超越基线。
- KL惩罚的局限性:KL虽能维持熵值,但导致策略偏离有效路径,性能普遍低于基线。
因此,传统熵正则化方法在LLMs中面临“高敏感性”和“低效探索”问题,原因在于其未针对LLMs中高协方差tokens主导熵坍缩的机制设计,而是全局干预策略分布,导致探索与利用的平衡失效。
4.2 抑制高协方差Token
根据第三章理论,策略熵坍缩主要由高协方差tokens(即高概率且高优势的动作)驱动。因此,控制熵的关键在于选择性抑制此类tokens的更新,而非全局调整策略分布。
少数tokens主导协方差:实验表明,仅0.02%的高协方差tokens的平均协方差值是整体平均值的1800倍以上。这些tokens的更新直接导致熵快速下降,抑制其梯度或施加惩罚可有效减缓熵坍缩。
4.2.1 Clip-Cov(协方差裁剪)
- 原理:随机选择一小部分高协方差tokens,切断其与策略梯度的连接,阻止其对参数更新的贡献。
- 实现步骤:
- 计算每个token的协方差
Cov ( y i ) = ( log π θ ( y i ) − mean ( log π θ ( y j ) ) ) ⋅ ( A ( y i ) − mean ( A ( y j ) ) ) \text{Cov}(y_i) = \left(\log \pi_{\theta}(y_i) - \text{mean}(\log \pi_{\theta}(y_j))\right) \cdot \left(A(y_i) - \text{mean}(A(y_j))\right) Cov(yi)=(logπθ(yi)−mean(logπθ(yj)))⋅(A(yi)−mean(A(yj))) - 设定协方差阈值(如高于平均500倍),随机选取 r ⋅ N r \cdot N r⋅N个高协方差tokens( r = 2 × 10 − 4 r = 2 \times 10^{-4} r=2×10−4),即集合 I c l i p I_{clip} Iclip
- 在梯度计算中剔除这些tokens的贡献( detach \text{detach} detach操作),仅更新剩余tokens。
- 计算每个token的协方差
- 公式化:
L Clip-Cov ( θ ) = { E t [ π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t ] , t ∉ I clip 0 , t ∈ I clip L_{\text{Clip-Cov}}(\theta) = \begin{cases} \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t\right], & t \notin I_{\text{clip}} \\ 0, & t \in I_{\text{clip}} \end{cases} LClip-Cov(θ)={Et[πθold(yt∣y<t)πθ(yt∣y<t)At],0,t∈/Iclipt∈Iclip
其中 I clip I_{\text{clip}} Iclip为选中的高协方差token索引集。
4.2.2 KL-Cov(协方差KL惩罚)
- 原理:对高协方差tokens施加KL散度惩罚,强制其策略分布接近旧策略,抑制过度自信。
- 实现步骤:
- 按协方差排序,选取前 k ⋅ N k \cdot N k⋅N个tokens。对于7B模型, k = 2 × 10 − 3 k = 2 \times 10^{-3} k=2×10−3;对于32B模型, k = 2 × 10 − 4 k = 2 \times 10^{-4} k=2×10−4。
- 在损失函数中对这些tokens添加KL惩罚项:
L KL-Cov ( θ ) = { E t [ π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t ] , t ∉ I KL E t [ π θ ( y t ∣ y < t ) π θ old ( y t ∣ y < t ) A t − β ⋅ KL ( π θ old ∣ ∣ π θ ) ] , t ∈ I KL L_{\text{KL-Cov}}(\theta) = \begin{cases} \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t\right], & t \notin I_{\text{KL}} \\ \mathbb{E}_t\left[\frac{\pi_{\theta}(y_t | y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | y_{<t})} A_t - \beta \cdot \text{KL}(\pi_{\theta_{\text{old}}} || \pi_{\theta})\right], & t \in I_{\text{KL}} \end{cases} LKL-Cov(θ)=⎩ ⎨ ⎧Et[πθold(yt∣y<t)πθ(yt∣y<t)At],Et[πθold(yt∣y<t)πθ(yt∣y<t)At−β⋅KL(πθold∣∣πθ)],t∈/IKLt∈IKL
其中 β = 1 \beta = 1 β=1为惩罚系数, I KL I_{\text{KL}} IKL为高协方差token索引集。
4.3 实验
主要基于Qwen2.5(7B和32B),以及数学推理任务(如AIME 2024/2025、MATH500等)进行实验。
- 基线GRPO的策略熵在训练初期骤降至近0,而Clip-Cov/KL-Cov使熵值始终维持在基线的10倍以上,且曲线更稳定,避免了传统方法(如Clip-higher)的后期波动或坍缩。
- Qwen2.5-7B平均准确率提升2%(AIME24从21.2%→22.1%),32B提升6.4%(AIME24从21.8%→36.8%),尤其在高难度任务(如OlympiadBench)中优势明显。
- 模型规模与干预效果的正相关性: 32B模型的性能提升幅度远高于7B,揭示大模型对高协方差tokens的依赖更强,熵控制对释放其推理潜力更关键。
- 定性分析显示,KL-Cov模型生成的响应包含更多中间推理步骤,避免了基线模型的简单答案过拟合倾向,证明熵控制可促进探索更复杂的解题策略。
- 在相同训练步数下,Clip-Cov/KL-Cov通过维持有效探索,使大模型的计算资源利用率显著高于基线,为RL的规模化训练提供了效率优化路径。
5. 总结
这篇文章针对大语言模型在RL推理中面临的策略熵坍缩问题展开研究。在RL训练中,无干预时策略熵会在初期急剧下降至近0,导致模型探索能力丧失、性能提前饱和,且性能与熵呈可预测的指数关系 R = − a exp H + b R = -a \exp H + b R=−aexpH+b,熵耗尽时性能达到上限。传统熵正则化方法(如熵损失、KL惩罚)因全局干预且未针对核心机制,效果有限且超参数敏感。
通过理论分析,作者发现策略熵变化由动作概率与对数几率变化的协方差驱动,高概率高优势动作的正协方差主导熵单调下降。基于此,提出Clip-Cov(裁剪高协方差tokens梯度)和KL-Cov(对高协方差tokens施加KL惩罚)两种方法,精准抑制少数主导熵坍缩的tokens更新。实验表明,两种方法可使策略熵维持在基线10倍以上,Qwen2.5-32B在数学推理任务中准确率提升6.4%,高难度任务AIME24提升15%,验证了方法的有效性。