当前位置：首页 > news >正文

Adam优化器

news 2025/6/27 7:22:06

同时调节梯度项和学习率项，基于这种想法衍生出来的方法是Adam。
Adam表达式
$\begin{aligned} &\mathbf{x}_{t+1} =\mathbf{x}_{t}-\frac{\eta}{\sqrt{v_t} + \epsilon} m_t \\ &v_t = \beta_1 V_{t-1}+(1-\beta_1)\nabla^2 f\left(\mathbf{x}_{t}\right)\\ &m_t = \beta_2 m_{t-1}+(1-\beta_2)\nabla f\left(\mathbf{x}_{t}\right) \end{aligned}$
注意， $m_t$ 中的梯度是没有平方的

偏差修正
$\begin{aligned} &\mathbf{x}_{t+1} =\mathbf{x}_{t}-\frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t \\ &v_t = \beta_1 V_{t-1}+(1-\beta_1)\nabla^2 f\left(\mathbf{x}_{t}\right)\\ &m_t = \beta_2 m_{t-1}+(1-\beta_2)\nabla f\left(\mathbf{x}_{t}\right)\\ &\hat{v}_{t} = \frac{v_t}{1-\beta_1^t}\\ &\hat{m}_{t} = \frac{m_t}{1-\beta_2^t}\\ \end{aligned}$
观察Adam的表达式，可以看到由于在 $v_t$ 和 $m_t$ 中都用到了指数加权平均，这种计算方法会导致在训练的前几步，无论是 $v_t$ 还是 $m_t$ 的值都会偏小。

例如在缓坡中，缓坡梯度0.001，beta为0.9，梯度的期望应该与斜率一致，mt计算出来的第一步的值仅为斜率的1/10，可能会使训练初期不稳定，造成震荡或收敛困难等问题。

因此通常需要额外对VT和mt进行偏差修正，解决前期估计值偏小的问题，使得即使在前几步vt和mt较小，也能拉回真实的统计量期望。

多参数下，扩展到三维，在a方向上 $m_t$ 可以减小震荡，加速收敛，B方向受到 $v_t$ 影响，学习率增大，加速下降。同时a、b方向都能自适应的调整学习率大小，使得针对多个参数的训练更加灵活。
然而虽然Adam看似具有了很大的优势，但在实际训练中并不一定Adam就是最好的选择。有时候选择标准动量法或RMSprop反而会有更好的效果。Adam是比较常用的，但是不是必须要用的，因为sgd+momentum 效果已经非常好了，Adam不一定有sgd+momentum 好，但是Adam对学习率不敏感，所以实践中还是要多尝试