当前位置：首页 > news >正文

损失函数L对全连接层W、X、b的梯度

news 2025/8/4 2:20:53

假设：X的维度为 $s\times n$ ，其中s为样本数，每个样本均展平为 $1\times n$ 的行向量；W维度为 $n\times o$ ，其中o为全连接层的输出维度；b维度为 $1\times o$ ；Z维度为 $s\times o$ ，并且 $Z=X\times W+b$
$Z=\begin{bmatrix} z_{11} & … & z_{1o} \\ & … & \\ z_{s1} & … & z_{so} \end{bmatrix}$
$X=\begin{bmatrix} x_{11} & … & x_{1n} \\ & … & \\ x_{s1} & … & x_{sn} \end{bmatrix}$
$W=\begin{bmatrix} w_{11} & … & w_{1o} \\ & … & \\ w_{n1} & … & w_{no} \end{bmatrix}$
$b=\begin{bmatrix} b_{1} & … & b_{o} \\ \end{bmatrix}$

损失函数L对W的梯度：

$\frac{\partial L}{\partial W}=X^T\times\frac{\partial L}{\partial Z}$

$\textbf{证明：}$

因为

$z_{ij}=\sum_{t=1}^n{x_{it}w_{tj}+b_j}$

所以 $\frac{\partial z_{ij}}{\partial w_{kl}}= \left\{ \begin{aligned} & x_{ik}, && \text{如果 } j=l \\ & 0, && \text{如果 } j \neq l \end{aligned} \right.$
所以
$\frac{\partial L}{\partial w_{kl}} = {\sum_{i=1}^s \sum_{j=1}^{o} \frac{\partial L}{\partial z_{ij}} \frac{\partial z_{ij}}{\partial w_{kl}}} =\sum_{i=1}^s\frac{\partial L}{\partial z_{il}}x_{ik}$
又因为
$X^T\times\frac{\partial L}{\partial Z}= \begin{bmatrix} x_{11} & … & x_{s1} \\ & … & \\ x_{1n} & … & x_{sn} \\ \end{bmatrix} \times \begin{bmatrix} \frac{\partial L}{\partial z_{11}} & … & \frac{\partial L}{\partial z_{1o}} \\ & … & \\ \frac{\partial L}{\partial z_{s1}} & … & \frac{\partial L}{\partial z_{so}} \end{bmatrix}$
所以
$(X^T\times\frac{\partial L}{\partial Z})_{kl}=\sum_{i=1}^s\frac{\partial L}{\partial z_{il}}x_{ik}=\frac{\partial L}{\partial w_{kl}}$
所以
$\frac{\partial L}{\partial W}=X^T\times\frac{\partial L}{\partial Z}$

损失函数L对X的梯度：

$\frac{\partial L}{\partial X}=\frac{\partial L}{\partial Z}\times W^T$

$\textbf{证明：}$

$\frac{\partial L}{\partial x_{ij}}=\sum_{l=1}^s\sum_{k=1}^o\frac{\partial L}{\partial z_{lk}}\frac{\partial z_{lk}}{\partial x_{ij}}$
因为

$z_{lk}=\sum_{l=1}^n{x_{lt}w_{tk}+b_k}$
所以 $\frac{\partial z_{lk}}{\partial x_{ij}}= \left\{ \begin{aligned} & w_{jk}, && \text{如果 } l=i \\ & 0, && \text{如果 } l \neq i \end{aligned} \right.$

所以 $\frac{\partial L}{\partial x_{ij}}=\sum_{k=1}^o\frac{\partial L}{\partial z_{ik}}w_{jk}$

而 $\frac{\partial L}{\partial Z}\times W^T= \begin{bmatrix} \frac{\partial L}{\partial z_{11}} & … & \frac{\partial L}{\partial z_{1o}} \\ & … & \\ \frac{\partial L}{\partial z_{s1}} & … & \frac{\partial L}{\partial z_{so}} \end{bmatrix} \times \begin{bmatrix} w_{11} & … & w_{n1} \\ & … & \\ w_{1o} & … & w_{no} \end{bmatrix}$

所以 $(\frac{\partial L}{\partial Z}\times W^T)_{ij}=\sum_{k=1}^o\frac{\partial L}{\partial z_{ik}}w_{jk}=\frac{\partial L}{\partial x_{ij}}$

所以 $\frac{\partial L}{\partial X}=\frac{\partial L}{\partial Z}\times W^T$

损失函数L对b的梯度：

$\frac{\partial L}{\partial b}=sum(\frac{\partial L}{\partial Z}, axis=0) \#逐列求和$

$\textbf{证明：}$

因为
$\frac{\partial L}{\partial b_{k}} = \sum_{i=1}^s \sum_{j=1}^{o} \frac{\partial L}{\partial z_{ij}} \frac{\partial z_{ij}}{\partial b_{k}} =\sum_{i=1}^s\frac{\partial L}{\partial z_{ik}}$