当前位置：首页 > news >正文

神经网络中的梯度消失与梯度爆炸

news 2025/8/18 17:11:09

在深层次的神经网络中很容易出现梯度消失与梯度爆炸的问题。这篇博客就详细介绍一下为什么会产生梯度消失与梯度爆炸的问题，以及如何解决。

首先梯度是什么

类比快递员送包裹：

神经网络训练时，需要根据预测错误（损失函数）调整每层的参数（比如权重）。
梯度就像 “错误快递员”，它从最后一层（输出层）出发，反向传播到每一层，告诉该层 “参数需要调多少”。
目标：让梯度顺利送达每一层，指导参数更新，减少预测错误。

梯度消失 / 爆炸的本质：反向传播时 “快递员迷路或暴走”

假设一个 100 层的神经网络，反向传播时梯度要从第 100 层传到第 1 层。
每经过一层，梯度会被该层的权重矩阵和激活函数的导数“放大或缩小”。

1.梯度消失--快递员送到最后没有力气了

常见场景：
- 每层权重矩阵的绝对值普遍小于 1（比如初始化时权重很小），或激活函数导数小于 1（如 Sigmoid 函数导数最大值 0.25）。
- 每经过一层，梯度就乘以一个小于 1 的数（类似 “打折扣”）。
- 100 层后：梯度可能从初始值（如 0.5）变成0.5100，几乎接近 0，无法更新前面层的参数。

类比：
想象你托朋友的朋友的朋友……（100 个朋友）传一句话到老家。
每传一次，话的清晰度打 8 折（比如 “今晚吃饭” 传成 “今晚吃”，再传成 “今晚”……），传到最后可能只剩噪音。

2.梯度爆炸--快递员突然发疯乱送

常见场景：
- 每层权重矩阵的绝对值普遍大于 1（如初始化时权重很大），或激活函数导数大于 1（理论上 ReLU 导数为 1，但实际可能因参数缩放导致放大）。
- 每经过一层，梯度就乘以一个大于 1 的数（类似 “滚雪球”）。
- 100 层后：梯度可能从初始值（如 2）变成2100，数值大到无法控制，参数更新时 “乱跳”。

类比：
你让朋友的朋友……（100 个朋友）帮忙传 “借 100 元”，每传一次金额翻倍，传到最后可能变成 “借 1 亿”，完全失控。

为什么深层网络更容易出问题？

1.链式反应的累积效应

反向传播的数学本质是链式求导（每层梯度是多个导数的乘积）。
层数越多，乘积项越多：
- 若每个因子都略小于 1，多层后乘积趋近于 0（消失）；
- 若每个因子都略大于 1，多层后乘积趋近于无穷大（爆炸）。

2. 激活函数的 “先天缺陷”

早期常用 Sigmoid/Tanh：
- 导数范围小（Sigmoid 导数≤0.25，Tanh 导数≤1），容易导致梯度消失。
- 示例：假设每层导数都是 0.25，10 层后梯度变为0.2510≈0.0000059，几乎消失。
ReLU 缓解消失但无法根治爆炸：
- ReLU 导数在正数区域为 1，梯度不会因激活函数缩小，但权重矩阵仍可能放大梯度。

为什么浅层网络不容易出问题？

层数少，链式乘积项少：
比如 5 层网络，即使每层梯度乘 0.5，5 次后是0.55=0.03125，仍有一定幅度，能有效更新参数。
梯度 “路程短”：
信号从输出层传到输入层只需经过几层，“衰减” 或 “放大” 的程度有限。

解决方案

核心矛盾：深度带来更强的表达能力，但反向传播时梯度难以稳定传递。
比喻：
就像水管太长时，水压会衰减（消失）或因水流太急爆管（爆炸），导致末端（浅层）得不到正常供水（有效梯度）。
ResNet 的解决方案：
通过残差连接增加 “旁路水管”，让梯度可以绕过部分层直接传递，减少链式乘积的层数，从而缓解消失 / 爆炸。

总结

梯度在深层网络中就像传话筒，传的人越多（层数越多），声音越容易变弱（消失）或变吵（爆炸），ResNet 则给它加了个 “扩音器”（残差连接）。

http://www.lqws.cn/news/77095.html

相关文章：

代码随想录60期day54

牛客周赛 Round 94

聚类分析 | MATLAB实现基于SOM自组织特征映射聚类可视化

数据结构之排序

对抗攻击 Adversarial Attack

实现按天更新vintage并热力图可视化

【QT控件】QWidget 常用核心属性介绍 -- 万字详解

Python中sys模块详解

spring-boot接入websocket教程以及常见问题解决

基于 51 单片机的智能饮水机控制系统设计与实现

模块二：C++核心能力进阶（5篇）篇一：《STL源码剖析：vector扩容策略与迭代器失效》

达芬奇（DaVinci Resolve）下载安装教程

MySQL DDL操作全解析：从入门到精通，包含索引视图分区表等全操作解析

正则表达式在Java中的应用(补充)

Java垃圾回收机制详解：从原理到实践

基于Python学习《Head First设计模式》第四章工厂模式+抽象工厂

《汇编语言》第13章 int指令——实验13 编写、应用中断例程

leetcode93.复原IP地址：回溯算法中段控制与前导零处理的深度解析

Spring Boot 3.X 下Redis缓存的尝试（一）：初步尝试

Oracle授权操作

【MySQL】视图与用户管理

isp中的 ISO代表什么意思

Android Studio 配置之gitignore

平滑技术（数据处理，持续更新...）

JAVA学习-练习试用Java实现“PCA（主成分分析）：用于降维和数据可视化”

DeepSeek模型安全部署与对抗防御全攻略