之前学习深度学习的时候,最早就是从图像分类入手的,当时比较流行的模型架构就是很简单的几层卷积,包括后面的VGG系列,当时还没有学习到resnet,觉得模型的结构很简单易懂,就是一层一层的堆叠。基于对卷积和池化本身的理解,我认为这样直接的堆叠确实是很有效的方案,但是后来学习到了resnet,看到了残差结构。我一度不理解为什么要这样做?为什么这解决了梯度消失和梯度爆炸的问题?后来通过一段时间的学习和实验,自己也慢慢理解了,没有一个shortcut用于特征的直连,梯度很容易在一层层的累计中,发生爆炸和消失,大致的意思如图所示。
为什么残差结构拯救了深度神经网络?
未经允许不得转载:小狮博客 » 为什么残差结构拯救了深度神经网络?
相关推荐
- AD 横向移动-LSASS 进程转储
- C#/.NET/.NET Core技术前沿周刊 | 第 41 期(2025年6.1-6.8)
- 现代 Python 包管理器 uv
- ArkUI-X与Android桥接通信之方法回调
- 商品中心—2.商品生命周期和状态的技术文档
- Benchmark论文解读:Evaluating the Ripple Effects of Knowledge Editing in Language Models
- WineHQ 发布的 Framework Mono 6.14 的这个特性对Windows Forms 用户来说肯定很感兴趣
- 不写一行代码 .NET 使用 FluentCMS 快速构建现代化内容管理系统(CMS)