点击下方名片，关注我们，持续学习。

前言本文介绍了为什么初始化很重要，总结了常用的几种初始化方法：全零或等值初始化、正态初始化、均匀初始化、Xavier初始化、He初始化和Pre-trained初始化，并介绍了几个还活跃的初始化方向：数据相关初始化、稀疏权重矩阵和随机正交矩阵初始化。
【技术文档】《从零搭建pytorch模型教程》122页PDF下载
QQ交流群：444129970。群内有大佬负责解答大家的日常学习、科研、代码问题，群文件里也有很多计算机视觉入门的电子版资料，想要领取的朋友请加群自行下载。

为什么初始化很重要

不正确初始化的权重会导致梯度消失或爆炸问题，从而对训练过程产生负面影响。

对于梯度消失问题，权重更新很小，导致收敛速度变慢——这使得损失函数的优化变慢，在最坏的情况下，可能会阻止网络完全收敛。相反，使用过大的权重进行初始化可能会导致在前向传播或反向传播过程中梯度值爆炸。

常见的初始化方法

1. 全零或等值初始化

由于初始化的值全都相同，每个神经元学到的东西也相同，将导致“对称性(Symmetry)”问题。

2. 正态初始化(Normal Initialization)

均值为零，标准差设置一个小值。

这样的做好的好处就是有相同的偏差，权重有正有负。比较合理。

例：2012年AlexNet使用“均值为零、标准差设置为0.01、偏差为1的高斯（正常）噪声进行初始化”的初始化方法。然而，这种正常的随机初始化方法不适用于训练非常深的网络，尤其是那些使用 ReLU激活函数的网络，因为之前提到的梯度消失和爆炸问题。

3. 均匀初始化(Uniform Initialization)

均匀分布的区间通常为【-1/sqrt(fan_in)，1/sqrt(fan_in)】

其中fan_in表示输入神经元的数量，fan_out表示输出神经元的数量。

4. Xavier Initialization

来自论文《Understanding the difficulty of training deep feedforward neural networks》

根据sigmoid函数图像的特点

如果初始化值很小，那么随着层数的传递，方差就会趋于0，此时输入值也变得越来越小，在sigmoid上就是在0附近，接近于线性，失去了非线性。

如果初始值很大，那么随着层数的传递，方差会迅速增加，此时输入值变得很大，而sigmoid在大输入值写倒数趋近于0，反向传播时会遇到梯度消失的问题。

针对这个问题，Xavier 和 Bengio提出了“Xavier”初始化，它在初始化权重时考虑了网络的大小（输入和输出单元的数量）。这种方法通过使权重与前一层中单元数的平方根成反比来确保权重保持在合理的值范围内。

Xavier 的初始化有两种变体。

Xavier Normal：正态分布的均值为0、方差为sqrt( 2/(fan_in + fan_out) )。

Xavier Uniform：均匀分布的区间为【-sqrt( 6/(fan_in + fan_out)) , sqrt( 6/(fan_in + fan_out)) 】。

Xavier 初始化适用于使用tanh、sigmoid为激活函数的网络。

5. He Initialization

来自论文《Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification》

激活函数的选择最终在决定初始化方法的有效性方面发挥着重要作用。激活函数是可微的，并将非线性特性引入神经网络，这对于解决机器学习和深度学习旨在解决的复杂任务至关重要。ReLU和leaky ReLU是常用的激活函数，因为它们对消失/爆炸梯度问题相对鲁棒。

Xavier在tanh函数上表现可以，但对 ReLU 等激活函数效果不好，何凯明引入了一种更鲁棒的权重初始化方法--He Initialization。

He Initialization也有两种变体：

He Normal：正态分布的均值为0、方差为sqrt( 2/fan_in )。

He Uniform：均匀分布的区间为【-sqrt( 6/fan_in) , sqrt(6/fan_in) 】

He Initialization适用于使用ReLU、Leaky ReLU这样的非线性激活函数的网络。

He Initialization和Xavier Initialization 两种方法都使用类似的理论分析：它们为从中提取初始参数的分布找到了很好的方差。该方差适用于所使用的激活函数，并且在不明确考虑分布类型的情况下导出。

图来自何凯明的论文。

论文展示了何凯明改进的初始化策略（红色）如何比 (P)ReLU 的 Xavier 方法（蓝色）更快地降低错误率。

有关 Xavier 和 He 初始化方法的证明，请参阅 Pierre Ouannes 的文章《如何初始化深度神经网络？Xavier 和 Kaiming 初始化》。

文章链接：https://pouannes.github.io/blog/initialization/

6. Pre-trained

使用预训练的权重作为初始化，相比于其它初始化，收敛速度更快，起点更好。

除了以上的初始化方法外，还包括有LeCun Initialization。方法跟He Initialization和Xavier Initialization类似，但基本没怎么看见用，这里就不列出来了。

权重初始化仍然是一个活跃的研究领域。出现了几个有趣的研究项目，包括数据相关初始化、稀疏权重矩阵和随机正交矩阵初始化。

数据相关初始化

论文：Data-dependent Initializations of Convolutional Neural Networks

地址：https://arxiv.org/abs/1511.06856

稀疏权重矩阵初始化

地址：https://openai.com/blog/block-sparse-gpu-kernels/

随机正交矩阵初始化

论文：Exact solutions to the nonlinear dynamics of learning in deep linear neural networks

地址：https://arxiv.org/abs/1312.6120

参考资料

1. https://medium.com/comet-ml/selecting-the-right-weight-initialization-for-your-deep-neural-network-780e20671b22

2. https://medium.com/analytics-vidhya/weights-initialization-in-neural-network-d962ac438bdb

3. Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification He, K. et al. (2015)

4. Understanding the difficulty of training deep feedforward neural networks

入门必读系列（四）Transformer模型

入门必读系列（三）轻量化模型

入门必读系列（二）CNN经典模型

入门必读系列（一）欠拟合与过拟合总结

若觉得还不错的话，请点个 “赞” 或 “在看” 吧

其它文章

AdaptivePose++：开辟多人姿态估计新思路，速度快、精度高

时序异常检测综述整理(2020-2021)

唠一唠对AI炼丹师的模型部署探索（onnx）

多个任务超越moco v3！OPERA：监督学习和自监督统一的框架！

50多种多模态图像融合方法总结

在研究所工作是怎样的体验？

FlowFormer: Transformer结构光流估计

资源分享 | detre：面向DETR系列的目标检测开源框架

CMU最新《多模态机器学习的基础和最新趋势》综述

自动驾驶开源数据集资源汇总

ECCV 2022 |SReT：不增参数，计算量还少！

深度学习框架下群组行为识别算法综述

新想法 | 按需视觉识别：愿景和初步方案

元学习（Meta-learning）基本概述

YOLO内卷时期该如何选模型？

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

百篇论文阅读计划

遥感中的 Transformers 综述

「深度学习3D点云处理」最新2022进展综述

一份热力图可视化代码使用教程

一份可视化特征图的代码

继续阅读

阅读原文

关键词

模型

激活函数

方法

深度学习

论文

入门必读系列（五）如何选择合适的初始化方法