深度学习基础-优化算法详解

armcvai 2023-03-28 原文

前言

所谓深度神经网络的优化算法，即用来更新神经网络参数，并使损失函数最小化的算法。优化算法对于深度学习非常重要，如果说网络参数初始化（模型迭代的初始点）能够决定模型是否收敛，那优化算法的性能则直接影响模型的训练效率。

了解不同优化算法的原理及其超参数的作用将使我们更有效的调整优化器的超参数，从而提高模型的性能。

本文的优化算法特指: 寻找神经网络上的一组参数 $\theta $，它能显著地降低损失函数 $J(\theta )$，该损失函数通常包括整个训练集上的性能评估和额外的正则化项。

本文损失函数、目标函数、代价函数不严格区分定义。

一，梯度下降优化算法

1.1，随机梯度下降 SGD

梯度下降法是最基本的一类优化器，目前主要分为三种梯度下降法：标准梯度下降法(GD, Gradient Descent)，随机梯度下降法(SGD, Stochastic Gradient Descent)及批量梯度下降法(BGD, Batch Gradient Descent)。

深度学习项目中的 SGD 优化一般默认指批量梯度下降法。其算法描述如下:

输入和超参数: $\eta$ 全局学习率
计算梯度：$g_t = \nabla_\theta J(\theta_{t-1})$
更新参数：$\theta_t = \theta_{t-1} - \eta \cdot g_t$

SGD 优化算法是最经典的神经网络优化方法，虽然收敛速度慢，但是收敛效果比较稳定。

下图1展现了随机梯度下降算法的梯度搜索轨迹示意图。可以看出由于梯度的随机性质，梯度搜索轨迹要很嘈杂（动荡现象）。

因此，在实际应用中，随机梯度下降 SGD 法必须和动态学习率方法结合起来使用，否则使用固定学习率 + SGD的组合会使得模型收敛过程变得更复杂。

1.2，动量 Momentum

虽然随机梯度下降仍然是非常受欢迎的优化方法，但其学习过程有时会很慢且其梯度更新方向完全依赖于当前 batch 样本数据计算出的梯度，因而十分不稳定，因为数据可能有噪音。

受启发于物理学研究领域研究，基于动量 Momentum (Polyak, 1964) 的 SGD 算法用于改善参数更新时可能产生的振荡现象。动量算法旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。两种算法效果对比如下图 2所示。

花书中对动量算法对目的解释是，解决两个问题: Hessian 矩阵的病态条件和随机梯度的方差。更偏学术化一点。

Momentum 算法的通俗理解就是，其模拟了物体运动时的惯性，即更新参数的时候会同时结合过去以及当前 batch 的梯度。算法在更新的时候会一定程度上保留之前更新的方向，同时利用当前 batch 的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力。

下图3展现了动量算法的前进方向。

第一次的梯度更新完毕后，会记录 $v1$ 的动量值。在“求梯度点”进行第二次梯度检查时，得到2号方向，与 $v1$ 的动量组合后，最终的更新为 2' 方向。这样一来，由于有 $v1$ 的存在，会迫使梯度更新方向具备“惯性”，从而可以减小随机样本造成的震荡。

Momentum 算法描述如下:

1，输入和参数:

$\eta$ - 全局学习率
$\alpha$ - 动量参数，一般取值为 0.5, 0.9, 0.99，取 0，则等效于常规的随机梯度下降法，其控制动量信息对整体梯度更新的影响程度。
$v_t$ - 当前时刻的动量，初值为 0。

2，算法计算过程：

计算梯度：$g_t = \nabla_\theta J(\theta_{t-1})$
计算速度更新：$v_t = \alpha \cdot v_{t-1} + \eta \cdot g_t$ (公式1)
更新参数：$\theta_t = \theta_{t-1} - v_t$ (公式2)

注意，这里的公式1和公式2和花书上的公式形式上略有不同，但其最终结果是相同的。本文给出的手工推导迭代公式，来源文章 15.2 梯度下降优化算法。

通过推导参数更新迭代公式，更容易理解算法，根据算法公式(1)(2)，以$W$参数为例，有：

$v_0 = 0$
$dW_0 = \nabla J(w)$
$v_1 = \alpha v_0 + \eta \cdot dW_0 = \eta \cdot dW_0$
$W_1 = W_0 - v_1=W_0 - \eta \cdot dW_0$
$dW_1 = \nabla J(w)$
$v_2 = \alpha v_1 + \eta dW_1$
$W_2 = W_1 - v_2 = W_1 - (\alpha v_1 +\eta dW_1) = W_1 - \alpha \cdot \eta \cdot dW_0 - \eta \cdot dW_1$
$dW_2 = \nabla J(w)$
$v_3=\alpha v_2 + \eta dW_2$
$W_3 = W_2 - v_3=W_2-(\alpha v_2 + \eta dW_2) = W_2 - \alpha^2 \eta dW_0 - \alpha \eta dW_1 - \eta dW_2$

可以看出与普通 SGD 的算法 $W_3 = W_2 - \eta dW_2$ 相比，动量法不但每次要减去当前梯度，还要减去历史梯度$W_0, W_1$ 乘以一个不断减弱的因子$\alpha$、$\alpha^2$，因为$\alpha$小于1，所以$\alpha^2$比$\alpha$小，$\alpha^3$比$\alpha^2$小。这种方式的学名叫做指数加权平均。

在实际模型训练中，SGD 和动量法的比较如下表所示。

实验效果对比图来源于资料 1。

算法	损失函数和准确率
SGD
Momentum

从上表的对比可以看出，同一个深度模型，普通随机梯度下降法的曲线震荡很严重，且经过 epoch=10000 次也没有到达预定 0.001 的损失值；但动量算法经过 2000 个 epoch 就迭代结束。

1.3，Nesterov 动量

受 Nesterov 加速梯度算法 (Nesterov, 1983, 2004) 启发，Sutskever et al. (2013) 提出了动量算法的一个变种，Nesterov 动量随机下降法（NAG ，英文全称是 Nesterov Accelerated Gradient，或者叫做 Nesterov Momentum 。

Nesterov 动量随机梯度下降方法是在上述动量梯度下降法更新梯度时加入对当前梯度的校正，简单解释就是往标准动量方法中添加了一个校正因子。

NAG 算法描述如下:

1，输入和参数：

$\eta$ - 全局学习率
$\alpha$ - 动量参数，缺省取值 0.9
$v$ - 动量，初始值为0

2，算法计算过程：

参数临时更新：$\hat \theta = \theta_{t-1} - \alpha \cdot v_{t-1}$
网络前向传播计算：$f(\hat \theta)$
计算梯度：$g_t = \nabla_{\hat\theta} J(\hat \theta)$
计算速度更新：$v_t = \alpha \cdot v_{t-1} + \eta \cdot g_t$
更新参数：$\theta_t = \theta_{t-1} - v_t$

1.4，代码实践

Pytorch 框架中把普通 SGD、Momentum 算法和 Nesterov Momentum 算法的实现结合在一起了，对应的类是 torch.optim.SGD。注意，其更新公式与其他框架略有不同，其中 $p$、$g$、$v$、$\mu$ 表示分别是参数、梯度、速度和动量。

\[\begin{align} v_{t+1} &= \mu * v_{t} + g_{t+1} \nonumber \\ p_{t+1} &= p_{t} - \text{lr} * v_{t+1} \nonumber \\ &= p_{t} - \text{lr} * \mu * v_{t} - \text{lr} * g_{t+1} \nonumber \end{align} \]

# 和源码比省略了部分不常用参数
class torch.optim.SGD(params, lr=required, momentum=0, dampening=0,
                 weight_decay=0, nesterov=False)

1，功能解释：

可实现 SGD 优化算法、带动量 SGD 优化算法、带 NAG(Nesterov accelerated gradient)动量 SGD 优化算法，并且均可拥有 weight_decay 项。

2，参数解释：

params(iterable): 参数组(参数组的概念参考优化器基类: Optimizer)，即优化器要管理的那部分参数。
lr(float): 初始学习率，可按需随着训练过程不断调整学习率。
momentum(float): 动量因子，通常设置为 0.9，0.8。
weight_decay(float): 权值衰减系数，也就是 L2 正则项的系数。
nesterov(bool)- bool 选项，是否使用 NAG(Nesterov accelerated gradient)。

训练模型时常用配置如下:

torch.optim.SGD(lr=0.02, momentum=0.9, weight_decay=0.0001)

二，自适应学习率算法

神经网络研究员早就意识到学习率肯定是难以设置的超参数之一，因为它对深度学习模型的性能有着显著的影响。

2.1，AdaGrad

在 AdaGrad (Duchi et al., 2011) 提出之前，我们对于所有的参数使用相同的学习率进行更新，它是第一个自适应学习率算法，通过所有梯度历史平方值之和的平方根，从而使得步长单调递减。它根据自变量在每个维度的梯度值的大小来调整各个维度上的学习率，从而避免统一的学习率难以适应所有维度的问题。

AdaGrad 法根据训练轮数的不同，对学习率进行了动态调整。具体表现在，对低频出现的参数进行大的更新（快速下降的学习率），对高频出现的参数进行小的更新（相对较小的下降学习率）。因此，他很适合于处理稀疏数据。

AdaGrad 算法描述如下:

1，输入和参数

$\eta$ - 全局学习率
$\epsilon$ - 用于数值稳定的小常数，建议缺省值为1e-6
$r=0$ 初始值

2，算法计算过程：

计算梯度：$g_t = \nabla_\theta J(\theta_{t-1})$
累计平方梯度：$r_t = r_{t-1} + g_t \odot g_t$
计算梯度更新：$\Delta \theta = {\eta \over \epsilon + \sqrt{r_t}} \odot g_t$(和动手学深度学习给出的学习率调整公式形式不同)
更新参数：$\theta_t=\theta_{t-1} - \Delta \theta$

$\odot$ 按元素相乘，开方、除法和乘法的运算都是按元素运算的。这些按元素运算使得目标函数自变量中每个元素都分别拥有自己的学习率。

AdaGrad 总结：在凸优化背景中，AdaGrad 算法具有一些令人满意的理论性质。但是，经验上已经发现，对于训练深度神经网络模型而言，从训练开始时积累梯度平方会导致有效学习率过早和过量的减小。AdaGrad 在某些深度学习模型上效果不错，但不是全部。

Pytorch 框架中 AdaGrad 优化器:

class torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0, initial _accumulator_value=0)

2.2，RMSProp

RMSProp（Root Mean Square Prop），均方根反向传播。

RMSProp 算法 (Hinton, 2012) 和 AdaGrad 算法的不同在于， RMSProp算法使⽤了小批量随机梯度按元素平⽅的指数加权移动平均来调整学习率。

RMSProp 算法描述如下:

1，输入和参数：

$\eta$ - 全局学习率，建议设置为0.001
$\epsilon$ - 用于数值稳定的小常数，建议缺省值为1e-8
$\alpha$ - 衰减速率，建议缺省取值0.9
$r$ - 累积变量矩阵，与$\theta$尺寸相同，初始化为0

2，算法计算过程（计算梯度和更新参数公式和 AdaGrad 算法一样）：

累计平方梯度：$r = \alpha \cdot r + (1-\alpha)(g_t \odot g_t)$
计算梯度更新：$\Delta \theta = {\eta \over \sqrt{r + \epsilon}} \odot g_t$

RMSProp 总结：经验上，RMSProp 已被证明是一种有效且实用的深度神经网络优化算法。目前，它是深度学习从业者经常采用的优化方法之一。其初始学习率设置为 0.01 时比较理想。

Pytorch 框架中 RMSprop 优化器:

class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e- 08, weight_decay=0, momentum=0, centered=False)

2.3，AdaDelta

AdaDelta 法也是对 AdaGrad 法的一种改进，它旨在解决深度模型训练后期，学习率过小问题。相比计算之前所有梯度值的平方和，AdaDelta 法仅计算在一个大小为 $w$ 的时间区间内梯度值的累积和。

RMSProp 算法计算过程如下:

1，参数定义：

Adadelta 没有学习率参数。相反，它使用参数本身的变化率来调整学习率。
$s$ - 累积变量，初始值 0

2，算法计算过程:

计算梯度：$g_t = \nabla_\theta J(\theta_{t-1})$
累积平方梯度：$s_t = \alpha \cdot s_{t-1} + (1-\alpha) \cdot g_t \odot g_t$
计算梯度更新：$\Delta \theta = \sqrt{r_{t-1} + \epsilon \over s_t + \epsilon} \odot g_t$
更新梯度：$\theta_t = \theta_{t-1} - \Delta \theta$
更新变化量：$r = \alpha \cdot r_{t-1} + (1-\alpha) \cdot \Delta \theta \odot \Delta \theta$

Pytorch 框架中 Adadelta 优化器:

class torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e- 06, weight_decay=0)

2.4，Adam

Adam (Adaptive Moment Estimation，Kingma and Ba, 2014) 是另一种学习率自适应的优化算法，相当于 RMSProp + Momentum 的效果，即动量项的 RMSprop 算法。

Adam 算法在 RMSProp 算法基础上对小批量随机梯度也做了指数加权移动平均。和 AdaGrad 算法、RMSProp 算法以及 AdaDelta 算法一样，目标函数自变量中每个元素都分别拥有自己的学习率。

Adam 算法计算过程如下:

1，参数定义：

$t$ - 当前迭代次数
$\eta$ - 全局学习率，建议缺省值为0.001
$\epsilon$ - 用于数值稳定的小常数，建议缺省值为1e-8
$\beta_1, \beta_2$ - 矩估计的指数衰减速率，$\in[0,1)$，建议缺省值分别为0.9和0.999

2，算法计算过程:

计算梯度：$g_t = \nabla_\theta J(\theta_{t-1})$
计数器加一：$t=t+1$
更新有偏一阶矩估计：$m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1) \cdot g_t$
更新有偏二阶矩估计：$v_t = \beta_2 \cdot v_{t-1} + (1-\beta_2)(g_t \odot g_t)$
修正一阶矩的偏差：$\hat m_t = m_t / (1-\beta_1^t)$
修正二阶矩的偏差：$\hat v_t = v_t / (1-\beta_2^t)$
计算梯度更新：$\Delta \theta = \eta \cdot \hat m_t /(\epsilon + \sqrt{\hat v_t})$
更新参数：$\theta_t=\theta_{t-1} - \Delta \theta$

从上述公式可以看出 Adam 使用指数加权移动平均值来估算梯度的动量和二次矩，即使用了状态变量 $m_t、v_t$。

怎么理解 Adam 算法？

首先，在 Adam 中，动量直接并入了梯度一阶矩(指数加权)的估计。将动量加入 RMSProp 最直观的方法是将动量应用于缩放后的梯度。结合缩放的动量使用没有明确的理论动机。其次，Adam 包括偏置修正，修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩的估计。RMSProp 也采用了(非中心的)二阶矩估计，然而缺失了修正因子。因此，不像 Adam，RMSProp 二阶矩估计可能在训练初期有很高的偏置。 Adam 通常被认为对超参数的选择相当鲁棒，尽管学习率有时需要从建议的默认修改。

初学者看看公式就行，这段话我也是摘抄花书，目前没有很深入理解。

Adam 算法实现步骤如下。

Adam 总结：由于 Adam 继承了 RMSProp 的传统，所以学习率同样不宜设置太高，初始学习率设置为 0.01 时比较理想。

Pytorch 框架中 Adam 优化器:

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e- 08, weight_decay=0, amsgrad=False)

三，总结

3.1，PyTorch 的十个优化器

PyTorch 中所有的优化器基类是 Optimizer 类，在 Optimizer 类中定义了 5 个实用的基本方法，分别是

zero_grad()：将梯度清零。
step(closure)：执行一步权重参数值更新, 其中可传入参数 closure(一个闭包)。
state_dict()：获取模型当前参数，以一个有序字典形式返回，key 是参数名，value 是参数。
load_state_dict(state_dict) ：将 state_dict 中的参数加载到当前网络，常用于 finetune。
add_param_group(param_group)：给 optimizer 管理的参数组中增加一组参数，可为该组参数定制 lr, momentum, weight_decay 等，在 finetune 中常用。

PyTorch 基于 Optimizer 基类构建了十种优化器，有常见的 SGD、ASGD、Rprop、 RMSprop、Adam 等等。注意 PyTorch 中的优化器和前文描述的优化算法略有不同，PyTorch 中给出的优化器与原始论文中提出的优化方法，多少是有些改动的，详情可直接阅读源码。

3.2，优化算法总结

Adam 等自适应学习率算法对于稀疏数据具有优势，且收敛速度很快；但精调参数的 SGD（+Momentum）往往能够取得更好的最终结果。
用相同数量的超参数来调参，尽管有时自适应优化算法在训练集上的 loss 更小，但是他们在测试集上的 loss 却可能比 SGD 系列方法高。
自适应优化算法在训练前期阶段在训练集上收敛的更快，但可能在测试集上的泛化性不好。
目前，最流行并且使用很高的优化算法包括 SGD、具动量的 SGD、RMSProp、具动量的 RMSProp、AdaDelta 和 Adam。但选择哪一个算法主要取决于使用者对算法的熟悉程度(更方便调节超参数)。

参考资料

《智能之门-神经网络与深度学习入门》-15.2 梯度下降优化算法
《深度学习》-第八章深度模型中的优化
《动手学深度学习》-优化算法

详解深度学习 span class inline 人工智能

有关深度学习基础-优化算法详解的更多相关文章

区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
postman接口测试工具-基础使用教程 - 2
1.postman介绍Postman一款非常流行的API调试工具。其实，开发人员用的更多。因为测试人员做接口测试会有更多选择，例如Jmeter、soapUI等。不过，对于开发过程中去调试接口，Postman确实足够的简单方便，而且功能强大。2.下载安装官网地址:https://www.postman.com/下载完成后双击安装吧，安装过程极其简单，无需任何操作3.使用教程这里以百度为例,工具使用简单，填写URL地址即可发送请求，在下方查看响应结果和响应状态码常用方法都有支持请求方法:getpostputdeleteGet、Post、Put与Delete的作用get：请求方法一般是用于数据查询，
软件测试基础 - 2
Ⅰ软件测试基础一、软件测试基础理论1、软件测试的必要性所有的产品或者服务上线都需要测试2、测试的发展过程3、什么是软件测试找bug，发现缺陷4、测试的定义使用人工或自动的手段来运行或者测试某个系统的过程。目的在于检测它是否满足规定的需求。弄清预期结果和实际结果的差别。5、测试的目的以最小的人力、物力和时间找出软件中潜在的错误和缺陷6、测试的原则28原则：20%的主要功能要重点测（eg：支付宝的支付功能，其他功能都是次要的）80%的错误存在于20%的代码中7、测试标准8、测试的基本要求功能测试性能测试安全性测试兼容性测试易用性测试外观界面测试可靠性测试二、质量模型衡量一个优秀软件的维度①功能性功
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ES基础入门 - 2
ES一、简介1、ElasticStackES技术栈：ElasticSearch：存数据+搜索；QL；Kibana：Web可视化平台，分析。LogStash：日志收集，Log4j:产生日志；log.info(xxx)。。。。使用场景：metrics：指标监控…2、基本概念Index（索引）动词：保存（插入）名词：类似MySQL数据库，给数据Type（类型）已废弃，以前类似MySQL的表现在用索引对数据分类Document（文档）真正要保存的一个JSON数据{name:"tcx"}二、入门实战{"name":"DESKTOP-1TSVGKG","cluster_name":"elasticsear
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG