前言所谓深度神经网络的优化算法,即用来更新神经网络参数,并使损失函数最小化的算法。优化算法对于深度学习非常重要,如果说网络参数初始化(模型迭代的初始点)能够决定模型是否收敛,那优化算法的性能则直接影响模型的训练效率。了解不同优化算法的原理及其超参数的作用将使我们更有效的调整优化器的超参数,从而提高模型的性能。本文的优化算法特指:寻找神经网络上的一组参数$\theta$,它能显著地降低损失函数$J(\theta)$,该损失函数通常包括整个训练集上的性能评估和额外的正则化项。本文损失函数、目标函数、代价函数不严格区分定义。一,梯度下降优化算法1.1,随机梯度下降SGD梯度下降法是最基本的一类优化器