深度学习优化器

仅涉及到梯度的优化器
引入动量
自适应学习率算法

保研开始复习数理基础课和专业课了，不定期整理一些线代和概率论、优化、机器学习和深度学习的内容，或者填一下以前写的文章的坑之类的。不想复习 408，好烦。可能还会再补一下随机过程。其实还想看看组合数学、抽代、组合优化和整数规划和精确/近似/随机算法的内容，但是感觉时间明显不是很够。甚至想看看 CUDA 和并行计算，但是也没咋去上课，实验也没做，可能更想知道 LLM 训练推理等的加速的相关优化。寄，好久没做算法题了。球球了，想有篇在投。.

设样本一共有个, 用抽象函数表示神经网络, 其中表示神经网络的输入, 表示神经网络中的参数, 那么给定训练集之后, 需要优化的函数实际上是其中是损失函数用以衡量接受样本后的函数值与真实值的差距, 目标是最小化这个差距在所有样本上的和以使能在一定程度上拟合训练集.

仅涉及到梯度的优化器

批量梯度下降法

批量梯度下降法 (BGD) 直接使用最朴素的梯度下降法优化函数 , 因此每一个 epoch 都需要使用所有的训练样本来更新参数, 参数更新的公式为: 这里为学习率.

当为凸函数的时候可以收敛到全局极小点, 非凸的时候会收敛到局部极小点; 数据量非常大的时候, 更新速度就会非常慢; 对内存也有一定的要求.

随机梯度下降法

随机梯度下降法 (SGD) 在 BGD 的基础上改善了更新参数的方式, 由全部的样本改成了随机的一个样本, 也就是说每一次更新参数随机选择一个 , 更新方式为或者说, 每一个 epoch 将所有样本进行 random shuffle, 然后遍历 shuffle 之后的样本, 每遍历一个样本都会执行上述操作.

然而由于 SGD 每次只能随机选择一个样本, 如果数据集中有噪声或者离群值, 将会导致迭代的方向不是朝着整体最优的方向; 但是这个随机性将使跳出局部极小点的成为可能, 同时也带来了更新参数时函数值震荡的后果; 并且可以进行在线学习.

MBGD

实际上在训练时常用的优化器 torch.optim.SGD 并不是上文中的 SGD, 应该称为 mini-Batch Gradient Descent 即 MBGD, 这是因为深度学习中对于大量的数据通常会将其分为个 batch , 其中的大小为 batch_size, 表示一个 batch 的数据的集合, batch_size 的大小通常形如的形式, 比如等, 如果 , 那么往往会有 . 而每次更新参数时随机选择某个批次的数据进行更新参数, 如下: 同样每一个 epoch 对进行 random shuffle, 然后遍历每一个 batch 按照上述方式更新参数.

这样看来, MBGD 实际上时 BGD 和 SGD 之中的一种折中的方式, 不仅避免了 SGD 迭代过程中的不稳定, 也防止由于数据集过大造成的迭代速度过慢, 但是要注意 batch_size 的设置需要合理. 当时 MBGD 等价于 BGD, 当时 MBGD 等价于 SGD.

引入动量

设 , 优化过程中产生了一系列曲面上的点 , 现在将这些点看作质点, 那么可以看作是在曲面上沿着负梯度方向滚下去一定距离得到的点. 将这些点看作质点后, 可以考虑惯性,

这边就直接叙述 pytorch 中 torch.optim.SGD 的实现, 参考官方文档的内容.

设为学习率, 为参数初始值, 为目标函数, 为权重衰减, 为动量, 为 dampening, 和为两个布尔变量.

那么算法的流程为:

从开始循环:

.
如果则 ;
如果 :
- 若则 ; 否则 .
- 若 , 则 ; 否则 .
若则 ; 否则 .

最终返回 .

权重衰减

权重衰减实际上是对目标函数进行了正则化, 即 , 然后 , 在更新的时候, 这里的乘的就是当前迭代时的参数, 所以在对目标函数进行正则化时, 只需要在梯度上加上即可.

动量

主要思想是当前对参数的更新要考虑到上一次对参数的更新量, 用之前迭代的更新量来平滑这一次迭代的梯度方向. 从物理的角度来看, 就好像小球从一个曲面上滚落时, 当前移动的方向会受到历史动量的影响, 因此迭代的时候就能更加平稳, 快速地冲向局部极小点.

设上一次对参数的更新量为 , 那么本次更新对参数的更新量为

torch.optim.SGD 中还对上式的引入了系数 , 其中称作 dampening, 具体作用不详. 当时, 上式是和的加权平均.

然后参数更新的式子就为

按照上图的例子, 这可以改善在沟壑的斜坡上震荡的情况; 同时

Nesterov Accelerated Gradient

简称 NAG. 动量方法对参数的更新实际上就是多了这一项, 同时下降方向是由当前梯度和上一次的下降方向 (上一次的下降方向其实累积了之前每一次迭代的下降方向信息, 可以称作累积动量) 共同决定的, 那实际上可以先一步根据上一次的下降方向去观察要达到的位置 (可以看作是预测未来可能的情况), 再根据那个位置处的梯度前进即可, 这就是 NAG 的主要思想.

设 , 那么在处的下降方向为于是更新即可.

不是很清楚 Pytorch 的算法为什么要那样写. 也许用了什么等价的魔法.

NAG 的收敛速度比 momentum 更快，许多文章解释为：能够让算法提前看到前方的地形梯度，如果前面的梯度比当前位置的梯度大，那我就可以把步子迈得比原来大一些，如果前面的梯度比现在的梯度小，那我就可以把步子迈得小一些。这个大一些、小一些，都是相对于原来不看前方梯度、只看当前位置梯度的情况来说的。如果展开 , 就会出现梯度的梯度即黑塞矩阵, 或者说是目标函数的二阶导, 所以可以认为 NAG 在一定程度上使用了目标函数的二阶导信息.

抄老师 PPT.

自适应学习率算法

Adagrad

参考官方文档.

Adagrad 对不同的参数使用不同的学习率,

RMSProp 和 Adadelta

tmd不看官方文档了, 怎么那么不一致, 难道还要看源码?

Adam

SGD有多种改进的形式(RMSprop,Adadelta等),为什么大多数论文中仍然用SGD? - 知乎 (zhihu.com)

怎么通俗易懂的理解SGD中Momentum的含义？ - 知乎 (zhihu.com)

如何理解Adam算法(Adaptive Moment Estimation)？ - 知乎 (zhihu.com)

AdamW

2024-04-24 该篇文章被 Baoduo Xu 归为分类: 保研复习

以上