速神经网络的训练算法LARS/LAMB工作原理 --UC Berkeley在读博士生尤洋

杨甫

2023-12-01

为什么深度学习很慢？
如果我们利用并行计算，怎样才能完美的利用大量的processor？
为什么large batch size会引起精度降低？
新优化器
参考：
快速神经网络的训练算法 --UC Berkeley博士尤洋
本片文章介绍的两种算法不仅可以优化并行计算，在普通硬件环境中运行也是有效的。算法是由UC Berkeley博士尤洋开发。在固定精度的情况下，新算法可以更快的达到要求，在固定训练时间的情况下，可以有更好的精度。
目前深度学习面临的一个问题是，没有一个通用的优化器。Adaptive optimizers (Adam/AdaGrad)在ImageNet上面表现就不是很好，这导致现在很多ImageNet都在用Momentum进行优化。反过来Momentum在BERT的训练上面也表现平平。

为什么深度学习很慢？
现在大部分的算法都是SGD的变形。SGD随机梯度下降算法：
(Mini-Batch) SGD:
1.Take B data points each iteration (B: batch size)
2.Compute gradients of woeights based on B data points
3.Update the weights: W = W - learning_rate * ▽W

由上图我们可以看到ResNet50的计算量非常大，而BERT的计算量是ResNet的50倍左右。

如果我们利用并行计算，怎样才能完美的利用大量的processor？
有三种思路，第一种并行计算神经网络的层。每台机器负责运算神经网络中的几层。这种思路显然是不对的，因为神经网络需要前向与反向传递，这种传递是顺序的数据依赖，所以在计算的时候只有一台机器在运作其他机器在等待。
第二种思路是并行计算每一层中不同的节点。这种思路可行，但是这就需要一个很宽的神经网络。每一层都都很多神经元。而相比于神经网络的宽度，深度明显要更重要。

根据上图可以看出，宽而浅的神经网络的表现并没有深度网络好。进而我们有了第三种思路：数据并行。

这种思路也是现今的主流，但是这种思路也有一个问题，那就是需要比较大的batch size。在忽略收敛性的前提下增加batch size可以加快并行速度。

上图我们可以看到batch size增加，GPU的速度也增加了。

从上图的表中我们可以看到，t1远大于t2，增加batch size可以减小迭代次数从而加快计算速度。这样加快深度神经网络的训练就可以转化为，如何去增加训练的batch size。

但是问题随之而来，大的batch size会引起精度降低。所以增加训练的batch size又可以转化成如何在增加batch size的情况下保持模型的精度。

为什么large batch size会引起精度降低？
一般来说有两种解释，第一种是泛化问题(Generalization problem)，模型具有较高training accuracy，但是test accuracy却很低。这种解释是Intel公司2017年提出的。论文地址：https://openreview.net/pdf?id=H1oyRlYgg

Generalization problem:

Regular batch: |Test loss - Train loss| is small
Large batch: |Test loss - Train loss| is large
泛化问题具体解释可以去论文原文中找到，这里就不在赘述。

想要解决这种问题，可以利用Batch Normalization。利用BN之后test accuracy下降从原来的0.05降低到了0.01左右（batch size = 4096）。
第二种解释是因为优化难度问题，很难去找到正确的超参。这种解释是17年由Facebook公司提出的。论文地址：https://openreview.net/pdf?id=H1oyRlYgg
论文里面提出了两种解决方法，第一种是在增加batch size的同时增加learning rate，两者增加相同的倍数。第二种方法是warmup热身，从小的learning rate一点点增加然后再回复到原始的learning rate。

新优化器
在尤洋博士的研究中，他发现Large batch size在深度神经网络中，每一层的梯度权重比有很大的不同。如下图所示：

这张图我们可以看到第1层和第6层的比值相差很大。这就意味着用相同的learning rate去更新权重的话，会导致第一层更新的效率跟第六层的更新效率相差很大。如果learning rate适应第6层的话，第1层很有可能无法收敛。这就导致了神经网络的准确率下降。
所以这里引入了尤洋博士的新算法Layer-wise Adaptive Rate Scaling(LARS)。新的算法主要改变了learning rate。算法如图：

LARS算法使得每一层的学习率都有所不同，这样就减少因为学习率导致无法收敛的情况。（学习率修正）
在经过LARS优化之后AlexNet的large batch size的test accuracy的效果也变得很好。

增加了batch size训练速度也有大幅度提升。
在文章的第一步我们提到了神经网络中没有一个通用的优化器，那么LARS是否可以用于其他模型的优化。

由上面两张图中我们可以看到LARS在ResNet中表现的很好，在BERT上面虽然在8k左右的时候表现比原来的优化器表现要好，但是当batch size增加到16k以上的时候，表现却出现了下滑。

由此，尤洋博士提出了新优化器Layer-wise Adaptive Moments for Batch(LAMB)：

新的算法结合了Adam和刚才提出的layer-wise修正(LARS)。
在应用LAMB优化器后，BERT的训练时间在保持精度的同时降低了60倍。

LAMB优化器在ResNet的训练ImageNet中也击败了Momentum优化器。

并且在小的数据集中表现也非常好。

参考：
https://www.bilibili.com/video/av54050301
https://arxiv.org/pdf/1904.00962v3.pdf
https://openreview.net/pdf?id=H1oyRlYgg

速神经网络的训练算法LARS/LAMB工作原理 --UC Berkeley在读博士生尤洋

相关阅读

相关文章

相关问答

相关文档