优化器方法-LARS(Layer-wise Adaptive Rate Scaling)_首页-杏彩体育中国官方网站

优化器方法-LARS(Layer-wise Adaptive Rate Scaling)

发布时间：2024-05-20 19:31:08　　点击量：

最近看到一篇博客，将最新的LookAhead和RAdam优化器结合，产生了一个新的算法——Ranger，获得了比单独使用RAdam要好的效果。后来有人将LARS与Ranger结合，效果取得了进一步提升。最近，Ranger的提出者又将GC(Gradient Centralization)方法与Ranger结合，也取得了比Ranger好的效果。这里我会分四篇文章分享在阅读这四个方法的论文时我个人的总结和体会。由于LookAhead优化器与SWA比较相似，所以还会开辟一篇文章介绍SWA和Fast SWA优化器。本篇文章为该系列文章第一篇。

常用的对网络训练进行加速的方法之一是使用更大的batch size在多个GPU上训练。但是当训练周期数不变时，增大batch size将会导致网络权重更新的迭代次数减少。为了弥补该问题，很多研究者建议当batch size增加k倍时，也相应地将学习率增加k倍。但是当batch size很大的时候，学习率增加太大会导致学习不稳定，尤其是在训练早期阶段，如果学习率太大，则参数可能在错误的方向上更新很多，从而导致模型最终的表现很差。另外，学习率太大的话也可能导致学习发散。

之前主流的用来缓解该问题的方法是学习率warm-up，在训练的前几个周期，从一个比较小的学习率开始，线性增加到最终使用的学习率（也就是k倍增加后的学习率）。作者从自己的实验观察出发，提出了可以替代warm-up的方法——分层自适应学习率缩放(Layer-wise Adaptive Rate Scaling)，从一个新颖的方向缓解学习率过大的问题。

我们知道，网络参数的更新公式为： $w_{t+1}=w_t - \lambda abla L(w_t)$ ，当学习率太大的话， $|| \lambda abla L(w_t) ||$ 的值将会大于 $||w_t||$ ，这时便可能造成发散。作者通过分析训练时网络每层的权重L2范数和对应梯度的L2范数的比值（ $||w_t||/|| abla L(w_t) ||$ ，后面简称为ratio）发现，每层的ratio差异很大（如下图table 2所示），而且ratio在训练早期都比较大，经过几个周期后整体迅速减小。作者指出，如果在学习的早期阶段学习率太大的话，对某些ratio较小的层， $|| \lambda abla L(w_t) ||$ 的值将会大于 $||w_t||$ ，也就是说很有可能存在 $\lambda abla L(w_t)$ 的值大于权重 $w_t$ ，从而造成训练不稳定。warm-up的目的便是以较小的学习率开始训练来缓解该问题。

作者从以上观察出发得出结论，既然并不是所有层的ratio比较小，那么各个层的更新参数使用的学习率应该根据自己的情况有所调整，而不是所有层使用相同的学习率。由此，作者引入了局部学习率（local LR）的概念，从而在全局学习率的基础上根据每层的情况进行适当地调整。局部学习率的计算方式如下：
$\lambda^l=\eta * \frac{||w^l||}{|| abla L(w^l) ||}$
其中， $l$ 表示层数， $\eta$ 是超参（ $<1$ ），表示一次更新时每层会改变参数的置信度(trust)，作者的实验中该值为0.001。局部学习率可以很方便的替换每层的全局学习率，从而参数的更新大小为：
$riangle w^l_t=\gamma * \lambda^l * abla L(w^l_t)$
其中， $\gamma$ 为全局学习率。而且，局部学习率也可以轻易扩展到带参数衰减 $\beta$ 的参数更新中：
$\lambda^l=\eta * \frac{||w^l||}{|| abla L(w^l) || + \beta * ||w^l||}$
由于局部学习率引入了对梯度的 $l2$ 归一化( $abla L(w^l_t) / || abla L(w^l_t)||$ )，所以参数更新的幅度不再依赖梯度的大小，梯度只起到了权重更新方向的作用，从而起到了缓解梯度爆炸和消失的作用。

引入局部学习率后，由于 $\eta < 1$ 且很小（例如，作者实验中使用的0.001），对于ratio比较小的层， $\lambda^l$ 也是个很小的值，这样便能将全局学习率减小很多，参数更新时便比较稳定；对于ratio比较大的层，权重本身比梯度大很多，可以使用较大的梯度进行更新也不会造成发散，此时局部学习率 $\lambda^l$ 会自适应地调整到接近1，从而使用接近全局学习率的学习率进行参数更新。

下图是将LARS与SGD结合的算法流程：

作者将warm-up作为新方法的baseline，在使用LARS后将batch size扩展到8k，获得了与baseline（batch size为512）相当的效果：

结合warm-up和LARS后，使用32K batch size训练的ResNet在ImageNet数据集上的测试集表现和不使用warm-up且batch size为256的baseline效果相当，如下图所示：

作者提出的LARS可以有效缓解较大batch size训练前期由于学习率太大导致的不稳定问题。另外，个人认为对于迁移学习来说，网络不同层应该使用不同的学习率，因为较浅层参数通常用来提取细粒度的特征，而这些特征往往比较通用，所以较浅层的学习率应该较小，只对参数做微调，这也相当于在对相似数据集进行微调时固定（freeze）较浅层参数的作用；相反，深层参数表达的是全局特征，需要更好地拟合新任务数据，所以需要进行较大调整。因此，也许LARS最适宜的应用场景是在迁移学习中。当然，这也不排除在finetuen时，较浅层参数的梯度本身就比较小，从而减小对较浅层参数更新的可能。

另外，文中也存在以下缺陷：

该方法是否对超参数 $\eta$ 敏感，作者没有给出进一步的实验数据；
实验对比不全面，LARS的提出是为了替代warm-up策略，但是在ImageNet数据集上，作者只给出了warm-up+LARS的实验效果，不得不让人怀疑该方法的广泛有效性。

地址：海南省海口市58号
电话：18888889999
手机：海南省海口市58号