如何理解深度学习分布式训练中的large batch size与learning rate的关系？

本文作者：汪思颖

2017-10-24 18:28

导语：主要分为三个方面来介绍：1、理解SGD、minibatch-SGD和GD；2、large batch与learning rate的调试关系；3、实验

雷锋网 AI科技评论按，本文源自谭旭在知乎问题【如何理解深度学习分布式训练中的large batch size与learning rate的关系？】下的回答，雷锋网 AI科技评论获其授权转载。

问题详情：

在深度学习进行分布式训练时，常常采用同步数据并行的方式，也就是采用大的batch size进行训练，但large batch一般较于小的baseline的batch size性能更差，请问如何理解调试learning rate能使large batch达到small batch同样的收敛精度和速度？

回答：

最近在进行多GPU分布式训练时，也遇到了large batch与learning rate的理解调试问题，相比baseline的batch size，多机同步并行（之前有答案是介绍同步并行的通信框架NCCL（谭旭：如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？），有兴趣可以查看）等价于增大batch size，如果不进行精细的设计，large batch往往收敛效果会差于baseline的小batch size。因此将自己的理解以及实验总结如下，主要分为三个方面来介绍：（1）理解SGD、minibatch-SGD和GD，（2）large batch与learning rate的调试关系，（3）我们的实验。

（1）理解SGD、minibatch-SGD和GD

在机器学习优化算法中，GD（gradient descent）是最常用的方法之一，简单来说就是在整个训练集中计算当前的梯度，选定一个步长进行更新。GD的优点是，基于整个数据集得到的梯度，梯度估计相对较准，更新过程更准确。但也有几个缺点，一个是当训练集较大时，GD的梯度计算较为耗时，二是现代深度学习网络的loss function往往是非凸的，基于凸优化理论的优化算法只能收敛到local minima，因此使用GD训练深度神经网络，最终收敛点很容易落在初始点附近的一个local minima，不太容易达到较好的收敛性能。

另一个极端是SGD（stochastic gradient descent），每次计算梯度只用一个样本，这样做的好处是计算快，而且很适合online-learning数据流式到达的场景，但缺点是单个sample产生的梯度估计往往很不准，所以得采用很小的learning rate，而且由于现代的计算框架CPU/GPU的多线程工作，单个sample往往很难占满CPU/GPU的使用率，导致计算资源浪费。

折中的方案就是mini-batch，一次采用batch size的sample来估计梯度，这样梯度估计相对于SGD更准，同时batch size能占满CPU/GPU的计算资源，又不像GD那样计算整个训练集。同时也由于mini batch能有适当的梯度噪声[8]，一定程度上缓解GD直接掉进了初始点附近的local minima导致收敛不好的缺点，所以mini-batch的方法也最为常用。