NeurIPS2018时间检验奖论文回顾：为什么深度学习适合大规模数据集

本文作者：杨晓凡

2018-12-09 19:47

专题：NeurIPS 2018

导语：为大规模训练数据的使用揭开一道谜题

雷锋网 AI 科技评论按：NeurIPS 2018 于 12 月 3 日至 12 月 8 日在加拿大蒙特利尔会展中心举办。大会第一天下午颁布了各项论文奖，其中包括时间检验奖（Test of Time Award），获奖论文是《The Trade-Offs of Large Scale Learning》。

这篇论文是机器学习界、尤其是深度学习发展道路上的一篇重要论文，也可以说是推动研究人员们不断建立并使用更大的数据集的理念来源之一。谷歌 AI 苏黎世研究院项目经理、丹麦科技大学教授 Anna Ukhanova 撰文解析了这篇论文的内容以及它对整个机器学习界的后续影响。雷锋网 AI 科技评论编译如下。

NeurIPS2018时间检验奖论文回顾：为什么深度学习适合大规模数据集

机器学习界的学术研究进展飞快，仿佛任何一种新点子、新想法只要一两年就显得过时了，或者是被别的东西取代了。不过，即便是许多研究者们后来已经不再关注的区域里，也有一些老想法持续地体现出自己的重要性。这种状况之所以会发生是因为不同的语境：在某个研究方向里看起来死路一条的想法在另一个研究方向里则可能会变得非常成功。而对于深度学习这个具体的例子来说，可获得的数据以及可利用的计算资源的大幅增长不断为这个领域注入了新鲜的活力和注意力，也对研究方向的选择产生了显著影响。

当年发表在 NIPS 2007 会议的论文《The Trade-Offs of Large Scale Learning》就是这种现象的见证者。这篇来自 Léon Bottou （当时在 NEC 实验室，现在在 Facebook 人工智能研究院 FAIR）和 Olivier Bousquet（谷歌 AI 苏黎世研究院）的论文获得了今年 NeurIPS 的时间检验奖，论文内容是研究机器学习领域内数据和计算能力之间是如何相互作用的；他们的结果表明，在计算能力有限、但可以使用一个大规模数据集的情况下，面对「A，使用尽量多的训练样本，但每个样本只进行较少的计算」，和「B，取一小部分数据进行高强度的计算」两种选择，前一种做法的效率更高。他们的研究对象是一种较老的算法，随机梯度下降（SGD），而它如今几乎也和所有的深度学习应用形影不离。

NeurIPS2018时间检验奖论文回顾：为什么深度学习适合大规模数据集

梯度下降示意图

优化方法，以及大规模数据带来的挑战

许多机器学习算法都可以看作两种因子的组合：

一个模型，它可以由许多种不同的函数组合而成，可以用来拟合数据
一个优化算法，它可以具体描述出如何选择出效果最佳的那个函数

1990 年代的时候，机器学习研究者们使用的数据集要比现在的小多了，而且当时他们也认为人工神经网络很难训练，即便当时它们已经展现出了一些成果。到了 21 世纪初，随着核方法（kernel machines），尤其是支持向量机（SVM）的出现，人们对神经网络的热情迅速消失殆尽。与此同时，本来研究优化算法的研究者们也把注意力从研究神经网络的优化算法（随机梯度下降）转移到了研究核方法的优化算法上（二次规划法，quadratic programming）。这两种优化方法之间的区别在于，对于随机梯度下降，每次计算只使用一个训练样本用来计算梯度步骤（称之为「随机」）；而对于核方法的优化算法，每一次迭代中都需要使用所有的训练样本（称之为「批量」）。

NeurIPS2018时间检验奖论文回顾：为什么深度学习适合大规模数据集

SVM 示意图

但随着训练数据集的大小变得越来越大，优化算法处理大规模数据的效率就成为了瓶颈。比如对于二次规划法，算法的运行时间最少也要和训练样本的数量的平方成正比，也就是说，如果你的训练数据变成了原来的 2 倍，那么训练时间至少也会变成原来的 4 倍。所以研究人员们也花了很多精力尝试如何让这些算法更好地拓展到大规模数据集上。

曾经训练过人工神经网络的研究人员们则深深知道把随机梯度下降拓展到大规模数据集上会容易很多，只不过它的问题在于它的收敛很慢（想要达到和批量算法相同的准确率，随机方法需要的迭代次数要多很多），所以那时候大家也并不能清晰地判断出它是否会是解决数据规模问题的那个黄金方案。

随机方法有更好的可拓展性

在机器学习领域里，优化损失函数所需的迭代次数其实并不是最让人头疼的那个问题，毕竟一直调节模型、调节得到完美的损失函数，其实是过拟合到了训练数据上。所以为什么不省下调节模型花费的计算能力，而用这些计算能力处理更多的数据呢？

Léon Bottou 和 Olivier Bousquet 就对这种现象做了一次正式的研究。他们设置的实验条件是，可以使用大规模数据集，同时计算能力是一个限制条件。他们的研究表明，对每一个训练样本进行尽量少的运算（同时也就可以用到更多的训练样本）可以取得更好的效果，而在较少的数据上进行大量运算的做法效果并不好。

他们也研究了许多种不同的优化算法，结果表明随机梯度下降是最好的。他们的结果得到了许多别的研究者的实验支持，同时也引领了在线优化算法的新研究兴趣。如今，在线优化算法也在机器学习领域有着许多的应用。

谜团尚未完全解开

在随后的几年中，研究人员们开发了随机梯度下降的许多变种，包括对于凸函数和非凸函数的（非凸函数的优化方法对深度学习非常重要）。最常见的一种变种被大家称作“mini-batch SGD”，它在每次迭代中计算一小批（大约数十到数百量级）训练样本，对整个训练数据集操作若干次，同时也配合使用一些其它的大规模梯度计算技巧。许多机器学习库中都直接包含这样的算法的实现，它也是公认的深度学习的重要支柱之一。

虽然这篇论文的分析为理解随机梯度下降的性质提供了充实的论据，但深度学习高速的、令人惊喜、甚至令人惊讶的发展继续为科研界带来了更多的问题。比如，这种算法对深度神经网络的泛化性的影响被大家反复提及，但我们仍然没有什么深入的了解。这也意味着，我们目前面对着许许多多有趣的研究课题，一旦做出了突破，我们不仅可以对现在正在使用的算法有更好的了解，也可以引导我们未来开发出更高效的算法。

Léon Bottou 和 Olivier Bousquet 十年前合作提出的观点大大加速了优化算法的发展，到如今已经是给我们带来更多生活便利的机器学习算法中重要的驱动力。谷歌 AI 团队全体人员认为他们获得这个奖项实至名归，也向他们致以诚挚的祝贺。

via ai.googleblog.com，雷锋网 AI 科技评论编译。NIPS 开幕式完整回顾请阅读近九千人齐聚 NeurIPS 2018，四篇最佳论文，十大研究领域，1010 篇论文被接收

雷峰网原创文章，未经授权禁止转载。详情见转载须知。