引用次数最多的七篇深度学习论文出自谁手？Hinton、Yoshua榜上有名（理解/泛化/迁移篇）

本文作者：这只萌萌

编辑：郭奕欣

2017-03-21 09:39

导语：有一些深度学习论文，无论它们属于哪个应用领域，都值得仔细研习。文章在精不在多，我们提供的这些文章，都被认为是值得一读的优秀论文。

雷锋网AI科技评论：我们通常都会学习前辈或大牛的经典作品，而引用次数自然也成为了论文的一个重要标杆。在GitHub上，@Terryum整理了一份精心编写的论文推荐列表，其中包含了在深度学习领域中引用次数最多的前100篇论文（自2012年起）。囿于篇幅限制，雷锋网整理编译了理解/泛化/迁移领域的七篇论文，并增加了论文的概要，方便读者快速了解。

有一些深度学习论文，无论它们属于哪个应用领域，都值得仔细研习。文章在精不在多，雷锋网提供的这些文章，都被认为是值得一读的优秀论文。

背景

除此列表之外，还有一些优秀的深度学习论文推荐列表，比如《Deep Vision》,《Awesome Recurrent neural networks》和《Deep Learning Papers Reading Roadmap》。其中《Deep Learning Papers Reading Roadmap》是一个适合深度学习初学者的论文推荐列表，包含了很多重要的论文，被很多深度学习的研究者所喜爱，但是想要读完其中包含的所有论文还是有一定难度的。正如我在介绍中提到的一样，任何应用领域的开创性工作都会让我们受益匪浅。因此，我将介绍前一百篇深度学习论文，作为概述深度学习研究的起点。

评选标准

入选论文的发表年份限于2012年至2016年间
每当一篇新的论文入选此列表(通常从《More Papers from 2016》选择)，那么就会有另一篇论文被淘汰，确保始终只提供前100篇论文。（选择淘汰论文的工作与选择加入的工作同样重要）
有一些没有入选的重要论文，将会在《More than Top 100》中陈列
对于2012年前或者近六个月发表的论文，请参考《New Papers and Old papers》

(引用标准)

按论文发表的时间：

<6 个月: 新论文（经讨论决定）
2016年 : 引用次数大于60次或者入选了《More Papers from 2016》
2015年 : 引用次数大于200次
2014年 : 引用次数大于400次
2013年 : 引用次数大于600次
2012年 : 引用次数大于800次
~2012年 : 旧论文（经讨论决定）

注意：我们优先选择学术领域而不是应用领域的开创性论文，入选的论文影响力相对较大，也更加适用于其他研究匮乏的学术领域，因此有些满足评选标准的论文没有被选中，而有些选中了。

论文集目前包括以下几个分类：理解/泛化/迁移、最优化/训练技巧、无监督学习/生成模型等十个子类，本篇文章只简单对理解/泛化/迁移的论文进行介绍。

理解/ 泛化/ 迁移

对于大型的机器学习任务，通常在训练阶段和应用阶段会使用相似的模型。为了使特征提取更容易，我们愿意训练一个相对复杂的模型，甚至是训练几个模型的集合。一旦这样的集合模型训练完成，使用一种叫做“压缩”的技术把复杂模型的知识转化到一个较小的模型中以便应用模型使用。Caruana曾经提出过一种将一个大的模型集合转化为小的单一模型的方法，来自谷歌的Geoffrey Hinton, Oriol Vinyals和Jeff Dean三位技术专家合著了《Distilling the knowledge in a neural network 》，他们改善了Caruana的方法，应用了一种不同的压缩方法并在MNIST数据集上取得了惊人的成绩。论文表明，把集合模型中的知识 “压缩” 到单一模型中可以显著地改善一种频繁使用的商业系统的声学模型。

[1]Distilling the knowledge in a neural network (2015), G. Hinton et al. [pdf]

深度神经网络 (DNN) 在分类图片物体的问题上达到了近乎人类的程度，很多人会有疑问，计算机视觉和人类视觉究竟有何不同？ Anh Nguyen, Jason Yosinski和 Jeff Clune在《Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images 》一文中提出了DNN和人类视觉的差异，文章认为，在面对人类完全不能辨认的图片时，DNN很容易被糊弄。文中通过进化算法或者梯度下降方法来处理图片，实验显示，即使对于人类无法辨别的图片，DNN依然能够呈现很高的置信度。其中，处理过后的MNIST数据集，DNN的辨别置信度达到了99%，而辨别ImageNet数据集的置信度则相对较低些。

[2]Deep neural networks are easily fooled: High confidence predictions for unrecognizable images (2015), A. Nguyen et al. [pdf]

很多深度神经网络在分类自然图片时都表现出了同一种奇怪的现象，它们在第一层网络层学习的特征与Gabor 滤波器和Color blobs很像，无论选择怎样的数据集和损失函数，似乎这样的第一层特征都会出现，具有普遍性。另外，我们知道训练的网络最后一层的特征与选择的数据集和训练任务紧密相关，具有特殊性。网络层的特征在训练过程中会由一般转变为特殊，但是目前这种转变过程还没有研究的很透彻。由Jason Yosinski, Jeff Clune, Yoshua Bengio和Hod Lipson合著的《How transferable are features in deep neural networks? 》通过实验量化了深度卷积神经网络每一层中的神经元的普遍性和特殊性。实验表明，有两个因素会造成迁移特征的性能下降：高层特征本身的特殊性；由于在协同工作的相邻网络层之间进行分割造成的优化困难。另外，实验观察了这两个因素在不同迁移方式下的表现，量化了因训练任务不同而改变的迁移差异性变化，结果表明，即使是从完全不同的训练任务迁移过来的特征，表现的性能都要优于随机设置权重的网络。另外，实验表明，即使是进行微调参，使用迁移的特征还是可以提高泛化性能，这可以作为提高深度神经网络性能的有效手段。

[3]How transferable are features in deep neural networks? (2014), J. Yosinski et al. [pdf]

已有研究表明从卷积神经网络中提取出的通用描述符是非常有用的，从CNN网络中学习到的通用特征，可以成功应用于其他的识别任务。《CNN Features off-the-shelf: an Astounding Baseline for Recognition》再次证明了这一点，论文作者Ali Sharif Razavian等进行了一系列实验，使用已有的OverFeat网络加上简单的分类器SVM，来处理不同种类的识别任务，包括物体对象识别，场景识别，精细分类，属性检测，图像检索，OverFeat+SVM在这些任务上都表现出了非常优异的性能。结果表明，卷积网络获得的特征可作为大多数视觉识别任务的首选。

[4]CNN features off-the-Shelf: An astounding baseline for recognition (2014), A. Razavian et al. [pdf]

CNN模型的训练过程，相当于在拥有大量标签过的图片样本的情况下，估算百万个参数的值。CNN的这一性质使得它无法在训练数据有限的情况下使用，由Maxime Oquab, Leon Bottou，Ivan Laptev，Josef Sivic等人合著的《Learning and transferring mid-Level image representations using convolutional neural networks 》展现了使用大规模标签数据集和CNN模型训练过的图片表征，可以有效地应用到其他的视觉识别任务上。论文设计了一种方法，在ImageNet数据集训练过的网络层可以重用，用于计算PASCAL数据集的中层图片表征。

[5]Learning and transferring mid-Level image representations using convolutional neural networks (2014), M. Oquab et al. [pdf]

来自纽约大学的Matthew D. Zeiler和Rob Fergus合著了《Visualizing and Understanding Convolutional Networks》，这篇论文解释了为什么很多CNN模型在ImageNet上表现优异并介绍了如何提升这些模型的性能。论文引入了一种新的可视化技术展示中间层特征函数和分类器的操作。可视化使得我们可以找到这些在ImageNet分类基准中比Krizhevsky模型表现更好的模型结构。

[6]Visualizing and understanding convolutional networks (2014), M. Zeiler and R. Fergus [pdf]

对于一个大的, 固定的物体的识别任务，在全监督学习中训练过的深度卷积网络的激励层提取出来的特征，是否能够在新的通用任务中再利用?《DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition》一文讨论了这个问题。论文中调查并可视化了不同任务的深度卷积特征的语义聚类，比较了不同网络层次的效果来定义固定特征。报告的新成果明显优异于目前在视觉任务挑战中表现的最优水平。

[7]Decaf: A deep convolutional activation feature for generic visual recognition (2014), J. Donahue et al. [pdf]

本文介绍了列表中属于理解/泛化/迁移领域的七篇引用次数最多的论文，对于其他类别的论文，请参考原文链接：https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models

雷峰网版权文章，未经授权禁止转载。详情见转载须知。