2018 年 Top 10 影响力 AI 研究论文

本文作者：杨晓凡

2019-01-06 23:36

导语：篇篇如雷贯耳

雷锋网 AI 科技评论按：Topbots 总结了他们眼中 2018 年里 10 篇最为重要的 AI 研究论文，带领大家领略过去的一年中机器学习领域的关键进展。现在点开了这份清单的人显然是极为幸运的，获得了一个精彩瞬间回放的机会。

不得不说，考虑到这个领域极快的发展速度和极多的论文数量，肯定还有一些值得阅读的突破性论文没能包括在这份榜单中。不过这份清单是一个好的开始。

1. Universal Language Model Fine-tuning for Text Classification

「用于文本分类的通用语言模型的精细调节」

论文地址

https://arxiv.org/abs/1801.06146

内容概要

两位作者 Jeremy Howard 和 Sebastian Ruder 提出了可以用预训练的模型解决多种 NLP 任务的想法。通过这种方法，研究人员不需要为自己的任务从零开始训练模型，只需要对已有的模型做精细调节。他们的方法，通用语言模型精细调节 ULMFiT ，得到了当时最好的结果，比其他模型的错误率降低了 18% 到 24%。更令人钦佩的是，ULMFiT 只用了 100 个有标签样本得到的结果就可以和用 10K 有标签数据从零开始训练的模型一样好。

论文思想要点

为了应对缺乏标注数据的问题，以及让 NLP 分类任务更轻松、更省时，他们提出了把迁移学习用在 NLP 问题中。这样，研究人员们不再需要从零开始训练新模型，只需要找到一个已经在相似的任务上训练完毕的模型作为基础，然后为新的具体问题微调这个模型即可。

然而，为了让这样的做法发挥出理想的效果，这个微调过程有几个细节需要注意：

网络中不同的层应该为不同的内容进行微调，因为它们捕捉的信息的类别也是有所不同的；
把模型参数向新的具体任务适配时，让学习率先线性增加，再线性衰减，学习的效率会比较高；
一次微调所有的层会带来灾难性的遗忘问题。所以，比较好的做法是一开始只更新最后一层的参数，然后逐步让前面的层也参与到微调中来。

领域内学者评价

可以轻易得到的预训练 ImageNet 模型已经给整个计算机视觉界带来了巨大的改变。ULMFiT 也可以在 NLP 任务中起到同样的重要作用；
这种方法可以用于任意语言上的任意 NLP 任务。全世界的研究人员们已经在德语、波兰语、海地语、印度尼西亚语、中文、马来语等许多语言上进行了尝试，同样得到了大幅进步的结果。

未来可能的相关研究

继续改善语言模型预训练以及精细调节；
把这种方法用于其它新的任务以及模型上（比如序列标注，自然语言生成，概括或者问答）。

雷锋网 AI 科技评论详解文章

ImageNet 带来的预训练模型之风，马上要吹进 NLP 领域了

2. Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

「模糊梯度防御带来的只是安全的假象：绕过对抗性样本的防御」

论文地址

https://arxiv.org/abs/1802.00420

内容概要

研究人员们发现，对于对抗性样本的防御，目前主要使用的是梯度模糊方法，但这种方法并不能带来真正的安全，因为它可以被轻松规避。这篇论文了研究了三种使用了梯度模糊的防御方法，并展示了可以绕过梯度模糊防御的技巧。他们的发现可以帮助目前使用了梯度模糊防御的组织机构考虑如何强化自己的方法。

论文思想要点

目前有三种常见的梯度模糊做法：

梯度破碎（shattered gradients），防御方法会有意地（通过不可微的运算）或者无意地（通过数值的不稳定性）提供不正确的梯度，或者不提供梯度；
通过随机防御提供随机梯度；
通过非常深的深度神经网络评估带来消失梯度/爆炸梯度。

基于梯度的方法有一些问题，我们可以看到下面这些迹象：

一步式的攻击比迭代式的攻击效果更好；
黑盒攻击比白盒攻击的效果更好；
无限制攻击也无法达到 100% 成功率；
随机采样也可以找到对抗性样本；
提高图像扭曲的容忍度并不能提高攻击成功率。

论文的关键成果是，通过实验表明如今使用的大多数防御技术都还很脆弱。ICLR 2018 接收论文中的 9 种防御技术中，有 7 种都使用了梯度模糊，而论文作者们提出的新攻击方法可以完全绕过 7 种中的 6 种防御，并部分绕过最后 1 种。

领域内学者评价

这篇论文获得了 ICML 2018 的最佳论文奖；
这篇论文清晰地展示出了我们现有技术的优点和缺点

未来可能的相关研究

我们需要考虑在细致、全面的评价方式下构建新的防御技术，目标是不仅能够防御现有的攻击方式，还要能够防御以后有可能开发出的新的防御方式。

3. Deep Contextualized Word Representations

「深度上下文依赖的单词表征」

论文地址

https://arxiv.org/abs/1802.05365

内容概要

来自艾伦人工智能研究院（Allen Institute for Artificial Intelligence）的作者们介绍了一种新型的深度上下文依赖单词表征： Embeddings from Language Models (ELMo)。在使用了 ELMo 强化的模型中，每个单词的向量化都是基于它所在的整篇文本而进行的。把 ELMo 添加到现有的 NLP 系统中可以带来的效果有：1，错误率相对下降 6% 到 20%；2，训练模型所需的 epoch 数目显著降低；3，训练模型达到基准模型表现时所需的训练数据量显著减小

论文思想要点

在很大的文本语料库上预训练一个深度双向语言模型（biLM），用它生成单词嵌入，这些嵌入来自这个模型的内部状态的加权和；
嵌入中包括了 biLM 的所有层的表征，因为网络中不同的层表征了不同类型的信息；
ELMo 的表征被设计为基于字符的，这样网络还可以利用单词拼写的信息，更好地理解训练中未曾见过的超出词汇表的单词的意思。

领域内学者评价

这篇论文获得了 NAACL 的杰出论文奖；
这篇论文提出的方法也被认为是近几年来 NLP 领域最大的突破之一。

未来可能的相关研究

可以把这种方法集成到特定任务中，方式是把 ELMo 和不依赖上下文的单词嵌入级联起来；
也可以尝试把 ELMo 和模型输出级联起来。

4. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

「一般卷积网络和循环网络用语序列建模的实证评价研究」

论文地址

https://arxiv.org/abs/1803.01271

内容概要

领域内有种常见的假设：对于序列建模问题来说，选择一个循环网络架构作为出发点是默认的做法。这篇论文的作者们就对这种假设提出了质疑。他们的结果表明，一般的时序卷积网络（TCN）能在许多种不同的序列建模任务中稳定地超出 LSTM 以及 GRU 之类的典型的循环神经网络。

论文思想要点

在近期发现的最佳实践做法（比如空洞卷积和残差连接）的帮助下设计出的时序卷积网络（Temporal convolutional networks）可以许多复杂的序列建模任务中发挥出超过一般循环网络架构的表现；
TCN 表现出的记忆能力比循环网络明显更长，也就更适合那些需要很长的历史记录的序列建模任务。

领域内学者评价

特斯拉 AI 总监 Andrej Karpathy 评论：「在用 RNN 之前一定要先试试 CNN。CNN 的表现会好到你惊讶的。」

未来可能的相关研究

为了在不同的序列建模任务上进一步提高 TCN 的表现，我们还需要更多的架构探索、算法探索方面的合作。

5. Delayed Impact of Fair Machine Learning

「公平的机器学习的影响是有延迟的」

论文地址

https://arxiv.org/abs/1803.04383

内容概要

这篇论文的目标是想要确保，当使用一个机器学习算法生成分数来决定不同的人是否能够得到某些机会（比如贷款、奖学金、工作等）时，人口统计学角度分出的不同族群可以被公平地对待。UC 伯克利人工智能实验室（BAIR）的研究人员们表明，使用常见的公平性条件实际上有可能伤害到弱势群体，这是由于某些后果的出现是有延迟的。通过这项研究他们希望鼓励大家在设计公平的机器学习系统时考虑它的长期后果。

论文思想要点

作者们考虑了施加公平性条件之后出现的有延迟的结果，结果表明，这些条件对于想要保护的群体来说可能长期看来是有害的（比如借款人的信用分数长期来看会变低，因为他会还不上贷款，而这笔贷款在无限制的条件下其实一开始就不会发放给他）；
由于公平性条件有可能会主动地给弱势群体带来伤害，可以考虑一些额外的解决方案，比如使用一个会显式地最大化结果的决策规则，或者使用一个结果模型。

领域内学者评价

这篇论文获得了 ICML 2018 的最佳论文奖；
这项研究澄清了一个误区：即便是好的出发点的区别对待也有可能会起到坏的效果。

未来可能的相关研究

对于结果评价的考量，可以考虑群体均值变化之外的其它因素（比如方差、个体级别的结果）；
针对建模和测量误差，研究结果优化方法的鲁棒性。

6. World Models

「世界模型」

论文地址

https://arxiv.org/abs/1803.10122

内容概要

David Ha 和 Jurgen Schmidhuber 开发了一个世界模型，它可以用无监督的方式快速训练，学到所处环境的空间和时间表示。这个智能体可以成功地在赛车地图中导航，并且在 VizDoom 环境中躲开怪物发射的火球。而这些任务对于此前的方法来说都难以解决。

论文思想要点

论文所提的解决方案包含三个独立的部分：

一个变分自动编码器（VAE），它负责捕捉视觉信息。它会把 RGB 形式表示的输入图像压缩为一个服从高斯分布的 32 维隐含向量。这样，这个智能体只需要处理一个环境的很小的表示，从而大幅提高了学习效率。
一个循环神经网络（RNN），它负责前馈思考。这是一个起到记忆作用的组件，它会在给定前一帧图像和前一个动作的条件下尝试预测视觉部分看到的下一帧图像可能是什么样子。
一个控制器，它负责选择动作。它是一个非常简单的神经网络，它把 VAE 的输出和 RNN 的隐含状态级联起来，然后选择一个好的动作。

领域内学者评价

这篇论文在 AI 研究者间得到了广泛的讨论，它是一项设计优美的使用神经网络做强化学习的研究，而且让智能体在自己「幻想」出的世界中进行训练。

未来可能的相关研究

为了让智能体探索更加复杂的世界，可以把小的 RNN 换成有更大容量的模型，或者集成一个外部存储模块。
论文中使用的规划方法是逐时间步的，可以考虑尝试更通用化的方法，也就可以使用层次化的规划方法。

雷锋网 AI 科技评论详解文章

智能体的白日梦，谷歌大脑又出来PR文了？

7. Taskonomy: Disentangling Task Transfer Learning

「任务学：任务迁移学习的解耦」

论文地址

https://arxiv.org/abs/1804.08328

内容概要

自从现代计算机科学发展的早期以来，就有许多研究者们提出不同的视觉任务之间具有某种结构。现在，Amir Zamir 和他的团队终于做出了寻找这种结构的尝试。他们使用一个完全计算性的方式进行建模，发现了不同视觉任务之间的许多有用的联系（甚至包括一些非平凡的视觉任务）。他们也表明了可以利用这些相互依赖关系进行迁移学习，只需要大约 1/3 的标注数据就可以达到相同的模型表现。

论文思想要点

一个了解不同视觉任务之间关系的模型需要的监督可以更少，需要的计算量可以更小，而且它的行为也更容易预测。
人们更喜欢用这样的完全计算性的方法发现不同视觉任务之间的关系，因为它可以避免引入人类的先验假设。人类的先验假设来自于直觉或者分析性的知识；这些假设完全可能是错误的，而神经网络可能是以完全不同的法则运行的。

领域内学者评价

这篇论文获得了 CVPR 2018 最佳论文奖；
论文的结果意义重大，因为大多数的真实世界任务中都没办法获得大规模标注数据集。

未来可能的相关研究

目前论文中研究的常见视觉任务都是完全由人类定义的，下一步可以尝试新的模式，那就是首先用计算性的方法发掘一些隐含的子任务，而人类定义的视觉任务就是对它们观察后得到的采样；
探索是否有可能把模型学到的东西迁移到不完全属于视觉领域的任务中，比如迁移到机器人控制。

雷锋网 AI 科技评论详解文章

CVPR18最佳论文演讲：研究任务之间的联系才是做迁移学习的正确姿势

8. Know What You Don't Know: Unanswerable Questions for SQuAD

「知道你不知道的：SQuAD 中无法回答的问题」

论文地址

https://arxiv.org/abs/1806.03822

内容概要

斯坦福大学的一组研究人员们拓展了著名的斯坦福问答数据集 SQuAD，在其中增加了超过 5 万个无法回答的问题。这些问题的答案是无法从给出的文本段落中找到的，无法给出回答，但这些问题又和那些可以回答的问题看起来非常相似。更进一步的是，给出的文本段落中会含有仿佛相符但实际上并不正确的答案，这进一步提高了数据集的难度。升级后得到的 SQuAD 2.0 也就成为了现有顶尖模型的重大挑战：一个在原版的 SQuAD 上可以得到 86% 准确率的强有力的神经网络模型，如今在 SQuAD 2.0 上只能得到 66% 的准确率。

论文思想要点

目前的自然语言理解系统与真正的语言理解还相距甚远，其中一项根本原因就是目前的问答数据集都是仅仅针对「给出的文本段落里必然包含了正确答案」这一种情况设计的；
为了让问答数据集变得真正有难度，「无法回答的问题」应当满足这两种条件：

它们和给出的文本段落之间有一些联系；
给出的文本段落中包含了看起来仿佛相符的答案，它包含的信息和提问想要获得的信息是同一类型的，但并不正确。

领域内学者评价

这篇论文获得了 ACL 2018 最佳短论文奖；
这个新数据集提高了自然语言理解领域研究的问题的复杂度，会为这个领域的模型训练结果提升起到直接的推动作用。

未来可能的相关研究

未来可以继续开发出新种类的模型，它们要能够「知道自己不知道什么」，从而对自然语言有更好的理解。

9. Large Scale GAN Training for High Fidelity Natural Image Synthesis

「用于高保真度自然图像生成的大规模 GAN 的训练」

论文地址

https://arxiv.org/abs/1809.11096

内容概要

DeepMind 的一个研究团队认为目前的深度学习技术就已经足以从现有的 ImageNet、JFT-300M 之类的图形数据集生成高分辨率的、多样化的图像。具体来说，他们展示了生成式对抗性网络（GANs）如果以非常大的规模训练的话，可以生成看起来非常真实的图像。这个「非常大的规模」有多大呢？相比于以往的实验，他们的模型的参数数量是 2 到 4 倍，训练所用的批量大小也达到了 8 倍。这种大规模的 GANs，他们称为 BigGANs，已经称为了分类别图像生成的最新顶级模型。

论文思想要点

选取更大的批量大小和参数数目以后，GANs 的表现可以得到明显的提升；
在生成器中加入正交正则化可以让模型对某种特定的技术更为敏感（就是「截断法」），这让研究人员们有办法控制样本保真度和样本多变性之间的平衡。

领域内学者评价

这篇论文已经投递到了 ICLR 2019；
BigGAN 的生成器自从在 TF Hub 上发布就受到了全世界 AI 研究人员们的追捧，（研究以及娱乐性质地）用它生成猫狗、手表、泳装、蒙娜丽莎、海岸等等各种内容的图像。

未来可能的相关研究

尝试用更大的数据集训练模型，进一步缓和 GAN 的稳定性问题；
探索是否有可能降低 GANs 生成的奇怪样本的数量。

10. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

「BERT：用于语言理解的深度双向 Transformer 模型的预训练」

论文地址

https://arxiv.org/abs/1810.04805

内容概要

谷歌 AI 团队展示了一个新的用于自然语言处理的前沿模型：BERT（Bidirectional Encoder Representations from Transformers，用于 Transformer 模型的双向编码器表征）。它的设计可以让模型同时从左以及从右处理文本内容。虽然概念上说起来很简单，但 BERT 带来了惊人的实际表现，它刷新了 11 项不同的自然语言处理任务的最好成绩，包括问答、命名实体识别以及其他一些和通用语言理解相关的任务。

论文思想要点