从 ACL 2019 看 NLP 未来发展趋势

本文作者： MrBear

2019-08-17 13:00

专题：ACL 2019

导语：NLP 研究迎来了黄金时代，但仍有诸多挑战尚待攻克！

随着自然语言处理领域的顶级盛会 ACL 2019 落幕，亚马逊 Alexa AI 的机器学习科学家 Mihail Eric 对本次会议进行了一次比较全面的回顾。从奇闻轶事到学术前沿，本文一网打尽，自然语言处理领域的小伙伴们不要错过！

本周，我有幸参加了 2019 年计算语言学协会年会（ACL），本届会议在美丽的佛罗伦萨的一座古老的美第奇家族的城堡举行。

我非常热衷于参加学术会议，因为你可以在很短的时间内掌握研究社区的前沿思潮，了解人们的所思所想以及该领域的最新进展。对于全世界的自然语言处理（NLP）研究者而言，ACL 可能是最大的盛会，它为该领域的顶尖工作提供了一个具有代表性的抽样展示平台。

和其它会议一样，有时参加 ACL 就像是在大浪淘沙，你会被淹没在论文、演讲和各种思维的海洋中。在本文中，我希望提炼出我花费了一周时间收集到的 NLP 研究社区的关键知识点和发展趋势，并适当地参考相关论文，重点介绍可以预见到的一些趋势。本文中的引用必然是不完整的，所以我建议，想要了解其它有趣的工作的读者请查看完整的会议论文集：

http://www.acl2019.org/EN/program.xhtml

如何在 NLP 社区中做到一碗水端平？

在本届 ACL 的开幕致辞中，大会主席周明先生指出，这次会议是有史以来规模最大的一届 ACL 大会。会议共收到了2900 余篇提交的论文，投稿规模相较于 2018 年增长了 75%！自然语言处理领域实在是炙手可热，学术界和工业界的热情都创下了历史新高。

然而，这些关于大会受欢迎程度的统计数据并不能很全面地代表全球范围内对于 NLP 的关注情况。投稿量的增长大多都来源于北美地区（由美国领衔）以及亚洲地区（由中国领衔），将大多数南美、非洲、以及许多欧洲国家甩在了后面。因此，当前的 NLP 研究存在地理偏差的风险，这样一来我们就无法获知多元化的观点来塑造该领域的未来。

正如周明先生所说（根据他在亚太地区发展 NLP 社区的经验），一种可行的解决方案是：在被忽视的地区举办更多的会议和活动。在过去，这种做法成功地吸引了主办地更多的会员参与其中。目前，已经有许多正在实施的工作采取这种方式解决地理偏差问题（例如，「Deep Learning Indaba」，http://www.deeplearningindaba.com/）。

除了地理偏差，在当前的自然语言处理发展进程中，人们也逐渐意识到其它一些令人遗憾的现象（例如，性别偏差）。一些论文沟通过实证研究强调了这种性别偏差。例如，Stanovsky 等人（https://arxiv.org/abs/1906.00591）说明了，四种商用机器翻译系统以及目前最先进的两种学术模型都非常易于出现与性别相关的翻译错误。

研究社区也很清楚地意识到了这个问题，并因此提出了很多有趣的工作，例如 Kaneko 等人（https://arxiv.org/pdf/1906.00742.pdf）开发了一种无偏的词嵌入方法，它能够保留没有偏见的与性别相关的信息，同时去除旧系统中存在的性别偏差。从更高的层次上来说，今年的 ACL 和举办了首届「自然语言处理中的性别偏差研讨会」（Gender Bias in NLP Workshop，https://genderbiasnlp.talp.cat/）以及「扩展自然语言处理研讨会」（Widening NLP Workshop，http://www.winlp.org/winlp-2019-workshop/），致力于将这些问题的研究者聚集在一起，提高见解，促进富有成果的讨论。

当然，我们仍然任重而道远，但是看到研究社区采取积极举措来减轻这些偏差的问题是十分令人鼓舞的。

NLP 的丰富应用

自然语言处理领域的研究现状令人欢欣鼓舞，因为我们在该领域开发的模型和工具有解决许多实际问题的潜力。看看本届会议展示的各种各样的 NLP 应用，这一点就愈发明显了。

在这个充斥着假新闻和虚假的神经网络新闻的时代，验证陈述的真实性变得越来越重要。Shengli Hu 的工作「Detecting Concealed Information in Text and Speech」（https://www.aclweb.org/anthology/P19-1039）构建了一个利用声学和语言学特征识别文本和语音中的隐藏信息的系统，其性能相较于人类提升了 15%。

在健康领域，Shardlow 等人（https://www.aclweb.org/anthology/P19-1037）开发了一种通过特定领域的短语表使得医生编写的临床文书对于患者来说更具可读性的神经网络模型。相关的工作还有，Du 等人（https://arxiv.org/pdf/1906.02239.pdf）提出了根据临床对话提取出疾病症状的任务，并给出了一些对比基线模型，这种手段可以减少初级保健医生花费在与临床文献记录系统交互的时间。

今年的 ACL 还专门设立了一个将 NLP 技术应用于生物学问题的研讨会（https://aclweb.org/aclwiki/BioNLP_Workshop）。例如，Fauqueur 等人（https://arxiv.org/pdf/1907.01417.pdf）提出了用于在无需训练数据或手动设计的规则的条件下，从生物医学文献中提取出新的科学事实的技术。Rajagopal 和 Vyas 等人（https://www.aclweb.org/anthology/W19-5009）的另一篇优秀论文，则通过在大规模数据集上训练一个 LSTM-CRF 模型，然后在「低资源」（数据量较少的）语料库上进行调优，从而使语义角色标注系统适用于生物学过程，他们的模型性能在标准数据集上相较于以往的工作提高了 21 个百分点。

除此之外，NLP 领域还有一些很酷炫的工作，包括 Zhang 等人的论文「This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation」（https://arxiv.org/abs/1906.03497），他们介绍了电子邮件主题行生成的问题（不妨想一想电子邮件智能回复功能，只不过这里的任务是生成电子邮件的标题），并且针对该问题展示了第一个充满前景的模型，对该模型进行了自动和人工评估。

一种新的 NLP 范式：先预训练、再调优

正如 Krizhevsky 等人于 2011 年发表的开创性工作「ImageNet Classification with Deep Convolutional Neural Networks」一夜之间掀起了计算机视觉领域的革命，深度学习在自然语言处理领域的应用同样也处于爆炸性的快速增长期。

从 2015 到 2017 年，NLP 领域中的大多数任务都可以通过一个相对简单的范式来解决：通过某种连续的向量表征嵌入文本输入，对这些表征进行编码，对编码后的表征应用注意力机制，对任务进行预测。Matthew Honnibal 的博文（https://explosion.ai/blog/deep-learning-formula-nlp）对介绍了这种范式。

虽然从概念上说很简单，但「嵌入、编码、注意、预测」的范式似乎在 NLP 领域势不可挡，在所有类型的任务（例如机器翻译、问答系统、自然语言推理等等）上都取得了目前最先进的性能。这样的范式在过去一段时间内，似乎是无所不能的。

现在，NLP 领域可谓是「城头变幻大王旗」了。随着强大的预训练表征的出现，一些使用语言建模目标进行训练（例如，ELMO，https://arxiv.org/abs/1802.05365），OpenAI GPT（https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf），以及 BERT（https://arxiv.org/pdf/1810.04805.pdf）的 NLP 技术已经可以被直接使用，它们在大规模数据上进行预训练，然后在一些较小的领域内的语料库上针对任务进行调优。实际上，这种策略已经成功地在现有的 NLP 对比基准实验中取得了目前最先进的性能。

在本届 ACL 上，这种策略的主导地位被一些已经发表的工作，以及人们对于 NLP 领域研究现状的普遍态度进一步强化了。其中，Dai 和 Yang 等人的工作试图进一步推动基于 Transformer 的超级模型的发展，极大地提升它们的运行速度，实现目前最先进的模型性能。这种新范式的另一个非常具有代表性的工作是 Liu 和 He 等人提出的「Multi-Task Deep Neural Networks for Natural Language Understanding」，他们利用一个基于 BERT 的架构成功登顶 GLUE 对比基准排行榜。（目前排名第3）

除了这些工作本身，围绕会议产生的最多的讨论是，如果使用像 BERT这样的训练方法，研究者们之前提出的许多架构可以实现几个百分点的提升。那么问题来了：这种新的范式是否使许多 NLP 领域在建模方面的创新变得不值一提了？

针对该问题，我个人持否定态度。总的来说，仍然有很多工作没有得到充分的研究，而这些工作对于推进 NLP 领域在未来的发展是至关重要的。下面，我将列举出其中的一些工作。

将知识注入 NLP 架构

虽然现有的经过预训练的语言超级模型架构十分强大，但是根据原始文本语料库训练这些模型的方式鼓励了一种「学到什么就是什么」（you get what you get）的风潮。换句话说，他们所学到的东西是几乎不受限制的，而这些模型的卓越性能可能只是由于在庞大的训练数据集中遇到各种各样的上下文中的许多实例，从而表现出的功能。我们能否融合相关的知识资源中的信息来对此进行改进呢？

在本届 ACL 上，有许多论文试图解决这个问题。例如，Zhang 等人（https://arxiv.org/pdf/1905.07129.pdf）将类型化的实体嵌入和实体对齐技术应用到了一个底层知识图谱上，从而改进 BERT 的表征，证明了他们的模型可以在实体分类和关系分类任务中超越 BERT 模型。Yang 等人（https://www.aclweb.org/anthology/P19-1226）也提出了 KT-NET 来解决这个问题，该模型使用了一个注意力机制来融合从知识库（例如，WordNet 和 NELL）中选择的信息，从而在 Squad 1.1 机器阅读理解任务中取得了最先进的性能。Logan 等人（https://arxiv.org/pdf/1906.07241.pdf）撰写的另一篇优秀的论文提出了知识图谱语言模型，这是一种生成式架构，它能够有选择性地根据一个与底层上下文语境相关的知识图谱中复制出事实，其性能优于许多强大的语言模型对比基线。

尽管将知识诸如神经模型是一件相当困难的事，但这些研究成果仍然令人振奋！

模型的可解释性

众所周知，神经网络是一种黑箱模型，因此很难真正理解所学到的决策函数。暂且不考虑完全可以解释这些模型是否是必要的，但我们至少可以认为，对模型内部在某种程度上的理解可以对未来的架构设计产生深远的影响。在本届 ACL 上，也有一些优秀的论文旨在解释一些现有的模型。

Serrano 等人（https://arxiv.org/pdf/1906.03731.pdf）的工作向「注意力机制可以突显出模型的重要概念」的普遍看法提出了挑战，他们说明这种观点虽然有时是成立的，但是在有些情况下，其它的排序度量标准可能对于表示出模型的决策过程更加有效。

另一方面，Jawahar（https://hal.inria.fr/hal-02131630/document）等人深入探讨了利用 BERT 学到的语言结构，说明了 BERT 的网络层学到了丰富的语言信息（例如，底层网络学习到了表面的语言特征，中间层网络学到了句法特征，顶层网络学到了语义特征）。作者认为，对于学习远距离依赖信息，使用更深的网络层架构是很有必要的。

还有许多其它的工作也讨论了模型的可解释性。Gehrmann 等人（https://arxiv.org/pdf/1906.04043.pdf）研发了一种工具，它可以通过可视化预测单词的模型密度，来检测用神经网络生成的虚假文本，使人类用户可以将其检测率提升近 20%。Sydorova 等人（https://arxiv.org/pdf/1906.10924.pdf）在问答系统上研究了许多诸如「LIME」（https://github.com/marcotcr/lime）的事后解释方法，说明某些技术可以帮助人们从多个选项中找出优秀的问答系统模型。

再次思考自然语言生成的评价与假设

作为对话系统的从业者，在我看来，自然语言生成任务的复杂性是很棘手的。尤其是，对于研究社区来说，对模型的评价仍然是一个非常富有正义的问题，因此看到研究者们积极地改善现状是十分令人鼓舞的。

对于初学者来说，Maxime Peyrard（https://www.aclweb.org/anthology/P19-1502）证明了，在评价特定得分范围内的性能时,某些用于文本自动摘要的自动化的评价指标存在不一致性。Clark 等人（https://homes.cs.washington.edu/~nasmith/papers/clark+celikyilmaz+smith.acl19.pdf）也提出了一种新的基于句子移动相似度（sentence mover’s similarity）的生成文本评价指标，该指标被证明比标准的 ROUGE 指标更符合人类的判断。

模型生成的文本往往会出现「事实错误」（factual errors）和「虚假陈述」（spurious statements）的问题。因此，Falke 等人（https://leoribeiro.github.io/papers/acl19-summary-correctness.pdf）研究了是否可以用自然语言推理系统对输出进行重排序，从而解决该问题。他们发现现成的自然语言推理系统并不能适用于下游任务，并提供了一些使这些系统能够达到必要性能的工具。

Maxime Peyrard 的更加基础的工作（https://www.aclweb.org/anthology/P19-1101）则在理论上严格地定义了本文自动摘要领域的某些概念（例如，冗余度、相关性、信息量）。

除了模型评价，Sankar 等人（https://arxiv.org/abs/1906.01603）的优秀工作对「传统的基于循环神经网络」和「基于 Transformer」的序列到序列（Seq2Seq）的对话模型从对话历史中学到的某些假设提出了质疑。他们特别指出，这些模型对于某些应用于上下文的扰动并不十分敏感，这对目前的自然语言对话生成器提出了挑战。

如何超越「预训练-调优」范式？

经过不断的迭代，虽然当前的 NLP 模型似乎已经达到了最先进的水平，但是 NLP 研究社区的主流观点仍然是：还有一些问题需要改进。由于我们经常使用对比基准来衡量任务的研究进展，我们渐渐遇到了一些棘手的情况，而且这些模型中有许多已经在现有的 NLP 对比基准上超过了人类的表现。那么我们应该怎么办呢？

这就是 Zellers等人（https://arxiv.org/pdf/1905.07830.pdf）提出的问题，在早期的工作中，它为常识性的自然语言推理问题提供了一个挑战性的数据集，结果在发布后不就就发现 BERT 已经达到了与人类相近的表现。为了让问题变得更困难一点，作者发布了一个后续的数据集，该数据集使用一种叫做对抗性过滤的技术选择出令 BERT 和其它模型难以回答的示例。在这个过程中，他们大大增加了对比基准测试的复杂度。

BERT 当然并非完美。Nangia 等人（https://arxiv.org/pdf/1905.10425.pdf）的研究表明，基于 BERT 的模型难以应对低资源（可用数据量较少）的句子分类任务，并提出了一个被称为「SuperGLUE」（https://arxiv.org/pdf/1905.00537.pdf）的后续的自然语言理解对比基准，专门对这种机制进行评价。

McCoy 等人（https://arxiv.org/pdf/1902.01007.pdf）的另一项工作则说明了，应用于自然语言推理的 BERT 模型实际上学习到了非常简单的语法启发信息，但这些启发信息不能很好地泛化到其它的推演（entailment）例子中。他们也发布了一个评价数据集，从而确定模型是否采用在采用了这些启发信息后也没能解决更一般的推理问题。

Min 和 Wallace 等人（https://arxiv.org/pdf/1906.02900.pdf）的另一篇相关论文说明了，许多针对 HotpotQA 数据集（一个多条问答对比基准）提出的模型，实际上并不需要执行多跳推理来获得良好的性能。

总的来说，我认为现在大部分的模型仍然是在针对特定数据集做工作，而不是针对特定任务。我们建立的模型可以非常有效地收集和利用数据集特有的偏差。在这个过程中，我们的评价指标又为我们展示了相当具有误导性的分析结果。这让我想起了「古德哈特定律」：当一项指标成为目标时，那么他就不再是一个好的指标（一项社会指标或经济指标，一旦成为一个用以指引宏观政策制定的既定目标，那么该指标就会丧失其原本具有的信息价值）。那么，接下来我们该如何做呢？

考虑到这些评价对比基准对于自然语言任务发展的重要意义，以及模型开发的速度，假设对比基准一成不变似乎是不合理的。相反，我发现开发一套不断演化的、难度越来越大的对比基准，提高自然语言能力的门槛，是特别有前景的。也许从某种程度上来说，这就是我们实现令机器具有人类级别的自然语言能力的方式。