NAACL提名19篇「时间检验论文」，桌头案角你曾经放了几篇？

本文作者： camel

2018-01-17 22:26

导语：恐怕是连一篇也没有~

雷锋网 AI 科技评论消息：近日 NAACL 2018 的主席博客发表了一份「时间检验奖论文」（Test-of-Time Paper）提名列表，共有 19 篇经典论文。其中第18号论文，由于作者Amanda 和 Lyn是 NAACL-HLT 2018 的组织者，所以作者请求将其排除在外；提名列表中仍然保留，但将不参与到最终的评选中。

雷锋网 AI 科技评论认为，且不管最终哪篇文章会获得「时间检验论文」，这些论文都是做计算语言学中的必读经典文献，值得下载下来仔细研读。下面我们来看都有哪些论文。

为了便于下载，这里分享一下这些论文的百度网盘下载链接：

链接:https://pan.baidu.com/s/1ee1miy 密码:j03w

排名不分先后，按照标题字母顺序

Paper #1 

标题：A General, Abstract Model of Incremental Dialogue Processing 

作者：David Schlangen and Gabriel Skantze 

提名理由： 本文提出了增量对话处理（incremental dialog processing）的一般模型和概念框架，即对话系统应该如何以一种连续的方式（而不是一句一句的）处理信息，从而能够让系统更流畅和人性化的进行交互。在同一个会议上，作者还提交了另一篇论文，这篇文章基于所提出的模型，描述了世界上第一个完全增量对话系统（虽然是在一个非常有限的领域里）。这项工作激发了大量关于对话系统增量处理的研究，增量处理（与对话状态跟踪和神经建模一起）仍然是对话系统研究中最热门的领域之一。在提名时，这篇文章的 Google 学术搜索有 182 条引用。

Paper #2

 标题：A Linear Programming Formulation for Global Inference in Natural Language Tasks 

作者：Dan Roth and Scott (Wen-Tau) Yih 

提名理由：Roth＆Yih（2004）的论文中引入的 ILP 公式改变了研究界对自然语言处理中全局推理的思考方式，并对 NLP 中的所有领域，从句法到摘要、到信息抽取、到语义中的多任务都产生了很大影响。它引入一种新的技术语言，现在已经成为主流，研究人员广泛使用的建模工具大大推进了许多 NLP 应用，并引发了一系列的研究问题，这些问题促进了我们在自然语言推理方面一些关键问题的理解。

Paper #3

 标题： An Investigation into the Validity of Some Metrics for Automatically Evaluating Natural Language Generation Systems 

作者： Ehud Reiter and Anja Belz 
提名理由：本文探讨了自动评估指标（如 BLEU 和 ROUGE）与自然语言生成（NLG）系统的人为评估之间的关系。本文的研究结果表明，虽然自动度量标准可以用于预测生成文本的语言质量，但它们不能捕捉生成内容的质量，而后者对 NLG 系统来说却是非常重要的。自动评估在 NLG 领域一直是一个争论不休的话题，而本文的研究改变了该领域众多人士的观点，文中认为 NLG 中重要的结果需要人为评估予以支持才能被接受。这篇论文目前的引用率仍然很高，而且由于对话系统和个人助手的工业兴趣日益增加，现在对 NLG 的兴趣也在逐日增长。

Paper #4 

标题： An Unsupervised Method for Word Sense Tagging using Parallel Corpora

作者：Mona Diab and Philip Resnik 

提名理由：这是第一篇成功使用大规模跨语言映射进行语义表示的论文，特别是在语义歧义方面的工作尤为突出。它将 Diab 在 2000 年的工作（ACL Workshop on Word Senses and Multi-Linguality）扩展到使用平行语料库进行大规模跨语言扩展语境的概念。本文中的技术推动了整个研究的进一步发展，即利用跨语言预测来进行语义和多语言资源创建，为其他语言标记数据和知识资源。本文连同 Yarowsky、Ngai 和 Wicentowsky（2001）同时期的工作，是从语义学、多语言资源创建、信息抽取到平行语料库语法的 NLP 任务的跨语言工作的基础。该论文被引用 268 次，其中最近在 2017 年还有一些其他语言的引用（用英语以外的语言写的论文）。

Paper #5

标题： Anaphora and Discourse Structure 

作者：Bonnie Webber, Matthew Stone, Aravind Joshi, Alistair Knott 

提名理由：本文的研究为宾州篇章树库（PDTB）奠定了理论基础，催生了新一轮的语篇分析研究浪潮，这在 CoNLL 2015 共享任务中得到了很好地体现。在这篇文章中，Webber 等人提出了篇章结构和语义之间一种新的关系。他认为，副词篇章提示短语（例如 then、instead、otherwise 等）起着隐喻的功能，将矩阵从句与篇章语境联系起来。这就使得发展结构更为简单的篇章模型成为了可能，从而为以前关于篇章是否可以被视为一个树的辩论提供了一个新的视角。本文还为 PDTB 转向局部篇章现象提供了支持，局部篇章对于计算注释和模型来说更加实用。

Paper #6 

标题：BLEU: a Method for Automatic Evaluation of Machine Translation 

作者：Kishore Papineni, Salim Roukos, Todd Ward and Wei-Jing Zhu

提名理由：这篇文章，无论是在研究领域还是在工业界，对机器翻译都有着长期、持久、深远的影响。其度量（BLEU）已经成为衡量翻译质量的标准方法。

Paper #7 

标题：Cheap and Fast—But is it Good?: Evaluating Non-Expert Annotations for Natural Language Tasks 

作者：Rion Snow, Brendan O' Connor, Daniel Jurafsky, Andrew Y. Ng 

提名理由：这是第一篇（据我们所知）在 NLP 中使用 MTurk 的论文，而现在这似乎已经成为一个流行的方法了。

Paper #8 

标题：Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms 

作者：Michael Collins 

提名理由：评选「时间检验」论文的一个关键要素是：这篇论文是否仍然影响着现在的研究？

Collins的这篇文章为如何在 NLP 任务中使用机器学习方法奠定了基础。本文背后的想法很简单，但也很漂亮，它将已知的且非常古老的 Perceptron 算法应用到了结构化预测的问题上。这种简单的方法取得了非常好的结果，它为一系列复杂的 NLP 预测任务能够使用相对简单的 ML 方法来取得好结果打开了大门。这项工作直接导致了一些模型开始主宰 NLP 任务，比如信息提取和解析。论文不仅有实证上的贡献，同时也包括了相应的理论分析。因此，这是过去二十年来 ACL 引用最多的论文之一。

Paper #9 

标题：Evaluating Content Selection in Summarization: The Pyramid Method 

作者：Ani Nenkova and Rebecca Passonneau 

提名理由：金字塔法（Pyramid Method）是基于共识的评估中使用最广泛的方法之一，并且在所有汇总评估（单语，跨语/多语或其他）方面都被多次使用。这是一个很好的研究和记录过程，为人类总结和评估的主观性提供了宝贵的见解，并提出了应对其挑战的方法。

Paper #10 

标题：Frustratingly Easy Domain Adaptation 

作者：Hal Daume III 

提名理由：本文已经产生了巨大的实际影响。文章思路很简单易懂且易于实现，论文已经有超过 1000 的引用量，其提出的领域适应的特征增强思想及时在 NLP 的神经网络时代也仍然很重要。

Paper #11 

标题：Minimum Error Rate Training In Statistical Machine Translation 

作者：Franz Och 

提名理由：本文提出了一个不可微 BLEU 评分直接优化的方法，这是将统计机器翻译（SMT）提升到可用质量水平的关键算法。这个算法非常的新颖且能够有效实现。许多其他的 tuning 算法也都继承了它的思想；虽然近来神经机器翻译已经摆脱了 tuning，但 MERT 仍然是最简单和最好用的。得益于 David Chiang 用 C 语言实现的高效且优美的 MERT 变得越来越广泛，可能在你最不经意的地方它就会出现在你的面前。

Paper #12 

标题：Modeling Local Coherence: An entity-based approach 

作者：Regina Barzilay and Mirella Lapata 

提名理由：这篇文章提出了一个最有影响力的数据驱动的一致性模型。这个模型受到理论（Centering）的启发，但不同于理论（从硬性约束中学习偏好），它允许从数据中学习偏好。这篇文章介绍了一个框架来表示句子流的文档和特性，这是一个非常有竞争力的模型。该模型也激发了许多后续的工作，探讨了对实体框架的补充以及文档表示。在相关的模型当中，这篇文章的工作直到今天仍然是一个对比的标准。

Paper #13 

标题：Probabilistic Text Structuring: Experiments with Sentence Ordering 

作者：Mirella Lapata

提名理由：这是第一篇介绍了一致性概率方法的论文。它引入了从大规模文档语料库中学习句子排序约束的思想，为无监督的相关模型铺平了道路。本文开辟了无监督概率模型的一致性领域，并采取数据驱动的方法进行学习。因此，这个文章在这个领域做出了很大的突破。

Paper #14

标题：Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis

作者： Theresa Wilson, Janyce Wiebe, Paul Hoffmann 

提名理由：情感分析是最早的有影响力的自然语言处理任务之一，它继续被广泛应用于行业分析客户评论、调查反应、客户服务日志、社交媒体帖子、新闻和医疗保健数据。Wison，Wiebe 和 Hoffman（2005）的论文首先提出了情境相关短语级情感分析的问题，并已成为任何人想要了解情感分析细粒度方面的参考工作。

本文介绍了一种语言动机的机器学习方法，它可以自动识别大部分情感表达的上下文极性。这项工作在研究和数据两方面都有重大的影响。

本文提供了一系列的研究成果——它发展了关于细粒度语境极性的语言现象的直觉，提供了一个语料库标注研究，开发了一个词汇资源，并提供了机器学习实验的实证研究。多年来，它影响了多个 NLP 领域的研究，如情感分析、社交媒体分析和论证研究。

这项工作也产生了一个数据集，在多角度问题回答（MPQA）语料库中在现有的注释中添加了上下文的极性判断。MPQA 现在已经是广泛应用于情感和意见挖掘（包括基于目标的分析）中的数据集之一。作者还发布了一个被作为资源广泛应用于构建主观性和意见检测系统的情感词典。研究人员在文章中讨论的观点今天仍然是相关的，因为在新闻和社交媒体中将事实与意见分开的需要比以往任何时候都更加迫切。截至 2017 年 12 月 30 日，Google 学术引用次数超过了 2500 次，仅 2017 年就有 295 次 Google 学术引用，这项工作经受了时间的考验。

Paper #15

标题：Sentence Level Discourse Parsing using Syntactic and Lexical Information

作者： Radu Soricut and Daniel Marcu

提名理由：本文在修辞结构理论（RST）框架下提出了第一个篇章分析的概率方法，对后续工作产生了本质上的影响。Soricut 和 Marcu 引入了篇章单位分割和句子级篇章分析的概率模型；他们表明，在句子层面上，句法和语篇之间存在着很强的联系，因此可以利用这种关系，从而产生有效的语法分析。他们的研究方法和发现不仅持续地促进了现代的篇章分析器，而且促进了 RST 式篇章结构与其他 NLP 任务（如摘要和情感分析）的整合。

Paper #16 

标题：TextRank: Bringing Order into Texts 

作者： Rada Mihalcea and Paul Tarau

提名理由：这是一种被普遍用作抽取和抽象摘要系统基准的方法，同时它还是摘要的图方法中一个重要的里程碑。本文着重介绍了在子域（关键字抽取，句子抽取）中使用所提出的算法，证明了通用的适用性和鲁棒性。它还在当时仍然是高度「监督」的研究环境下强调了无监督方法的价值。

Paper #17

标题：Thumbs up?: Sentiment Classification using Machine Learning Techniques 

作者：Bo Pang, Lillian Lee, Shivakumar Vaithyanathan 

提名理由：情感分析是 NLP 领域中对行业有直接现实影响的最早的任务之一，它在评价挖掘、客户管理、社交媒体分析、新闻分析、医疗保健支持和决策支持中有着广泛而实际的应用。Pang、Lee 和 Vaithyanathan（2002）的这篇文章是使 NLP 能够发挥这种影响力的开创性工作。它是情感分析领域中早期的作品之一，它定义了情感和意见分析、评价挖掘等子领域。它也是在该领域任何人开启工作所要阅读的首篇文章，无论在研究、应用还是数据方面都有着极大的影响。

文章中介绍了一种新的文档分类方法。它采用多种机器学习方法和特性组合，开发了首个文档分类的解决方案，并对情感分类提出了深刻的见解和挑战。除了任务制定和技术方法外，这篇文章在数据方面也有重大的影响，其中的电影评论数据集支持了该领域中早期的工作，现在仍然是一个基准评估数据集之一。其成功有两个关键原因：（a）强调数据能够广泛可用；（b）细致管理数据，例如避免多产的 reviewer 对数据的主导性。这些数据广泛应用于一些教学课程中，也是 NLTK（学生开始学习 NLP 的主要应用程序）的一部分。

文章中所讨论的见解和挑战为许多工作提供了基础，并且在今天仍然在推动着新的研究。根据最近的统计，这篇文章是 EMNLP 的最高引用论文。在 Google 学术搜索中有着超过 6800 次的引用，仅 2017 年就有 400 多次引用。显然，这项工作是经得住时间检验。鉴于颁奖时间的限制，本年度可能也是这篇文章的最后一次机会了。

Paper #18

标题：Trainable sentence planning for complex information presentation in spoken dialog systems 

作者：Amanda Stent, Rashmi Prasad and Marilyn Walker 

提名理由：本文介绍了 SPaRKy（修辞知识句子规划），这是自然语言生成中第一个可训练的句子规划方法，并应用修辞关系来构建篇章。

SPaRKy 使用手工制定的句子规划规则来生成候选句子规划，然后由训练后的句子规划排名器对这些句子进行排名。实验结果表明，排名最高的句子规划得分与最佳人工排名句子规划的平均得分相差在 10％以内。虽然最近基于 CNN 的端对端 NLG 论文完全避免了对手工制定规则的需要，但它们并没有考虑到修辞/篇章关系，而修辞/篇章关系一直被认为是实现 NLG 一致性的核心；而，这篇论文经历了十多年的时间仍然是一个主要的参考点。

根据 Google 学术搜索，这篇文章（与后续期刊文章（JAIR-07））一共被引用了 186 次，这也是自然语言生成中被引用次数最多的论文之一。

Paper #19 

标题：Unsupervised Discovery of Morphemes

作者：Mathias Creutz and Krista Lagus 

提名理由：Mathias Creutz 和 Krista Lagus 在 2002 年 ACL 形态学和语音学习研讨会上首次发表了《无监督发现语素》这篇论文，这是一篇在音韵学、形态学和分词领域经常被引用、极为有影响力的论文。它提出了两种无监督的算法用于将单词分割成可能长度的词素单元序列，其中一个是基于最小描述长度原则（建立在 Goldsmith（2001）前期工作的基础上），另一个基于最大似然估计。经过英语和芬兰语的测试，这两个算法被证明特别适用于芬兰语等具有黏着语形态结构的语言。这篇文章的思想构成了 Morfessor 第一版的基础，其中 Morfessor 是一种开源的形态分割器，在圈子里被广泛用来分割文本以用于语音识别、信息检索和机器翻译等应用。此外这篇文章的结果还成为后续分割方法比较的基线（例如，Poon et al. 2009 NAACL 最佳论文）。

via naacl 2018，雷锋网 AI 科技评论编译

雷峰网原创文章，未经授权禁止转载。详情见转载须知。