EMNLP 2017 最佳论文揭晓，「男人也爱逛商场」获最佳长论文

本文作者：杨晓凡

2017-08-20 09:09

专题：EMNLP 2017

导语：几篇获奖论文都针对具体的问题提出了深刻的见解

雷锋网 AI 科技评论按：2017年 EMNLP 自然语言处理实证方法会议（Conference on Empirical Methods in Natural Language Processing）将于2017年9月7-11日在丹麦哥本哈根市召开。EMNLP是自然语言处理领域的顶级会议，由ACL学会下属特殊兴趣小组 SIGDAT（ACL Special Interest Group on Linguistic data and Corpus-based Approachesto NLP）组织，每年召开一次。近几年的 EMNLP 会议都吸引了来自学术界和企业界的近千人参加，论文投稿数目也有上千篇。

今年 EMNLP 共接受论文323篇，其中216篇为长论文，107篇为短论文。EMNLP 2017 也于昨日公布了最佳论文获奖论文名单，四篇论文分获两个最佳长论文奖、一个最佳短论文奖和一个最佳资源论文奖。

最佳长论文两篇

「Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints」

“用语料库级别的限制减少性别偏见的放大程度，其实男人也喜欢购物”
论文作者：Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez and Kai-Wei Chang
论文简介：在具有网络图像支持的富视觉识别问题定义上，语言的使用越来越多。结构化的预测模型也在这样的任务中得到使用，它们的好处是能够利用联合出现的标签和视觉输入之间的联系，随之而来的风险是把网络内容中的社会偏见也编码到了里面。在这篇论文中，作者们研究了与多标签物体识别和视觉语义角色标注相关的数据和模型，然后发现用于支持这些任务的数据集含有显著的性别偏见，用这样的数据集训练出的模型会进一步扩大已有的偏见。比如，在数据集中“做饭”这项活动有女性参加的比例比有男性参加的比例至少大33%，用这个数据集训练出的模型在测试中会把这种区别进一步扩大到68%，作者们提出了这样的方法：在模型中增加语料库级别的限制，以矫正现有的结构化预测模型的表现，并且设计了一个基于拉格朗日松弛法的算法用于各项推理。修改后的模型在文中的识别任务中几乎没有任何表现下降，但是在多标签分类和视觉语义角色标注任务中，把偏见的扩大程度相对减少了47.5%和40.5%。
论文地址：https://arxiv.org/abs/1707.09457

「Depression and Self-Harm Risk Assessment in Online Forums」

“在线论坛中的抑郁和自残风险评估”
论文作者：Andrew Yates, Arman Cohan and Nazli Goharian
EMNLP暂时未公布这篇论文的更多细节

最佳短论文

「Natural Language Does Not Emerge 'Naturally' in Multi-Agent Dialog」

“多智能体对话中的自然语言不是真的‘自然地’产生的”
论文简介：近期已经有一系列研究提出了在协作多智能体群体中做沟通协议学习的端到端方法，而且同时发现了这些智能体产生的沟通协议中出现了人类可以解释的实证语言，这些都是在无需人类监督的状况下学习到的。在这篇论文中，作者们以一项两个智能体间的任务描述推理游戏为测试环境，展示了从“负面”到“正面”的一系列结果，表明了虽然多数有智能体参与的语言是有效的（表现为取得了接近完美的任务回报），但是它们都自主选择成为了既不可解释、又不具有组合性的语言。究其根本，作者们发现自然语言并不是真的“自然地”产生的，尽管近期的文献中可以看到自然语言的产生很简单的表象。作者们探讨了如何如何引导这些新创作的语言，来让它们越来越像人类的语言、越来越具有组合性，方法就是对两个智能体可能的沟通方式中加入更多的限制。
论文作者：Satwik Kottur, José Moura, Stefan Lee and Dhruv Batra.
论文地址：https://arxiv.org/abs/1706.08502

最佳资源论文

「Bringing Structure into Summaries: Crowdsourcing a Benchmark Corpus of Concept Maps」

“给文档总结加上结构：众包得到的概念图语料库 benchmark”
论文简介：概念图可以用来简明地表达重要信息以及给大型文档集合建立结构。所以，作者们研究了一系列概念图形式的多文档总结方式。然而，目前没有合适的数据集可以用在这项任务中。为了补上这个缺口，作者们介绍了一组新创造的概念图语料库，它对关于教育话题的各种各样的网络文档做了总结。在它的创立过程中使用了一种新的众包方法，让作者们能够高效地判定大规模文档集合中的重要元素。与这个语料库同时发布的还有一个基准系统和作者们提出的评估流程，以便未来的研究者更好地进行这一系列总结方式的研究。
论文作者：Tobias Falke and Iryna Gurevych.
论文地址：https://arxiv.org/abs/1704.04452

EMNLP 2017会议期间，雷锋网 AI 科技评论也会派出记者带来全方位报道，敬请期待。同时欢迎阅读近期的更多学术会议报道。

雷锋网 AI 科技评论编译。

首发！三角兽被 EMNLP 录取论文精华导读：基于对抗学习的生成式对话模型浅说

雷峰网版权文章，未经授权禁止转载。详情见转载须知。