微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

本文作者： skura

2019-05-02 15:08

导语：某些分数甚至超越了人类

雷锋网 AI 科技评论按，来自微软亚洲研究院（MSRA）自然语言处理（NLP）小组和微软 Redmond 语言对话研究小组的一组研究人员目前在斯坦福大学组织的对话问答（COQA）挑战中处于领先位置。在这一挑战中，衡量机器的方法是其理解文本段落和回答会话中出现的一系列相互关联的问题的能力大小。微软目前是唯一一个在其模型性能上达到人类同等水平的团队。

CoQA 是一个大型的会话问答数据集，由来自不同领域的一组文章上的会话问题组成。MSRA NLP 团队使用斯坦福问答数据集（SQuAD）在单轮问答上达到了人类同等水平，这是一个新的里程碑。与 SQuAD 相比，CoQA 中的问题更具对话性，为了确保答案看起来自然，它可以是自由格式的文本。

CoQA 中的问题非常简短，可以模仿人类的对话。此外，第一个问题之后的每个问题都是基于前面的问题的，这使得机器更难解析简短的问题。例如，假设你问一个系统，「谁是微软的创始人？」，当你继续问第二个问题「他什么时候出生的？」时，你需要理解你仍然在谈论和之前相同的话题。

微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

来自 CoQA 数据集的对话。CoQA 论文：https://arxiv.org/abs/1808.07042

为了更好地测试现有模型的泛化能力，CoQA 从收集了七个不同领域的数据：儿童故事、文学、初高中英语考试、新闻、维基百科、Reddit 和科学。前五个用于训练、开发和测试集，后两个仅用于测试集。CoQA 使用 F1 度量来评估性能。F1 度量衡量的是预测内容和真实答案答案之间的平均重叠词。域内 F1 根据训练集所在域的测试数据进行评分；域外 F1 根据不同域的测试数据进行评分。总的 F1 度量值是整个测试集的最终得分。

微软研究人员所采用的方法使用了一种特殊的策略，即利用从几个相关任务中获得的信息来改进目标机器阅读理解（MRC）任务。在多阶段、多任务、微调方法中，研究人员首先在多任务设置下从相关任务中学习 MRC 相关背景信息，然后对目标任务的模型进行微调。语言建模在这两个阶段都作为辅助任务使用，以帮助减少会话问答模型的过度拟合。实验证明了该方法的有效性，其在 CoQA 挑战中的强大性能也证明了这一点。

微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平