加速AI 2.0，ARC推理挑战赛等你来战！

本文作者：杨文

2018-03-20 23:37

导语：AI2 Reasoning Challenge

雷锋网AI研习社按：目前市面上有很多智能语音问答产品，其中绝大多数给人的感觉就像是个玩具，甚至有些「弱智」。为了解决 AI 在高级问答上的难题，近日，国外研究团队 Peter Clark 等人发表了一篇论文题目为：Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge（觉得你已经解决了问答难题？来尝试 AI2 推理挑战赛吧（ARC）！这篇 paper 中提出的数据集也是小学自然科学领域目前最大的公开数据集。（文末有下载地址）

ARC 数据集包含 7,787 个小学级别，多项选择的科学问题，旨在鼓励高级问题回答的研究。数据集被分成挑战集和简易集，前者只包含基于检索算法和单词共现算法出现的回答不正确的问题。问题分为以下几个部分：

挑战训练集：1,119
挑战开发集：299
挑战测试集：1,172
简易训练集：2,251
简易开发集：570
简易测试集：2,376

论文中提出了一个新的问题集、文本语料库和 baseline，这些共同构成了 AI2 推理挑战赛（ARC），以鼓励人工智能研究在高级问题回答中的应用。它需要比之前的挑战（如 SQUAD 或 SNLI）拥有更强大的知识和推理能力。ARC 问题集分成挑战集和简易集，挑战集只包含基于检索算法和单词共现算法出现的回答不正确的问题。该数据集仅包含问题（用于人类测试），也是该领域目前最大的公开数据集（共 7,787 个问题）。我们在挑战集上测试了几条基线，其中包括在 SQUAD 和 SNLI 任务中领先的神经网络模型，但发现没有一个能够显著优于随机基线，这也反映了该项任务的难度。我们还发布了 ARC 语料库，这是一个与任务相关的大小为 14M 的科学语句语料库，并且实现了三种基线神经网络模型的测试。你的模型能否在上面更好地运行？

以下是 ARC 问题集在测试分区上的分数（单位：％正确率）。

评分注释：如果模型能推测出给定问题的正确答案k线图，得分为1 / k分。

加速AI 2.0，ARC推理挑战赛等你来战！