您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能开发者 正文
发私信给杨文
发送

0

加速AI 2.0,ARC推理挑战赛等你来战!

本文作者: 杨文 2018-03-20 23:37
导语:AI2 Reasoning Challenge

雷锋网AI研习社按:目前市面上有很多智能语音问答产品,其中绝大多数给人的感觉就像是个玩具,甚至有些「弱智」。为了解决 AI 在高级问答上的难题,近日,国外研究团队 Peter Clark 等人发表了一篇论文题目为:Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge(觉得你已经解决了问答难题?来尝试 AI2 推理挑战赛吧(ARC)!这篇 paper 中提出的数据集也是小学自然科学领域目前最大的公开数据集。(文末有下载地址)

ARC 数据集包含 7,787 个小学级别,多项选择的科学问题,旨在鼓励高级问题回答的研究。数据集被分成挑战集和简易集,前者只包含基于检索算法和单词共现算法出现的回答不正确的问题。问题分为以下几个部分:

  • 挑战训练集:1,119

  • 挑战开发集:299

  • 挑战测试集:1,172

  • 简易训练集:2,251

  • 简易开发集:570

  • 简易测试集:2,376

论文中提出了一个新的问题集、文本语料库和 baseline,这些共同构成了 AI2 推理挑战赛(ARC),以鼓励人工智能研究在高级问题回答中的应用。它需要比之前的挑战(如 SQUAD 或 SNLI)拥有更强大的知识和推理能力。ARC 问题集分成挑战集和简易集,挑战集只包含基于检索算法和单词共现算法出现的回答不正确的问题。该数据集仅包含问题(用于人类测试),也是该领域目前最大的公开数据集(共 7,787 个问题)。我们在挑战集上测试了几条基线,其中包括在 SQUAD 和 SNLI 任务中领先的神经网络模型,但发现没有一个能够显著优于随机基线,这也反映了该项任务的难度。我们还发布了 ARC 语料库,这是一个与任务相关的大小为 14M 的科学语句语料库,并且实现了三种基线神经网络模型的测试。你的模型能否在上面更好地运行?

以下是 ARC 问题集在测试分区上的分数(单位:%正确率)。

评分注释:如果模型能推测出给定问题的正确答案k线图,得分为1 / k分。

加速AI 2.0,ARC推理挑战赛等你来战!

雷锋网提示,更多比赛内容点击:http://data.allenai.org/arc/

数据集下载地址:https://s3-us-west-2.amazonaws.com/ai2-website/data/ARC-V1-Feb2018.zip

论文地址:https://arxiv.org/pdf/1803.05457.pdf

via AI2 Home

雷锋网编译

雷峰网原创文章,未经授权禁止转载。详情见转载须知

加速AI 2.0,ARC推理挑战赛等你来战!

分享:
相关文章

编辑&记者

AI科技评论员,微信:yeohandwin
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说