「中国法研杯」司法人工智能挑战赛，打造专属的AI律师

本文作者：奕欣

2018-05-08 11:45

导语：打造专属的 AI 律师，你准备好了吗？

在数字信息化的今天，人工智能的发展日益成熟，而随着司法大数据的采集和积累，AI（Artificial Intelligence）技术有望在短时间内处理大量文书、快速给出新案件的罪名、刑期及适用法条的推荐等任务中大显身手。AI 技术不仅能提高法院等机构的办事效率，还能让公民根据案情快速了解可能面临的处罚，真正做到国家司法的公正性和高效能性。

为了实现法院审判体系和审判能力智能化，使得人工智能技术在「案例分析、法律文件阅读与分析」等问题中更有力的发挥其作用，我们将公布世界上最大的裁判文书标准数据集，并希望通过组织本次比赛活动，与相关研究人员一起探索数据的可能性，积累具有智能审判能力的算法和模型，做出技术突破，为该领域的科学研究添砖加瓦。

或许你是一位胸怀抱负的科研人员，却因繁缛又不具挑战性的项目困在实验室，无法全力施展自己的能力；或许你是一位 AI 领域的大牛，却暂时没能找到最适合自己的课题；或许你是一位刚刚入门的新手，正苦于不知如何提升自己；也或许你怀抱着一颗爱国之心，想为祖国的法律事业携去一缕清风。

为此，我们在最高人民法院、中国中文信息学会、共青团中央青年发展部的共同指导下组织本次司法人工智能挑战赛，我们将公布百万量级的文本文件，诚邀对司法人工智能感兴趣的个人或团队开展相关研究，取得丰硕成果。

指导单位

最高人民法院信息中心

中国中文信息学会

共青团中央青年发展部

主办单位

中国司法大数据研究院

中国中文信息学会评测工委会

中国电科团委

承办单位

清华大学自然语言处理与社会人文计算实验室

北京大学计算机科学技术研究所

中国科学院软件研究所中文信息处理研究室

指导委员会

许建峰最高人民法院信息中心主任

王珩中国司法大数据研究院总经理

孙茂松清华大学教授

孙乐中国科学院软件研究所研究员

评测委员会

刘知远清华大学

冯岩松北京大学

韩先培中国科学院软件研究所

胡振中国司法大数据研究院

比赛设置

比赛采取业界常用的本地训练、在线评测的赛制，具体说明如下：

第一阶段：参赛队伍利用公开的数据训练模型，每周允许提交 3 次，平台将测试模型性能，并根据测试成绩排名；

第二阶段：第一阶段结束时，所有参赛者提交最终比赛模型（或以最后提交的模型为准）。同时，主办方将收集中国裁判文书网在随后一个月内每天新增的裁判文书数据作为新的测试集，对各参赛者的模型进行封闭评测，得到最终成绩。

竞赛详情

竞赛任务：

本次竞赛的任务共有 3 个，分别是罪名预测，法律条款推荐，刑期预测。参赛选手可以选择其中的一个或者多个任务进行挑战。

罪名预测：提供文书中的案情描述和事实部分，预测被告人的罪名。
法律条款推荐：提供文书中的案情描述，预测本案涉及的相关法条。
刑期预测：对于刑事案件，根据案情描述和事实认定，预测被告人的刑期长短。

数据简介：

本次挑战赛所使用的数据集是来自「中国裁判文书网」公开的刑事法律文书，其中每份数据由法律文书中的案情描述和事实部分组成，同时也包括每个案件所涉及的法条、被告人被判的罪名和刑期长短等要素。

数据集共包括 268 万份刑法法律文书，共涉及 183 条罪名，202 条法条，刑期长短包括 0-25 年、无期、死刑。

我们将先后发布 CAIL2018-Small 和 CAIL2018-Large 两组数据集。CAIL2018-Small 包括 19.6 万份文书样例，直接在该网站发布，包括 15 万训练集，1.6 万验证集和 3 万测试集。这部分数据可以自由下载，供参赛者前期训练和测试。比赛开始 2-3 周后（具体时间请关注比赛新闻），我们将通过邮寄 U 盘（或网络下载）向有资格的参赛队伍定向发布 CAIL2018-Large 数据集，包括 150 万份文书样例。最后，剩余 90 万份文书将作为第一阶段的测试数据 CAIL2018-Large-test。