科大讯飞付瑞吉：成熟应用于大规模考试的智能评阅系统，需要怎样的技术支撑？ | CCF-GAIR 2019

本文作者：王金旺

2019-07-22 21:15

专题：CCF-GAIR 2019

导语：智能评阅系统已成熟应用于大规模考试，并可辅助教师日常教学。

雷锋网按：7月12日-7月14日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7月14日，在CCF-GAIR 2019的「智慧教育专场」论坛上，科大讯飞北京研究院副院长、哈工大讯飞联合实验室副主任付瑞吉博士做了《智能评阅核心技术及应用简介》的主题演讲。

科大讯飞付瑞吉：成熟应用于大规模考试的智能评阅系统，需要怎样的技术支撑？ | CCF-GAIR 2019

以下为付瑞吉博士的演讲全文，雷锋网进行了不改变原意的编辑：

科大讯飞在教育领域的各个环节都做了很多工作，包括教学、考试、管理等各方面，在去年勇夺全球十二个人工智能技术评测的冠军，这十二个奖项包括自然语言处理、图像、语音等各方面，其中语法检错、图文识别和阅读理解等与智能评阅相关的技术都获得了冠军。

2016年，我们和教育部考试中心成立了联合实验室，共同推进语音识别、手写识别、自然语言处理、智能评测、机器翻译等技术在教育领域的应用。

讯飞教育突破点：从口语评测到智能评阅

接下来我将介绍智能评阅核心技术。

我们从口语评测讲起，讯飞从2005年开始研究口语评测。讯飞是做语音起家的，在语音识别和语音合成基础上的另一个应用点是语音评测。备试的学生说一段话，机器进行自动评测，包括声学方面的评测，文本内容的评测，最后得到一个综合分数。

之所以会做这些工作，是因为我们以往的口语考试很难组织，例如普通话水平考试、英语考试，学生在前面说，老师在一直听，一天听下来是非常累的，到最后会影响老师的评分准确度。

科大讯飞的机器现在可以做到在学习人工专家评分标准的情况下，评分的总分相关度和平均误差达到人工水平，我们在30个省市的普通话考试里应用到这项技术。

此外，我们从口语考试扩展到纸笔考试，现在K12大部分是纸笔考试，我们通过扫描试卷，进行图片的OCR识别，再进行自动评分，得到一个评分的成绩。

口语评测和智能评阅的关系是什么？

实际上二者很相似。我们做纸笔考试也是从口语评测激发的灵感。口语评测的输入是一段语音，我们会对这个语音的发音标准进行评测，同时进行语音识别，对文字内容进行评测。我们的智能评阅输入就变成了扫描或者拍照的图片，对书写质量有评价，对图文识别后的语义层面也有评价，综合获得最终的分数，这与口语评测是很相似的。

科大讯飞付瑞吉：成熟应用于大规模考试的智能评阅系统，需要怎样的技术支撑？ | CCF-GAIR 2019

智能评阅难点解读：作文评分技术框架

我们智能评阅中最难的是作文的评分，下图是科大讯飞做评阅技术的核心框架。

科大讯飞付瑞吉：成熟应用于大规模考试的智能评阅系统，需要怎样的技术支撑？ | CCF-GAIR 2019

左侧是作文试卷图片输入后进行图文转写，对内容的相似度和其他异常进行检测，这部分由于内容和标准很难处理，目前仍是交给人来评测；接下来，进行定标的筛选。

为什么需要进行定标的筛选？这是因为每次考试后评分标准可能会有一些差异，这种情况下我们会选取一小部分试卷作为定标来打样卷，请专家进行评分，以专家评分为标准来训练模型。右侧是进行评分的抽取、训练和评分模型的训练。

首先，我们进行图文转写，试卷扫描之后的情况如左侧所示（如下图）。右侧是进行行的切分、插入符号的识别，还有一些潦草涂抹块的识别。对于手写作文识别的最终准确率已经达到98%以上，达到了使用的门槛。在图文转写基础上，我们会对内容进行评分。

科大讯飞付瑞吉：成熟应用于大规模考试的智能评阅系统，需要怎样的技术支撑？ | CCF-GAIR 2019

对于内容的评分，我们会抽取多个维度的特征。

在议论文篇章结构分析方面，以语文为例，高考中通常是议论文，我们会识别作文主旨、分论点、事实论据等篇章角色。采用的方法是通过整篇文章句子间的语义关联性来分析其篇章角色。例如整篇作文全局性关联的句子，在各个段落之间都会出现，通常是贯穿全局的主旨，表示整个文章的核心思想；还有一些局部相关联的句子，可能是分论点以及对应的论据，是分论点的展开阐述；通过这些句子之间语义的相关性，我们会把整篇文章的篇章角色标注出来。例如，将引论句、主旨句、子论点、论据句都会识别出来。这些分析结果可以作为评分的特征。

科大讯飞付瑞吉：成熟应用于大规模考试的智能评阅系统，需要怎样的技术支撑？ | CCF-GAIR 2019

在表达方式方面，大家小学都学过表达方式，例如记叙、抒情、议论、描写等表达方式，我们需要自动识别出来。尤其是描写，描写体现出一个人对于语言运用的能力。我们计算过相关性，高分作文中描写的比例很高，描写的质量也很高。对于描写的识别，我们用了多标签训练标注的方法来进行识别，也作为评分的特征使用。

在修辞的识别方面，以比喻为例，在中小学，尤其是记叙文中，恰当的比喻的使用会使作文更加生动形象，作文质量在一定程度上会更高。我们识别比喻用的方法是基于多任务学习的方法，主要分为三个任务：

左侧是识别出比喻的本体和喻体，是比喻元素的抽取；

右侧上部是判断是否是比喻，进行二元分类；

右侧下部是语言模型的建模。

同时优化这三项任务，可以使比喻的识别达到更好的效果。

科大讯飞付瑞吉：成熟应用于大规模考试的智能评阅系统，需要怎样的技术支撑？ | CCF-GAIR 2019

此外，拟人、排比、引用等修辞，我们现在也都可以识别出来，这些特征可以作为评分的依据。

智能评阅系统的另一功能：防作弊

在考试中还有一个应用，作文的相似检测，也就是抄袭的检测。这在大型考试中，人工是很难进行判断的，所以我们做了这样一件事情。

我们有几百万的范文库，还有同批作文，有的学生会把阅读理解的内容抄到作文中凑字数，对于老师来说，做这种检测是不太可能的，很容易会忽略，我们用机器这套方法来识别，可以很方便、快速、准确地检测出来。

例如，在两篇作文中，中间部分写得基本一样。这是因为中间部分是背了一些网络范文或模板。也有可能是把前面的阅读理解抄在了作文中。

还有其他作文评阅技术，包括体裁分类（议论文、记叙文、散文等）、主题分类、离题检测、立意判别，这些我们都已有相应技术。

智能评阅系统应用场景：大规模考试、日常教学

刚才介绍的是核心技术的进展，我们看一下这些核心技术在我们的产品中是如何应用的。

智能评阅有两大应用场景，一方面是大规模考试，像中考、高考、会考、MHK等大型考试，一般是几万到几十万人，规模比较大。这一应用场景对智能评阅系统有两类需求：

第一，做评分质检，因为要保证评分的准确性，所以要做评分质检，校检人工的错误；

第二，替代一评，对于高利害的考试更多是做质检，对低利害的考试，鉴于对人工成本节省的考虑，可以用以替代一评。

另一应用场景是，日常教学。日常教学包括平时的作业、周测、月考、期中/期末考试和校际联考，规模比较小，比如班级作业只有几十人。这不只需要评分的准确，还需要批改、反馈，对老师来说还需要有详细的分析报告。可以看到，日常教学中的需求比在考试中的需求更加精细，技术难度也更大。

我们分别来看一下。

首先，大规模考试中的应用主要是做质检。诸如扫描切图、客观评分、专家定标、主观题人工评分，这些是人工评分过程中要做的一些事情；此外，智能评分、空白卷和异常的检测等智能复核是智能评阅做的事情。

科大讯飞付瑞吉：成熟应用于大规模考试的智能评阅系统，需要怎样的技术支撑？ | CCF-GAIR 2019

我们会在人工评分的同时进行机器的自动评分，得到评分结果后，进行评分结果的复核，发现一些人机评分大分差的情况，我们会对大分差进行专家复核，对成绩进行确认，复核以后做最终成绩发布。加入智能评阅环节后，可以使整个评分更加准确。

包括前面提到的语文作文、英语作文、数学解答题、文综简答题，其中理综的简答题比较少，其他科目已经达到比较高的比例。近年已经在全国多地大规模考试中应用。

总体来说，各地评卷专家对智能评阅技术在考试中的应用非常认可，形成了一个良好的应用示范，可以继续深化推广。

在日常教学中的应用，像我刚才强调的，应用反馈的难度会比大规模考试的评分难度更大，尽管如此，仍得到了广泛的应用。例如，英语的填空题、英文作文的反馈，在实际学校中的应用，已经有2000多所学校常态化使用，三年来增长量提高了将近10余倍，实现为近万名老师减负。

老师平时在批改作文的过程中是非常费时费力的，在科大讯飞的平台上进行的统计统计显示，老师在批改过程中可能20秒、10秒，甚至几秒直接批阅作文，直接给一个评分或者给一个“阅”，对学生的反馈是不足的。这样的方式对于学生学习兴趣的培养是不利的。我们有了智能评阅技术，可以实现自动反馈，可以辅助老师更好地给学生更加详尽的反馈，提高学生的学习兴趣，也提高反馈的效率。

雷锋网在会后对付瑞吉博士进行了采访，精彩内容节选如下：

雷锋网：科大讯飞目前在智慧教育领域有怎样的整体布局和版块划分？

付瑞吉：科大讯飞在智慧教育领域整体布局分为以下五大方向：

第一，智慧课堂，我们通过一些智能硬件（诸如平板）将后台资源，以及我们的一些核心技术连起来。例如，我们在做语音评测时，可以让学生用平板进行学习，老师以大屏作为中控平台和显示平台，学生现场读一段话，系统会自动给出评测结果，包括来自哪个地方，哪个地方读的不准，并给出提示出来。

如果只靠老师一个人来进行教学，一方面，没有这么准确，如某些地方老师的普通话水平也有限；另外一方面，老师对于学生的薄弱点的把握没有那么迅速。

此外，平台还会提供大量课程资源，我们后台有大量的课件资源，优质的课件音视频材料，这种素材相当于一个大的共享平台，方便老师进行备课，以及在课堂上及时搜索资源。例如，上历史课讲到一些历史事件时，我们可以方便地搜索一些历史事件当时的地形图，采用动画的方式展示当时的战争状态、演进过程，使得课堂教学生动活跃，资源丰富。

第二，智能评阅，通过考试，我们一方面是对于大规模考试这种服务，对于评分的公平公正的维护；另一方面我们在日常这种应用中，可以帮助更加精准地分析学生的薄弱点，例如作文中哪些方面不好，我们通过技术服务辅助老师达到精准的诊断，最终实现这种精准的教学。
第三，个性化学习，我们会对题目做一些分析技术，例如数理化这种理科的题目，我们会针对知识点、能力等方面多个维度打上标签。学生在考完试后，根据题目答对或答错的情况，我们会个性化地分析出他在知识掌握方面的薄弱点，然后再进一步为学生推荐一些针对性的强化训练，提供训练题目和学习资源，做个性化的学习。

个性化学习也是科大讯飞今年非常重视的一大战略。业界也有很多其他公司在做。这种理念的基础正是因材施教，节省学生大量时间，提高学生学习效率，有针对性地帮助学生针对薄弱点进行学习，改变重复性海量刷题这种传统、低效的学习方式。

第四，新高考业务。

主要包括面向新高考的排课与选课。新高考改革带来了一些新课程，例如，针对「3+1+2」新模式（其中，3指“语、数、外”，1指“物理或历史，2指“生物、化学、政治、历史”这四门学科中的两门，合计为高考科目），这种个性化组合，根据学生自己的能力去选择，这是新高考改革带来的一个变化，这样的变化为教学过程带来了一些困难，其中一项就是排课。

旧高考模式人工排课基本可以实现，但是这种组合一来以后，学生上的课不一样，学校排课的难度会非常大，科大讯飞针对排课也设计了一套自动排课算法，可以快速满足学生学校这种排课的需求。

另外选哪些科目作为高考科目，也是学生和家长普遍关心的问题。新高考改革后，在选课之前，学生需要对生涯有一个清晰规划。此前学生在高中阶段可能对于后面自己想干什么，或者是大学里的专业设置情况并不知道，对于自己的能力和哪个专业会匹配、应该学哪些课程也不太清楚。

我们通过测评，会做这样的一个生涯规划。通过各种测评，把学生的能力、兴趣点测评出来，然后与大学里的生涯规划匹配在一起，最终落实就可以帮助学生进行课程的选择。这使得学生在高中阶段学习过程中就会很有目标。

第五，综合测评。

综合测评主要是针对学校的综合管理的一个测评。实际上在新高考的背景下，学校可能会有些管理上的变革。科大讯飞结合高考招生制度改革的迫切需要推出新一代综合素质评价系统。实现从指标体系、评价工具、采集方案、诚信体系到结果公示的全业务流程覆盖。通过科学有效的内容监管和诚信体系完整记录学生过程性与终结性成长数据；并集成自然语言理解、图形图像识别、数据可视化等人工智能和大数据技术，辅助教育主管部门科学决策；并形成教师、家庭及时反馈与有效干预的闭环体系，指导与促进学生综合素质的全面提升与发展。

具体而言，我们需要构建与区校常态化教育教学活动结合的过程性与终结性成长数据采集方案，开展过程性评价和终结性评价，引进学生、家长、学校、第三方等多元评价主体，并能够基于国家和区域标准提供评价结果的智能试算。从而科学、公平地开展学生综合素质评价，促进学生核心素养提升。

雷锋网：智能评阅系统需要怎样的技术能力支撑，从技术能力发展来看，整体市场现状如何？

付瑞吉：首先，OCR其实是很关键的，也是一个基础，我们可以通过OCR技术识别出学生写的比较潦草的文字，目前科大讯飞在这方面已经能够达到98%以上的识别率；其次，文字识别完后，是NLP文本处理的能力。

其次，整体来看，在NLP方面，阅读理解这两年的技术进步是比较快的，国际上也有诸如SQuAD的比赛，引导研究机构去参赛，使这块的技术进展较快。这其中的技术方案是可以用到我们智能评阅系统中的，帮助机器对于整篇作文宏观语义的把握。

另外，再加上我们传统的一些对于语言的应用能力的平台，诸如我演讲中提到的各类修辞、表达方式、篇章结构的分析，智能评阅系统就是将这样的语言运用能力综合应用起来。

现在整个市场的技术进展是，在大规模考试场景中，基本上可以达到实用水平，大规模考试中实际上也已有应用。比较难的则是日常教学应用中，实现批改反馈功能的难度较大。这里科大讯飞现在采用的是人机结合——机器自动评阅的一些结果，再通过人工确认，从而提高老师的工作效率。

雷锋网：评阅系统评阅中英文作为这样的主观题需要怎样的技术能力，AI模型如何训练？

付瑞吉：通过前面提到的文本分析技术可以得出作文的一些特征，然后另外一项重要工作是“定标”。

每次大型考试以后（诸如数万人到数十万人规模的考试），我们可以拿出几百份到一千份的样卷让专家打分。专家准确评分的样卷，我们可以用来训练智能评阅系统的算法模型，即将专家的评分标准“学”到我们的模型中。

「AI投研邦」将在近期上线CCF GAIR 2019峰会完整视频与各大主题专场白皮书，包括机器人前沿专场、智能交通专场、智慧城市专场、AI芯片专场、AI金融专场、AI医疗专场、智慧教育专场等。「AI投研邦」会员们可免费观看全年峰会视频与研报内容，扫码进入会员页面了解更多，或私信助教小慕（微信：moocmm）咨询。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

专题

CCF-GAIR 2019

本专题其他文章

王金旺

主编

关注AIoT、机器人、智能硬件，新闻爆料、行业交流（注明公司、职位和名字）微信：18210039208

发私信

当月热门文章