GLUE 榜单破 90 大关！百度预训练模型ERNIE荣登榜首

本文作者： camel

2019-12-11 14:40

导语：超 T5，战 MT-DNN-SMART

雷锋网 AI科技评论了解到，北京时间12月10日，预训练模型界的“MVP”百度ERNIE，在自然语言处理领域权威数据集GLUE中荣登榜首，并以9个任务平均得分首次突破90大关刷新该榜单历史，超越微软MT-DNN-SMART、谷歌T5、ALBERT等一众国际顶级预训练模型的表现。
GLUE 榜单破 90 大关！百度预训练模型ERNIE荣登榜首

一、GLUE榜单

通用语言理解评估基准GLUE是自然语言处理领域最权威的排行榜之一，是由纽约大学、华盛顿大学、谷歌DeepMind等机构联合推出，以其涵盖大量不同类型的NLP任务，包括自然语言推断、语义相似度、问答匹配、情感分析等9大任务，成为衡量自然语言处理研究进展的行业标准。

因此，吸引了谷歌、Facebook、微软等国际顶尖公司以及斯坦福大学、卡耐基·梅隆大学等顶尖大学参加。GLUE排行榜的效果，在一定程度上成为了衡量各机构自然语言处理预训练技术水平最重要的指标之一。

2018年底以来，以BERT为代表的预训练模型大幅提升了自然语言处理任务的基准效果，取得了显著技术突破，基于大规模数据的预训练技术在自然语言处理领域变得至关重要。

众AI公司纷纷发力预训练领域，相继发布了XLNet、RoBERTa、ALBERT、T5等预训练模型。在此过程中，百度也先后发布了ERNIE 1.0、ERNIE 2.0，在16个中英数据集上曾取得过当时的SOTA。

从GLUE排行榜上来看，BERT使用预训练加微调的方式，相对过往的基线成绩大幅提升各子任务的效果，首次突破了80大关。XLNet、RoBERTa、T5、MT-DNN-SMART等模型平均分数分布在88-89分范围，作为对比，人类水平是87.1。

此次，百度ERNIE登顶，成为首个突破90大关的模型。此外，通过榜单，我们可以看到，ERNIE在CoLA、SST-2、QQP、WNLI等数据集上也达到了SOTA水平。相对BERT的80.5的成绩，ERNIE提升近10个点，效果还是相当显著的。

二、刷榜模型

据雷锋网了解，此次登顶的模型主要基于ERNIE 2.0持续学习语义理解框架下的系列优化。

据百度介绍，ERNIE 2.0 持续学习的语义理解框架,能够支持增量引入不同角度的自定义预训练任务，通过多任务学习对模型进行训练更新，每当引入新任务时，该框架可在学习该任务的同时，不遗忘之前学到过的信息。

以下是百度ERNIE 2.0的原理示意图：

GLUE 榜单破 90 大关！百度预训练模型ERNIE荣登榜首

百度ERNIE 2.0原理示意图

百度研发团队通过ERNIE持续学习框架进一步优化了通用词汇级知识学习和面向任务类型的预训练，最终在通用语义表示能力上取得了显著提升。

词汇级信息预训练上，百度研发团队提出了基于互信息的动态边界掩码算法 (Dynamic Boundary Masking)，改进了ERNIE 1.0中基于短语和实体等Knowledge Masking的掩码算法，这类算法需依赖短语和实体标注工具，从而导致Mask单元多样性差、语义片段覆盖度低等问题。

动态边界掩码算法，首先通过假设检验从海量数据中筛选高置信度词对，并计算词对间的互信息。以词对的互信息及其统计量为基础，计算样本中词与词之间的紧密度。掩码时以该紧密度作为概率分布进行动态的边界采样。这种动态边界掩码的方式既兼顾了ERNIE 1.0对知识单元进行建模的能力，又提升了片段的多样性。

下图展示了不同掩码算法的差异：

GLUE 榜单破 90 大关！百度预训练模型ERNIE荣登榜首

Dynamic Boundary Masking Algorithm示意图

其中B(Begin)代表了一个片段的起始，I(Inside)代表当前位置应与上文最近出现的B位置组成片段。以图中句子为例，动态边界掩码算法以词对间的紧密度进行边界采样，动态的构造出了待掩码的片段候选。

为了更好提升应用任务效果，模型在通用预训练的基础上，还新增了面向指定任务类型的预训练任务。该模型首次将无监督指代消解作为预训练任务，

GLUE 榜单破 90 大关！百度预训练模型ERNIE荣登榜首

指代消解预训练任务示意图

指代消解的目标是识别篇章中的代词指向哪个名词短语的问题。模型基于无监督语料构造了指代消解任务，将句子中重复出现的某个名词短语随机替为句子中的其他名词短语，让模型去预测替换后的句子是否和原句相同。该任务会显著提升模型的指代关系预测能力。

此外，模型在训练数据和结构上也做了调整。在预训练的数据使用上，模型针对论坛对话数据进一步精细化建模。对话数据相对篇章文本数据具有很强的结构性，相同回复对应的 Query 往往语义比较相似。模型充分利用了对话间语义关系，帮助ERNIE更好地建模语义相关性，在QQP等文本匹配任务上效果提升明显；在模型结构上，相对开源ERNIE 2.0 Large模型使用了更大的参数。

综合来看，ERNIE新模型沿着持续学习语义理解框架，进一步优化了现有的学习任务，并新增了面向任务类型的预训练，最后通过对训练数据、模型参数结构的精细调整，取得了显著的效果提升，在GLUE榜单成功突破90大关！

据了解，百度ERNIE 2.0的论文（https://arxiv.org/abs/1907.12412）已被国际人工智能顶级学术会议AAAI-2020收录，AAAI-2020将于2020年2月7日-12日在美国纽约举行, 我们可以期待百度技术团队届时的进一步展示。

这里需要多说一句，相较于谷歌BERT，百度的ERNIE做到了后来居上。如果持续关注，会发现百度在自然语言处理领域有非常深厚的积累，其研究成果也已经辐射至不同领域。从百度近期的一系列产品发布中也可得以一窥，ERNIE预训练技术在百度诸多产品和技术场景的广泛应用，例如百度搜索、小度音箱、信息流推荐等。

我们期待百度在AI 技术发展上，能够更进一步。

雷锋网报道。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。