开源|谷歌发布最新“天马”模型，自动生成文本摘要已超越人类！

本文作者：贝爽

2020-06-16 22:57

导语：仅1000个样本数据，即可达到SOTA性能

我们知道，Transfromer在处理长序列文本方面比CNN/RNN表现更为出色，因此，最强大的预训练模型，如BERT、GPT均采用的是Transfromer基础架构。而且事实证明，在处理诸如机器翻译、文本摘要、语音识别、问答系统等多种语言任务时，只需进行微调，即可达到SOTA性能。

但是，Transfromer的自监督目标（self-supervised）更偏通用性，与下游语言任务联系性不强，也就是说它不知道下游执行的是机器翻译，还是文本摘要。如果自监督目标能够与下游任务建立紧密联系，那么，微调性能会更好。

基于这样的目的，Google AI团队研发出了PEGASU（天马）模型。

开源|谷歌发布最新“天马”模型，自动生成文本摘要已超越人类！

基于Transfromer编/译码器的天马架构

结果出人意料，研究发现“天马”模型不仅表现出了卓越的性能，而且在小样本数据下，能够达到同样的效果，极大地优化了训练效率，降低了数据成本。

目前，这项研究的论文《PEGASUS：Pre-training with Extracted Gap-sentence for Abstractive Summarization》已经发表在预印论文库arXiv上，而且被ICML国际机器学习大会收录。

从“间隙句子”到文本摘要，小样本性能更佳

研究人员假设，预训练目标越接近下游任务，微调的性能越好。为此，他们设定下游语言任务为“提取文本摘要”，而预训练目标为“生成间隙句子”（Gap Sentences Generation）。研究人员在输入文档中删除一些完整句子，天马模型的任务就是恢复他们。如果输出结果中能够呈现被删掉的句子，即表示与下游任务建立了联系，即生成了GSG。如下图所示：

开源|谷歌发布最新“天马”模型，自动生成文本摘要已超越人类！

这个过程就像我们做填空题一样。研究人员表示，这项看似人类都无法完成的任务真的实现了。而且他们发现越是删除一些“重要”的句子，试验的效果越好。

基于此，他们在12个下游摘要数据集上对模型进行了微调，结果显示预训练后的输出示例与微调摘要非常相似，而且这一结果经过了ROUGE标准测试。ROUGE通过N元语法重叠来计算两个文本的相似度。

另外，这些数据集十分丰富，包含文章，科学论文，专利，短篇小说，电子邮件，法律文件和使用说明，等，这说明天马模型在选择文本主题上方面并没有局限性。

更令人惊奇的是，研究人员发现天马模型在小样本数据集中同样表现出了卓越的性能。以下是研究人员选定4个数据集后，ROUGE得分与监督样本数量的关系。（虚线表示具有全监督但没有预训练的Transformer编解码器性能。）

开源|谷歌发布最新“天马”模型，自动生成文本摘要已超越人类！

可以看出，仅1000个微调示例，天马模型已经有了非常好的性能表现，而且高于未经训练的示例（虚线）。这一结果，表明天马模型在优化性能的同时，可以极大的降低数据使用的成本，同时提高了训练效率。

超越人类的性能表现

为了确保实验结果的准确性，除了ROUGE标准的衡量外，研究人员还采取了人工评估的方法。即将实验后的摘要与人类撰写的摘要进行对比。这类似于图灵测试。

研究人员采用了3个不同的数据集，评分者在进行优劣判断时，并不知道哪一个是人类的，最终结果显示评分者并不总是喜欢人类编写的摘要。

开源|谷歌发布最新“天马”模型，自动生成文本摘要已超越人类！

而且，从XSum、CNN /Daily Mail和Reddit TIFU这三个数据集中可以看出，仅训练1000个示例同样达到了超越人类的水平，再次印证天马模型在小样本下的性能优势。

开源|谷歌发布最新“天马”模型，自动生成文本摘要已超越人类！

不过，虽然经天马模型预训练后的性能表现能够与人类相媲美，它还是会存在失误。比如研究人员就以下文本进行了预训练。XSum数据集中的这篇示例全文没有提到数字“4”，但是在文本提取中，天马能够抽象出文本摘要“No proposals have been submitted to preserve four Royal Navy frigates for reuse, the BBC has learned.”，而且从2-5都是如此。

开源|谷歌发布最新“天马”模型，自动生成文本摘要已超越人类！