XLNet团队：公平对比，BERT才会知道差距！

本文作者： camel

2019-07-23 14:12

导语：来，让我们掐架~

雷锋网按：XLNet发布之后，在GLUE基准和多个NLP任务中都超越BERT。但几天前，Facebook研究人员表示BERT如果有更大的数据，就会重回排行榜第一名。之所以有人对这种超越不服，原因在于BERT在预训练中只使用了13GB的文本，而XLNet却使用了126GB。

那么如果使用相同数据集进行预训练，结果会怎样呢？XLNet团队为了回应质疑，再次以更公平的方式（相同的配置、相同的数据）将XLNet与BERT进行对比。如下——

几周前，我们发布了新模型XLNet，它在各种基准测试中优于BERT。与BERT相比，我们最大的模型相比BERT在训练中使用了大约10倍的数据。为了公平比较，我们在比较时使用了基础模型架构以及相同的训练数据。

但我们在学术界和工业界的朋友对XLNet-Large与BERT在相同训练数据下的比较产生较大的兴趣。

当然，我们自己也好奇当使用额外数据情况下会有什么收益。我们所需要做的就是将我们所拥有的所有数据都投入到我们初始版本的训练中。

我们认为使用大型模型架构和相同数据在XLNet 和BERT之间进行公平的比较研究具有重要的科学价值。

一、相同配置

在本研究中，我们确保BERT和XLNet训练中几乎所有可能的超参数都相同。这些超参数都是有BERT作者发布的。换句话说，选择这些超参的目的是为了优化BERT，而不是XLNet。具体来讲，我们仔细控制了以下的超参：

用于BERT并由BERT作者发布。换句话说，它们被选择并且可能针对BERT而不是XLNet进行了优化。具体来说，我们仔细控制以下超参数：

相同的批量大小：256
相同数量的培训步数：1M
相同的优化器：Adam，学习率1e-4，预热10K，线性衰减
相同的培训语料库：Wikipedia + BooksCorpus。我们使用相同的工具来处理维基百科，如BERT repo中所描述的。但由于某些未知原因，我们的Wikipedia语料库只有2B 的词，而BERT使用的是2.5B 的词。因此，XLNet接受了略微少的数据训练。
相同型号的架构参数：24层，1024个隐藏大小，16个heads
相同的微调超参数搜索空间

此外，我们修改了一些与数据相关的实现细节，以便与BERT进行一对一的比较。

在我们之前的实现中，未屏蔽的令牌在预训练中看不到CLS和SEP。在我们当前的实现中，未屏蔽的令牌确实看到了CLS和SEP，这与BERT一致。

在微调期间，在BERT之后，我们使用“BERT格式”[CLS，A，SEP，B，SEP]而不是[A，SEP，B，SEP，CLS]。

此外，我们考虑BERT的三种变体，并报告每个单独任务的最佳微调结果。三种变体如下：