GPT-2的探究：对虚假新闻生成的恐惧，源于技术还是人？

本文作者：栗峰

2019-09-09 10:23

导语：也许，与其抗拒生成文本技术，不如去训练人类辩证思维！

雷锋网AI科技评论编者按：今年年初，OpenAI发布了一个非常强大的语言模型，可以模拟生成类似人类创作出的文本。通常在公告发布之后就会面向公众发布模型，但这这次的公告不同以往，它表示这样一个强大的工具可能会构成危险，因此只发布了一个较小、功能较单一的模型。

很快，除了学术的热议之外，这则新闻还被传到了大众媒体上，在那里，人们用相当简单和夸张的方式描述它。在普通民众中引起了恐慌；其他NLP人士中也提出了批评意见；甚至连他们内部也提出了质疑。六个月后，OpenAI终于决定发布完整的模型。

那么这个模型是如何训练的？它们是如何使用的？它们真的那么好吗？真的具有危险吗？

本文将对以上问题做具体分析。

一、我们讨论什么？

最近大多数人在谈论语言模型(language models，LMs)的原因并不是说他们都在进行文本生成研究，而是因为经过预先训练的LMs(比如OpenAI GPT-2或Google的BERT)可以用于在各种NLP应用程序中生成文本表征，大大提高了它们的性能。这种效果类似于2013年预先训练过的单词嵌入对NLP产生的影响。我推荐阅读SebastianRuder的文章《NLP的ImageNet时刻已经到来》，对此有很好的总结。雷锋网接下来将带你领略文本生成。

在文本生成中有两种完全不同的应用：

1、开放式文本生成：其目的是可以生成任何文本。它可以是一个特定的主题，也可以续写上一段，该模型被赋予了生成任何文本的最好效果。

2、限制性文本生成：这个模型预期将生成一个特定的文本。更正式地说，就是给定一些输入，模型应该严格依据输入文本来生成。最好的例子是翻译：例如给出一个法语句子，模型必须用英语生成一个与法语句子的意思相同的句子。其他例子包括摘要(给定长文档，生成包含文档中重要细节的简短文本)、图像描述(给定图像，生成描述它的文本)、语音到文本(转换)、以及将文本转换为代码或SQL查询。

这篇文章的重点是开放式文本生成。

二、语言模型

我之前曾经讨论过机器翻译的语言模型。简单来说，语言模型是在文本中给定一个单词来预测后续出现单词的概率分布。分布在词汇表上的所有单词在总量上通常非常庞大(可能是几十万或更多)。

例如，“I'mtired, I want to”这个句子中的下一个单词会是什么？一个好的语言模型会把高分分配给p(sleep|I'mtired, I want to)。像“bed”这样的词出现的概率应该很低，虽然它是一个相关的术语，但它并不构成语法句子；再者是“party”，虽然语法上正确但与逻辑相矛盾。整个句子的概率是每个单词条件概率的乘积，使用链式法则，给定前面的单词：

其中<s>和</s>分别标记句子的开头和结尾。请注意，我在这篇文章中使用了基于单词的LM进行演示，但是，可以将基本标记定义为token或“Word部件”/“子词单元”。