揭开多语言词嵌入模型的神秘面纱

本文作者：高云河

编辑：杨晓凡

2018-03-31 13:16

导语：「每一种语言都需要单独的分类器吗？」「不了吧」

揭开多语言词嵌入模型的神秘面纱

雷锋网 AI 科技评论按：如今 Facebook 有超过一半的用户使用英语以外的语言，使用了超过 100 种语言。这也给 Facebook 提出了一个巨大的挑战，针对 Facebook 这种服务规模下，使用机器学习和自然语言处理方法（NLP），为每个人提供紧密贴合他们常用语言的良好用户体验。为了更好地服务于 Facebook 社区，无论是通过提供多语言的类似 Recommendations 和 M Suggestion 这样的服务，还是训练系统来检测和删除违规内容的，都需要一种更好的方法来将自然语言处理方法（NLP）拓展到更多语言上去。

现有的特定语言的自然语言处理（NLP）技术无法应对这一挑战，因为支持每种语言相当于从头重新解决这个问题并建立起全新的应用。接下来，本文将介绍通过多语言嵌入方法帮助 Facebook 扩展到更多语言的新技术，帮助人工智能驱动的产品更快适用于新的语言，最终为用户提供更好的使用 Facebook 的体验。

跨语言NLP的挑战：

NLP 中一个常见的任务就是文本分类，它指的是给一系列文本文件分配类别的任务。在某种程度上，Facebook 几乎每个部分都要用到文本分类模型。例如，识别某人在帖子中要求的推荐，或自动删除垃圾信息等令人反感的内容。分类模型通常是通过给神经网络提供大量带有这些类别标签的数据样本进行训练。通过这一过程，分类模型可以学到如何对新数据进行分类，并用来做出预测以提高用户体验。

训练过程通常是用于特定语言的，这意味着对于每个要被分类的语言，需要分别收集大量的训练数据。收集数据是一个昂贵且耗时的过程，而且，当规模扩大到 100 多种语言时，收集也变得越来越困难。

可以采取的另一种方法是收集大量英语数据来训练一个英语分类器，然后如果有需要对其他语言进行分类，如土耳其语文本，则将土耳其语文本翻译成英语，再用英语分类器进行分类。

揭开多语言词嵌入模型的神秘面纱

但是，这个方法有一些缺点。首先，翻译过程中的错误会传递到分类过程，导致性能下降。其次，对于需分类的每一条非英语内容，必须额外调用翻译服务。这种方法显著增加了分类的延迟，因为通常翻译比分类耗时更长。

但是这些解决方案都不够好。因此希望有一些更通用的解决办法，可以在各种支持的所有语言中产生一致且准确的结果。

使用多语言词嵌入模型的文本分类

文本分类模型使用词嵌入（word embedding），或以多维向量表示的单词，作为理解语言的基本表示。词嵌入具有一些性质使得它能够很容易进一步操作，比如近义词在向量空间中距离很近。传统意义上，词嵌入是用于特定语言的，每个语言需要分开训练，而且嵌入结果存在于完全不同的向量空间中。

揭开多语言词嵌入模型的神秘面纱

一种实现多语言文本分类的方法是开发多语言词嵌入模型。通过这种技术，每个语言都映射到同一个向量空间里，并且保持这个性质：近义词（不管是哪种语言）在向量空间里距离都很近。例如，土耳其语中的 futbol 和英语中的 soccer 在向量空间中靠的很近，因为他们在不同的语言里有相同的意思。

揭开多语言词嵌入模型的神秘面纱

为了使文本分类可以跨多种语言工作，可以用具有以上性质的多语言词嵌入作为文本分类模型的基本表示。由于新语言中的单词与嵌入空间中训练好的语言中同意思的单词距离很近，所以新语言环境下，分类器也能够表现良好。因此，只需训练一个或几个语言，即可学习到一个良好的分类器，即使面对训练集中从未出现过的语言，也能得到很好的结果。

训练多语言嵌入模型

为了训练这些多语言词嵌入模型，首先使用 fastText 以及来自 Facebook 和 Wikipedia 的数据分别训练每种语言的嵌入。然后，使用字典将每个嵌入空间投影到一个公共空间（英语）中。字典是由相似的数据自动产生的，即数据集是由不同语言，但是相同含义的句子组成，通过它来训练翻译系统。

使用一个矩阵将嵌入投影到公共空间中。这个矩阵是通过最小化单词xi与其投影对应单词yi的距离选择的。也就是说，如果词典里包含一些（xi,yi），选择投影矩阵M，使得：

揭开多语言词嵌入模型的神秘面纱

其中||2表示L2范数。此外，加入约束条件：投影矩阵是正交矩阵，以保留嵌入单词向量的原始距离。

Facebook 将这些嵌入整合到文本分类框架 DeepText 中。DeepText 包含各种以词嵌入为基本表示的分类算法。为了训练多语言模型，Facebook 使用了上面提到的多语言词嵌入作为 DeepText 的基础表示，并在训练过程中「冻结」它们，即保证它们在训练过程中是没有改变的。Facebook 还有提供了针对不同语言训练集和测试集的工作流程，且可以计算在同一语言内或跨语言的性能测试。这将助力于开发跨语言模型。

对于一些分类问题，使用多语言词嵌入所训练的模型的跨语言性能，与特定单一语言的分类器十分接近。以通过特定语言数据集训练的分类器为参照，Facebook 的多语言词嵌入模型在分类训练中没有出现过的新语言时，能够达到 95% 的性能。之前的翻译再分类的方法只能达到特定语言训练的分类器的 82%。同时，该方法相较于之前的先翻译再训练的方法，能够有 20-30 倍的速度提升。

应用在 Facebook 上

Facebook将之前使用特定语言的模型转换为多语言词嵌入模型，作为通用和底层架构：

一些 AI 驱动的方法，例如 Recommendation 和 M Suggestions 能够更快的服务到新语言
快速推出更多语言的产品和功能
这种方法通常比上述提到的其他方法更精准，这意味着人们在 Facebook 上使用他们的首选语言时会有更好的体验。

Facebook 生态系统中很多方面中都使用了多语言词嵌入模型，从检测违规内容的到支持事件推荐功能的分类器。

正在进行的工作：

通过多语言词嵌入进行扩展是很有前景的，但目前还有更多的事情需要做。

多语言词嵌入模型对于英语，德语，法语和西班牙语以及联系更紧密的语言有更好的表现。随着不断扩大应用范围，Facebook 正致力于尝试适用于没有大量数据的语言的新技术。同时 Facebook 还在努力寻找各语言在文化背景下捕捉细微差别的方法，例如这种俗语「it's raining cats and dogs」（雷锋网 AI 科技评论注：直译是下猫又下狗，而实际的意思是倾盆大雨）。

展望未来，Facebook 正在与 FAIR 合作研究比词嵌入模型更好的方法，以改善多语言 NLP，并通过使用诸如句子或段落等更高级结构的嵌入来捕获更多语义含义。通过这项技术，希望与训练特定语言的模型相比，能够得到更高的性能，并提高特定文化或语言背景下的和措辞准确性。

FAIR 也在探索不使用双语词典的多语言词嵌入方法。这些方法已经展现出与目前使用的监督方法相近的性能，可以帮助在难以获得双语词典的少见语言中取得更好的结果。FAIR 已经开源了 MUSE 库中无监督和监督的多语言嵌入模型。

via Facebook，雷锋网 AI 科技评论编译

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

4人收藏

高云河

知情人士

发私信

当月热门文章