MOE:抗拼写错误的词向量

本文作者： AI研习社-译站

2020-08-14 11:11

导语：传统的词嵌入无法处理未登录词(OOV)，Facebook通过引入错字遗忘(词)嵌入(MOE)克服了这一缺陷。

字幕组双语原文：抗拼写错误的词向量

英语原文：New Model for Word Embeddings which are Resilient to Misspellings (MOE)

翻译：雷锋字幕组（wiige）

传统的词嵌入擅长处理大部分自然语言处理(NLP)领域的下游问题，比如文档分类和命名实体识别(NER)。然而它的一个缺点是无法处理未登录词(OOV)。

Facebook通过引入错字遗忘(词)嵌入(MOE)克服了这一缺陷。MOE通过扩展fastText架构来处理未登录词。因此介绍MOE之前，先介绍一下fastText的训练方法和架构。

负采样Skip-gram(SGNS)

fastText扩展了word2vec的架构，使用负采样skip-gram来训练词嵌入。Skip-gram使用当前词来预测周围的词，得到文本表示(即嵌入 )。负采样是一种挑出假例(false case)来训练模型的方法。你可以查看这些文章(skip-gram和负采样)了解更详细的内容。

下图显示了两种训练word2vec词向量的方法。连续词袋(BOW)利用上下文来预测当前词，而Skip-gram则利用当前词来预测上下文。

MOE:抗拼写错误的词向量

矢量空间中词表征的效用估计(Tomas et al.，2013)

fastText

fastText几乎全盘沿用了SGNS的思想。fastText特征之一是子字(subword), 一般用N-gram方法将单词分割成子字。例如，n-gram字符数是3到5之间。这样就可以将banana拆分为ban、ana、nan、bana、anan、nana、banan、anana。这样，香蕉(banana)的词嵌入就是这些子词的嵌入之和。

fastText的训练目标是对标签进行分类。模型输入是n-gram特征(即x1，x2, ......, xN)。这些特征将在隐藏层中被平均化最后送入输出层。

MOE:抗拼写错误的词向量