1
雷锋网AI科技评论按:本文作者蒋勇为上海科技大学博士生,师从屠可伟博士。本文为蒋勇接受雷锋网AI科技评论独家约稿撰写的工作介绍,未经许可不得转载。
自然语言总有丰富的内部结构信息,而这些信息一般都是通过解析树(parse tree)来进行表示。一般而言,我们把从一个句子到句法树的这一过程称为句法解析(parsing)。
句法解析有很多种形式,最为常用的是基于短语的句法解析(constituency parsing)和依存句法解析(dependency parsing)。句法解析作为自然语言处理(NLP)的基础任务之一,可以帮助很多其它的任务,包括机器翻译(machine translation),句子分类(sentence classification)和语义角色标注(semantic role labeling)等。
可是,句法解析的标注数据通常很少而且解析树需要专业的语言学家来进行标注。因此,如何通过未标注数据来学习一个句法解析器就很重要。我们组这两年在无监督依存句法解析做了一些研究,分别在自然语言处理国际顶级会议EMNLP 2016和EMNLP 2017上有四篇相关工作。
在2004年之前,无监督句法分析有一些研究工作,但是效果都不好(甚至超不过从左连到右(right-branching)和从右连向左(left-branching)这俩baseline)。
第一个取得突破性进展的是来自Stanford的NLP组。当时Dan Klein还在 Stanford跟随Chris Manning读博士,主要的研究方向就是无监督句法分析,其2004年在ACL发表的工作提出的Dependency Model with Valence (DMV)生成式模型首次超过了branching的baseline。Dan Klein天才式的直觉使得其在无监督句法解析上获得突破性进展,并在毕业后担任UC Berkeley的助理教授,领导Berkeley NLP Group。
DMV 模型提出后,有很多改进的工作。来自Johns Hopkins的Noah Smith当时正在跟Jason Eisner读博士,他对DMV的目标函数和学习方式做了一些改进,把英文句法解析的效果提高了近20个百分点。2006年他以杰出的工作在博士毕业后任职CMU的助理教授(现在在UW)。
Shay Cohen是Noah Smith在CMU指导的第一届博士生之一,他把Bayesian方法引入DMV模型的训练中,发表了一系列工作,毕业后在Michael Collins做了一段时间Post Doc然后加入University of Edinburgh任助理教授。
自Dan Klein毕业后,Stanford的Daniel Jurafsky组的Valentin I Spitkovsky继续从事这一方向的研究,提出了baby step learning,viterbi EM training等方法来训练DMV模型,因其提出的方法简单有效,后续有很多基于viterbi EM training的工作。
下图是传统句法解析的步骤,左图是原始句子,中图是词性标注后的结果,右图是解析出的句法树:
因为无监督句法解析这个任务比较困难,我们一般用标注后的词性序列(POS Tag sequence)作为训练数据,而不是原始的句子。
(一篇发表在EMNLP 2016上,一篇发表在EMNLP 2017上)
DMV是一个句子级别的生成模型,建模句子x和句法树y的联合概率分布P(x, y)。从根节点开始递归地生成句子中的词。下面是一个词性序列生成过程的例子:
这个生成过程有10个采样步骤,每一步生成一个词或者做一个是否继续生成的决策。这里采样的概率在原始的DMV模型里是用一些表来建模,我们在EMNLP 2016提出使用神经网络来计算这些概率,同时,把离散的词,方向等通过embedding来表示。如下图所示,输入是词性,valence和方向,输出是规则的概率集合,我们把模型称为Neural DMV (NDMV)。
在我们了解的范围内,这是第一次把神经网络用在无监督句法解析上。学习的过程也很简单:
学习是期望最大化(EM)算法的变种,E步使用动态规划得到每个grammar rule的使用次数,M步分为两部分:
第一部分是通过grammar rule的使用次数训练神经网络的参数;
第二部分是通过神经网络预测grammar rule的概率,以此循环直至收敛。
下图是我们在PTB上的实验效果,可以发现我们在相同设定下取得了目前最好的效果:
我们知道,大模型和大数据是深度学习成功的关键,因此我们也想在无监督句法解析上大模型和大数据的关系。我们对NDMV进行了拓展,引出词的信息,并在多种大小数据集上进行了实验,有了以下三个实验发现,发表在EMNLP 2017上:
下图是在传统DMV模型上的实验,我们发现在相同数据下随着degree of lexicalization的增加(模型变大),效果变差。但是随着训练数据的增加,效果有所提升。
当我们用神经网络来smooth这个概率分布后,明显发现在少量数据下随着degree of lexicalization的增加效果下降的不那么严重了。
当我们使用更好的模型初始化方法(’expert’ initialization)时,我们发现随着数据集的增大和degree of lexicalization的提高,效果有了明显提升。
下图是我们在WSJ10数据上的表现:可以看到,我们在WSJ10上取得目前最好的效果,在完整的WSJ数据上也表现的不错。
(发表在EMNLP 2017上)
几乎所有之前的工作都是在生成式模型(如DMV)上做的,生成式模型有优点也有相应缺点,比如不能很好地建模上下文的信息。我们在这篇文章中提出了一种新的判别式模型来做无监督句法解析:条件随机场自编码器(CRF Autoencoder)。
下图是我们提出模型的一个例子。CRF Autoencoder包括两部分:encoder和decoder。Encoder是一个基于CRF的Discriminative模型,Decoder是一个基于词的bigram生成模型。模型的输入是词序列(用x来表示),隐藏层是输入词对应的父亲词序列(用y来表示),输出是重建的词序列(用来表示)。
给定一系列未标注的数据样本,我们训练的目标函数是(带正则项的)重建概率:
注意这里我们与原始CRF-Autoencoder的区别在于,我们是寻找条件联合概率最大的y而不是穷举所有可能的y。为了鼓励学习到的句法树符合一些语言知识,我们在这个目标函数上添加了一个软限制条件,最后的目标函数如下:
这里的Q(x, y)是一个对(x, y)对进行打分的项。我们提出使用坐标下降法来优化这个目标函数:交替优化encoder的参数和decoder的参数。在优化encoder的参数时,我们跑两个epoch的随机梯度下降;在优化decoder时,我们跑两轮维特比EM算法。
我们在八个语言上进行了测试,下表是在英语上的结果:
可以发现,我们的模型比2015年提出的另外一种判别式模型效果要好,跟目前最好的效果相当。
(发表在EMNLP 2017上)
通过以上的分析我们知道,生成式模型和判别式模型在无监督句法分析上具有各自的优势。在这一篇论文里,我们提出联合训练这两个模型。联合训练的目标函数是:
这里的F和G分别代表两个模型,F是LC-DMV而G是Convex-MST。各自优化的目标函数是:
我们提出利用坐标下降来优化这个目标函数:交替优化y和两个模型的参数。在优化y的时候,对于每一个句子我们需要进行解码(decoding),这里我们利用对偶分解算法来求解。整个学习过程如下所述:
我们在30个语言上验证了我们的联合训练方法,最终效果如下所示:
实验发现,联合训练可以分别帮助两个模型得到更好的效果,有趣的是生成式模型最终效果比判别式的好。同时我们也做了一些实验的分析,发现联合训练后两个模型确实可以相互取长补短,学到对方一些好的特性。
最后想介绍一下上海科技大学屠可伟老师研究组。我们的研究组主要从事自然语言处理、机器学习、知识表示等人工智能领域的研究,近两年在EMNLP、IJCAI、AAAI、ICCV等顶级会议上发表了十余篇论文,现招收硕士研究生和博士后,欢迎对自然语言处理和机器学习有兴趣的同学联系屠可伟老师。
更多信息请访问:http://sist.shanghaitech.edu.cn/faculty/tukw/
雷峰网特约稿件,未经授权禁止转载。详情见转载须知。