1
本文作者: 杨晓凡 | 2017-08-18 11:37 |
雷锋网 AI 科技评论按:2017年8月13-17日,第23届国际知识发现与数据挖掘大会(KDD)在加拿大哈利法克斯召开。KDD的英文全称是Knowledge Discovery and Data Mining,即知识发现与数据挖掘,由美国计算机协会ACM下的数据挖掘分会举办,是国际数据挖掘领域的顶级会议。 KDD 2017共吸引全世界1144篇论文投递,收录216篇,包括清华、中科院、阿里在内的中国大陆学术界和工业界共被收录25篇。
在 KDD 2017全球论文投稿中,阿里集团和蚂蚁金服共有5篇论文被大会收录,本次被收录论文涵盖深度学习、大规模图计算、商品智能排序等多个研究领域,基于真实的业务场景或数据样本,文中部分方法结论已经在业务中运用。
比如「A Hybrid Framework for Text Modeling with Convolutional RNN」这篇论文就是对深度学习语义建模的研究,文中提出了一种新的文本语义编码算法conv-RNN,该模型在参考了较为常用的文本语义编码模型循环神经网络与卷积神经网络的同时,进行了进一步的文本语义编码优化,实现更为精准的文本分类和问答匹配。论文中的成果已应用于阿里智能音响“天猫精灵”。下文为这篇论文的解读,作者为论文作者王成龙、姜飞俊、杨红霞。
自然语言这一被人类发明的信号系统,通常被我们归为一种“非结构化数据”。其原因在于,自然语言文本是由一堆符号(token)顺序拼接而成的不定长序列,很难直接转变为计算机所能理解的数值型数据,因而无法直接进行进一步的计算处理。语义编码的目标即在于如何对这种符号序列进行数值化编码,以便于进一步地提取和应用其中所蕴含的丰富信息。语义编码是所有自然语言处理(Natural Language Processing,NLP)工作的“第一步“,同时也很大程度地决定了后续应用的效果。
传统的文本编码方式通常将其当作离散型数据,即将每个单词(符号)作为一个独立的离散型数值,如Bag-of-Words (BOW)、TF-IDF等。但是这类方法忽略了单词与单词之间的语义关联性,同时也难以对单词的顺序及上下文依赖信息进行有效编码。近几年,深度学习技术被广泛的应用于NLP领域,并在众多算法命题上取得了突破。其本质在于,深度神经网络在特征提取(语义编码)上具有极大的优势。
当前,较为常用的文本语义编码模型包括循环神经网络(Recurrent Neural Network,RNN)以及卷积神经网络(Convolution Neural Network,CNN)。
循环神经网络是应用最为广泛的序列数据神经网络建模方法。相对于传统的前向神经网络,循环神经网络的主要特点在于,在每个时刻,其输出不仅要依赖于当前时刻的输入,还要考虑上一时刻的模型“状态”。通过对历史状态的依赖,RNN模型能够有效的表征文本数据的上下文依存信息。但是,RNN的“宏伟目标”——有效管理任意跨度的信息传递——往往使得其难以有效的训练,进而也限制了其在具体应用中的效果。
另一被广泛应用的语义编码模型是CNN模型。传统的CNN建模通常用于解决图像的特征提取。但近年来,众多学者尝试将其应用到文本处理领域。CNN的模型结构来源于对人类视觉神经信号处理机制的模拟。与文本数据不同的是,图像数据通常被看做一个二维数据结构,而相应的CNN模型也更适于提取其中的“局部”特征。但与图像数据相似的是,文本数据中的上下文依赖通常可以被简化为一种“局部”信息,即传统NLP领域中的N-gram语言模型:文本中一个词的具体含义,通常只和上文有限距离内的几个词相关。因此,CNN中的“局部卷积“信息处理机制同样可以应用于文本数据中,用于提取文本中的N-gram特征。但是,与图像信息不同的是,文本数据中的上下文依赖关系有可能会经历一个很长的跨度。而CNN只能对固定范围内的局部依存关系进行建模。因此,CNN语义编码方法也存在一定的缺陷。
近期,我们团队与数据技术及产品部兄弟团队共同投稿一篇KDD文章,其中提出了一种新的文本语义编码算法conv-RNN(如图3所示)。该模型在参考了循环神经网络与卷积神经网络的同时,进行了进一步的文本语义编码优化。conv-RNN不仅保留了RNN模型对不定长跨度的上下文依赖的编码能力,还利用了CNN模型中常用的最大池化机制,用以更加简洁地从文本数据所蕴含的丰富信息中抽离出不同的信息表征。此外,在conv-RNN的基础上,我们还提出了一种新的智能问答(answer selection)模型以及文本分类(sentence classification)模型。为了充分验证所提出的模型的效果,我们分别选取了智能问答及文本分类领域的一批标准数据集,与当前业界的最新成果进行了对比验证。
智能问答是当前比较火的一个NLP应用领域,也被认为是NLP研究最有可能于近期实现商业化落地的一个领域。在conv-RNN语义编码算法基础之上,我们进一步提出了一种新的问答匹配模型。此外,在该模型中,我们还引入了一种“权值共享”机制以及attention方法,用以进一步提升question-answer匹配效果。
我们选用了微软发布的 WikiQA 数据集以及 IBM 发布的 InsuranceQA 数据集用来对比所提出的模型与业界现有的顶尖方法,以验证该模型的有效性。由结果可知,在WikiQA数据集上,conv-RNN击败了所有现有的顶尖方法,并且在MAP(mean average precision)和MRR(mean reciprocal rank)两个指标上均取得了较大的提升。在InsuranceQA数据集上,conv-RNN在dev和test2两个测试集上均取得了较大的提升,仅在test1上略低于AP-BILSTM。
在conv-RNN的基础上,我们进一步提出了一种新的文本分类模型(如图5所示)。为了验证该模型的有效性,我们选取了业界常用的5个标准的分类数据集:Movie Review(MR);Stanford Sentiment Treebank-1(SST-1);Stanford Sentiment Treebank-2(SST-2);Subj;IMDB。由对比结果可知,conv-RNN在前4个数据集上均超越了各类业内顶级的方法。
语义编码技术是所有NLP工作的基础,也是当前NLP技术进一步发展的主要“瓶颈”所在。我们在语义理解以及更上层的智能问答、多轮人机交互方向已经有了一定的技术积累,后续还会继续在这一方向发力,以期能够尽快做出为大众服务的人工智能产品。
论文地址:http://www.kdd.org/kdd2017/papers/view/a-hybrid-framework-for-text-modeling-with-convolutional-rnn
相关文章:
精准投放、动态定价、更多成交,阿里的新优化算法帮广大淘宝卖家解决广告投放的难题
雷峰网版权文章,未经授权禁止转载。详情见转载须知。