DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

本文作者：木子

2017-12-01 21:40

导语：2017百度世界大会上，普罗米修斯计划正式起航。

美国西部时间11月9日，百度DuerOS普罗米修斯计划在美国硅谷召开启动发布会。一周后，2017百度世界大会上，普罗米修斯计划正式起航。据介绍，普罗米修斯计划作为百度DuerOS今年最重要的战略规划之一，包含开放超大规模对话式AI数据集、跨学科合作、学科共建等多种计划，以及一个百万美元基金用以鼓励和培养对话式AI领域的优秀项目和人才。

在硅谷启动会上，亚马逊机器学习高级主管Björn Hoffmeister博士、约翰•霍普金斯大学人类语言技术中心主任Sanjeev Khudanpur博士、Facebook 前研发科学家 Antonie Raux分别从语音唤醒、语音识别、多轮交互三方面发表了主题讲话，介绍了学术领域的发展概况、研究方法等，并对普罗米修斯计划给予了高度评价，认为它将助推全球对话式AI行业的科研发展及人才培养。除此之外，卡耐基梅隆大学研究教授Alexander Rudnicky、麻省理工学院（MIT）高级研究科学家Jim Glass等一众国外专家学者纷纷加入项目顾问团队，组成了超豪华专家指导委员会。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

DuerOS普罗米修斯计划的全球专家指导委员会

普罗米修斯计划启动发布会上，Khudanpur博士、Antoine Raux博士围绕唤醒、数据等方面对对话式AI进行了深度分析。

百度主任架构师陈果果曾指出人才、数据、基础设施、计算能力是AI领域最重要的四元素。进入大数据时代，机器学习的模型、尤其是神经网络的模型，都需要大量数据来进行训练。但是大规模的数据集一直是业界稀缺资源。而此次普罗米修斯计划发布的数据集将是目前数据量最大的中文语音、对话相关的数据集，多个任务数据集均为业界独家发布。该计划将从“产、学、研”三方面全面推动对话式AI的发展。

以下是约翰•霍普金斯大学人类语言技术中心主任Sanjeev Khudanpur博士、Facebook 前研发科学家 Antonie Raux对于对话式AI数据集进行的深度解读。

如何通过Kaldi开启对话式人工智能系统的革命

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

Khudanpur博士是约翰霍普金斯大学电子与计算机工程学院教授，他认为目前各科技公司都在布局智能音箱这一对话式AI的新战场，百度当然不会错过这个机会。同时，DuerOS并没有将目光局限于此，而是要通过AI赋能更多的场景，达到唤醒万物。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

Khudanpur博士指出，语音作为对话式AI系统的入口，语音识别系统的性能就显得尤其重要。一套完整的语音识别系统通常由三个部分组成：语言模型，声学模型，解码器。语言模型用于刻画特定语言在其语法规则约束下形成的词与词之间的搭配关系，声学模型则用于刻画音素的发音特性，二者通过词典关联起来，解码器将三者构建出搜索空间以解码出最优路径，即为识别结果。

在过去，工业界各家公司有自己独有的一套系统和算法，学术界则专注于研究理想条件下的识别性能提升。于是，对于初创公司和小型实验室而言，搭建一个在实际场景中高可用度的语音识别系统显得步履维艰。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

Kaldi诞生于2009年约翰斯•霍普金斯大学一个workshop，它采用了Apache 2.0 许可，支持修改和再发布。Kaldi这个命名源自传说中第一个发现咖啡的人，以此为名旨在提供一个像咖啡一样灵活方便、流行的语音识别工具包，方便开发人员使用。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

Kaldi项目在过去的6、7年中已经有大约150多名不同的贡献人，在主干版本外还有8个分支，2000多个关注者，还有很多人使用该项目所做的工具,以及一个很活跃的邮件列表。下载量已经超过两万多次，论文<The Kaldi Speech Recognition Toolkit>被引用次数高达一千七百多次。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

Kaldi是C++编写的一系列资料库，命令行工具，以及一些搭建特定语音识别系统的脚本，这些程序告诉大家在特定的情况下要怎么做，比如你有很多来自遥远地区的语音材料，或是各种语言混杂的语音材料。Kaldi在学术界和工业界也被广泛采用：MIT，CMU，微软、谷歌等都有在用Kaldi做研究工作。Kaldi主干版本是由Dan Povey博士维护。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

随着语音识别技术的不断进步，Kaldi工具也在高效地保持更新：从高斯模型到应用神经网络，提供资源匮乏条件下的语音识别解决方案，支持GPU训练，从近场识别扩展到远场识别，支持训练数据来自多风格和多设备源，效率和性能更高的Chain Model，训练过程加入对抗学习。此外也有越来越多的研究人员和开发者在Kaldi的基础上进行新技术的探索和改进。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

针对大数据量情况下训练速度优化问题，Kaldi采用的是多GPU数据并行策略。一方面，使用自然梯度(NG-SGD)取代常规梯度以加速当前训练目标函数下降速率；另一方面，GPU共享模型参数同时计算相应batch数据，而后统计梯度并更新共享参数。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

对于一个语音识别系统来说，发音人的口音，语速不同；发音人所处场景千变万化，通常伴随着各式各样的噪声；音频采集的硬件设备和编码格式的不统一。这三个因素使语音识别系统在实际使用时面临着巨大挑战。研发出一套对各种不确定性依然有效的识别系统，就成了语音识别技术的终极目标。此亦为美国国家情报高级研究计划局所举办的ASpIRE竞赛所追求的目标。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

在2015 IARPA举办的ASpIRE比赛上，Kaldi取得了第一名的成绩。在此次竞赛中，Kaldi使用的黑科技主要有：

1. 使用了下采样的TDNN网络，更高效且可能使用更多的上下文信息。

2. 数据预处理，结合真实远场环境的冲击响应和噪音情况对训练数据做变换以模拟各种远场场景。

3. 使用i-vector特征，在TRAP特征外加入对说话人和环境提取的i-vector特征。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

Chain Model的灵感来源于CTC训练方法，我们重新设计了状态和HMM转移的拓扑结构(hmm状态数从3或5降为1，实际还有一个用于自旋可重复0次或多次的空白状态)，降低了帧率(从100Hz降为33Hz), 固定了hmm转移概率。另外传统的SDT(序列区分性训练方法)需要先使用交叉熵目标函数训练一个初始模型，然后在此模型上生成lattice，lattice中包含了正确路径和概率上较高的其他路径，以此计算互信息和梯度进行反向传播。Kaldi中的Chain Model是一种Lattice Free的训练方法，它在网络输出层计算了所有可能标注序列的后验概率并以此直接计算MMI和梯度。实验结果表明，相比传统的TDNN模型，Chain Model(LF-MMI)+TDNN模型在解码速度和准确率上都有明显提升。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

Chain Model(LF-MMI) 相比传统TDNN+sMBR(最小化状态错误率)在解码时字错误率降低了6%-11%，训练速度提升5-10倍，解码速度提升3倍。另外，实验表明对Chain Model(LF-MMI)训练后产出的模型基础上再进行一次序列区分性训练（sMBR）带来的提供不大。

数据：对话式AI与数据的关系

Antoine Raux博士是Facebook前研发科学家，对话式AI创业公司CTO及联合创始人。他认为，当前在对话式AI发展过程中，数据相当匮乏，充足有效的数据能够极大程度地帮助解决对话式AI发展过程中的一些挑战。所以说数据是至关重要的，有如下两个问题是我们需要思考的： 1）有哪些能够使用的数据 2）在对话数据收集当中，什么样的设计是合理的。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

例如上图是一个典型的对话式AI系统，数据经过这些子系统，最终给用户反馈输出：首先，用户的语音通过自动语音识别（Automatic Speech Recognition，ASR）识别为文本数据，经过自然语言理解（Natural Language Understanding，NLU）模块处理成为NLU结果（intent+slots 的结果，即 PPT 中的 intent frame）。再在对话状态跟踪（Dialogue State Tracking，DST）模块，该模块根据多轮的NLU识别结果以及整个对话过程中的历史数据更新当前对话状态(dialogue state)，然后经过 Policy 模块输出intent frame。intent frame被自然语言生成（Natural Language Generation，NLG）模块转化为文本，最终通过语音合成（Text To Speech，TTS）模块转换成语音播报给用户。这里面有很多数据，其中从audio、到text、到intent frame、再到dialogue state，所需的数据量是逐渐减少的，但是每个任务的特殊性是逐渐增加的。左手边你有大量的数据，这些数据不是针对特定任务的，到了中间的时候，数据减少了，并且对任务更有针对性。下面的报告内容会分为如下三个部分，首先会讲数据收集方面的问题，其次会讲数据标注的问题，最后举例一些Antonie参与过的实例，也代表了领域近期的一些工作。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

首先，来说下数据收集的相关问题。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

你要决定需要使用什么类型的数据，是不是静态语料库，就是你建立一个语料库然后进行使用和分发，还是说要适用现场互动，即让别人使用你想要测试的系统，需要真实的人和系统进行交互。首先，对于静态语料来说，具有如下4个优点：

• 可以构建大型的语料

• 可以共享

• 方便对比数据分析

• 通过重复使用，降低成本

但是受限于数据收集的策略，静态语料有一定的局限性，你不能探索数据之外的对话方式。再来谈谈在线交互的优点：

• 可以测试不同的Policy，探索新的Policy，以及通过反馈做A/B test（这一点静态语料是无法做到的）

• 数据分布更加接近真实用户

但是在线交互数据收集起来相当昂贵，会花费大量的时间和金钱，并且很难获取大量数据。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

收集的对话数据可以分为2种类型：

• 一种是人和人的交互

• 一种是人和机器的交互

首先说下人与人交互特点：

• 交互更加自然、没有限制

• 不需要构建一个系统

• 某些场景，已有现成数据，例如客服系统，会有电话录音

• 可以模拟系统，即一个人扮演系统，一个人扮演用户

但是人人对话的问题是难以应用的，因为这些对话是开放式的，而且非常自然，比起有一定控制范围的数据更难使用。这类数据也会跟你要做的应用相去甚远。

再谈谈人机交互的特点：

• 接近实际应用

• 收集起来成本低

但是需要构建一个系统，系统能力的好坏也影响到数据的收集质量。由于系统能力的有限，很难探索新的特性。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

如果你要用户的对话录音，不管是用于语料库还是在线交互，有两种用户可以选择：一个是实际用户：更加解决实际应用，能够产生好的未预料到的输入数据；缺点：收集起来相当昂贵，会花费大量的时间和金钱。

另一个是模拟用户：能够生产大量的数据，能够不断地测试不同的策略，以便选取最优的响应给用户，收集起来成本低，不会花费大量的时间和金钱；缺点：和实际用户的行为有偏差，有些情况可能会偏差很大，同时开发一个好的模拟用户也很难。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

【注释：参考文章 LEARNING END-TO-END GOAL-ORIENTED DIALOG Antoine Bordes, Y-Lan Boureau & Jason Weston】

这是Facebook在2017年发表的论文，其中对语料库的方式进行了评估：

文章中的数据集分为3类：一类是从模板中生成的语料；一类是受雇人员和系统对话生成的语料；最后一类是人和人对话的语料。从实验结果可以看出，在生成的对话数据中效果很好，效果也有60%到100%，但是在人机对话的数据中，效果下降一半，到了41.1%，而在人和人对话的语料中，效果进一步打折，才到16.7%。所以在生成对话方面的成果并不能保证实用案例的成功。该实验效果也印证了之前的分析结论：1）静态语料受限于数据收集的策略，有一定的局限性，你看不到不在数据中的效果；和实际用户数据会有偏差； 2）人和人数据难以在实际应用中使用，因为太开放，太自然，难以对数据进行控制；数据与最终应用的差异比较大。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

接下来，我们再来看看实际用户和受雇人员的区别

实际用户：

• 接近实际应用

• 拥有大量潜在的用户

难点

• 需要生产并维护有竞争力的产品

• 具有潜在的隐私考虑

• 没有有效的反馈信号，无法知道一个互动是否成功

受雇人员：

• 适合在产品初期使用（即产品发布使用之前）

• 能够允许试探未成熟有风险的策略（无需伤害用户体验，因为不是实际用户）

• 没有隐私考虑(所以百度才会想要通过众筹的方式来生成数据，而不是使用消费者的信息，因为这些信息是不能分发的。)

缺点

• 和实际用户行为有差异

• 用户量受限制，需要采用众包

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

说到真实和招募用户的差别，我想说一说2010年CMU的这篇论文，他们组织了一个比赛，让其他大学与他们学校现有的系统互换，每天有真实用户打电话来询问巴士时刻表信息，他们让其他大学的系统与自己的系统互换，完成同样的任务，但是系统是完全不一样的，他们利用真实用户来完成比赛。这就让我们有机会比较实验室的招募用户数据与后来的真实用户数据。

【注：参考文章 Spoken Dialog Challenge 2010: Comparison of Live and Control Test Results 】

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

左上角是语音识别测试，在实验中有三个不同的系统，系统1就是CMU的基准系统，系统3是学界顶尖研究人员建立的系统，系统4是业界的一个参赛团队做的，可以看到三个系统从实验室招募用户数据（control 组）转到真实用户数据（live 组）后错词率(WER)上升。系统3的表现明显下降，对话成功率从90%降到65%，而系统4没有显著下降。系统4更针对商业应用，所以更谨慎，而不追求花哨，而系统3运用了先进的强化学习等技术，这些技术在清晰的语料环境下运作良好，但在真实用户数据下明显质量下滑。另外一个相关的问题，大家可以看下方的图表，左边是control 组，右边是 live 组。在control 组，最上方的系统3，即使ASR准确率很低，它的表现也没有太大的下降，也就是说他们能够利用对话技术来补偿较差的ESR表现。但是在live 组，所有系统对抗 ASR 准确率的能力都差不多，随着 ASR 准确率的下降，同步有明显下降。在数据分布不同的情况下（即实验室招募用户数据（control 组）转到真实用户数据（live 组）的差异），系统对于 ASR 准确率的容错能力也消失了。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

另外有一篇2007年的文章，也通过实验数据说明了受雇人员和实际用户的行为差异。在左边这个图中，显示了对话长度、每轮长度等，可以看出受雇人员通常会采用更复杂更长的表达。他们的系统中还有一个是／否按键或回答功能，在回答某些问题是用户只需按是或否，或者回答是或否即可，但在实验室状态下，几乎没有用户使用是／否功能，他们更倾向于不停地说话，但真实用户只要一有机会就马上切换到是／否模式。“需要帮助”功能的差别更明显，实验室用户几乎从来不要帮助，而真实用户则非常频繁地寻求帮助。所以说受雇人员和实际用户的行为还是有不少差异的，对于数据收集来说，实际用户的数据是必不可少的部分。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

接下来的内容是关于数据标注的问题

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

数据标注方面的问题就是，在你得到了数据之后，要如何处理呢。一个做法是放出原始数据，包括音频或转写后的文本，或者两者一起放出，这就是对话最容易被吸收的一面，你不需要坚持某一个分类系统或者某一个会话或语言学派，只要放出数据，大家都会同意音频中的词语是什么。但是直接从文本做端到端学习很困难，需要非常大量的数据。【注：Non e2e approaches rely on own annotation（这个没有听明白）】

另一方面，你可以提供统一的标注，但是需要解决很多的语言评估问题、形式标准化等问题，让大家在不同的数据集中使用相同的标注，这就需要使用具体的理论。选择什么样的标注体系（包括有哪些intent 和 slots等），比一般预期花的时间精力都要多。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

标注对话状态是很困难的事情，首先必须定义清楚对话状态有哪些构成，其次对于人工标注来说，很难有统一的标准去标注。在DSTC 中，在标注对话状态时出了问题，在标注NLU时很不清晰，因为各个系统使用的分类方法不同，某个特定的间隙值也没有统一标准，所以不得不通过众筹，询问工作人员某个特定的NLU假设是否正确。最终没有做到每一轮的参考标签标注，而是确定哪个NLU假设是正确的，然后用这个结果再估计对话状态。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

接下来，讨论下目前的一些对话数据计划

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

首先是，第一界对话状态跟踪挑战，收集了之前的对话数据集，包括匹兹堡公交乘客的电话记录，一共A,B,C三种不同的对话系统用户数据收集。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

数据集中包括系统和用户的对话，以及 slot 和 dialog state 的标注。其中 NLU 的输出是一个slots 的 nbest列表， dialog state则是 slots 上的概率分布估计。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

最后提一下现有的几个倡议，大家可能也已经听说过一些了。CMU现在有一个项目，是对于刚刚说到的竞赛的延续，他们的方式是向学界的一些对话系统提供一个统一的界面，你可以去他们的网站跟他们的系统聊天，这个系统结合了学界的很多系统。如果你是实验室，可以把你的系统加进去，并获取用户与系统聊天的数据。还有一个亚马逊组织的竞赛，是针对建立聊天系统的，可以跟你进行25分钟的闲聊，会有很多团队相互竞争，普通的Alexa用户可以去尝试一下，这是用真实用户的开放式竞赛。现在正在进行决赛，希望能够看到亚马逊竞赛的结果。另一个项目是来自Facebook的，是针对对话分享很多数据集，报告说到的第一篇论文就是通过这个项目分发的数据集，你还可以让别人使用你的系统，来看一看系统质量如何。这些项目的有趣之处是，很多项目越来越关注现场互动，其中的几个项目让真实用户与系统互动，而不是使用语料库，还有一些项目侧重于数据存取和分发的标准化，还有一些使用模拟任务。

DuerOS普罗米修斯计划：30页国际专家PPT全面剖析对话式AI数据集

最后Antoine Raux博士对报告进行了总结：对话系统是个十分复杂的任务，需要各种各样的数据集。研究者和参与人员在设计语料收集时，需要注意做好权衡。最近的趋势是开展在线交互的方式收集数据，而不仅仅是固定的语料。

正如百度度秘事业部总经理景鲲所说，AI操作系统需要不断学习和进化，数据越多就越智能。百度DuerOS普罗米修斯计划发布的三个大型数据集不仅可以有效激发、鼓励优秀的对话式AI人才及项目，更将推动该领域的产-学-研联动发展，推动智能语音的落地与应用。AI的进步由每一组数据堆叠而成，AI的未来也孕育在这些数据及其背后的不断学习之中。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

5人收藏

木子

编辑

扫描关注作者微信

发私信

当月热门文章