科大讯飞胡郁：再过四到五年时间，机器语音识别就能达到人类水准

本文作者：林藠头

2016-06-28 13:59

导语：语音识别的错误率正在以每年30%的水平下降，我相信再过四到五年的时间，我们最后的语音识别系统就能跟人整个的感觉完全一样了。

按：这是科大讯飞轮值总裁胡郁在2016网易科技未来峰会上发表的题为《“人工智能”以语音和语言为入口的认知革命》的演讲。雷锋网整理，有删改。

刚才（华大基因董事长）汪建老师说，将来的世界是一个生命科技的时代，我非常同意这一点。将来人类的命运掌握在我们自己手里，我们可以改造自己。

人类也想扮演上帝的角色。人类能够在地球上统治整个世界，是因为我们有智能，现在不仅仅自己有智能，还希望能够创造出新的智能。在当前世界，各种各样的智能层出不穷，甚至有段时间“智能”一词都被用滥了，到底智能应该向什么方向发展，智能到底应该给我们带来什么？今天我们带着这个疑问想跟大家探讨一下。

今年3月份时有个非常著名的AlphaGo大战李世石，在此之前很多人都给出了预测，包括我自己在内，我当时的预测是机器人一定能够战胜人类。为什么呢？其实在研究界有句很有名的话，机器人在智能方面战胜人类一定用它最擅长的方式，而不是用人类思维的方式。我们原来在讨论时总想着下围棋是一个非常高尚的运动，并不是每个人都能把围棋下得很好，但其实机器根本不是这么想的，在下完这个比赛时，凤凰卫视《一虎一席谈》请我和古力九段和柯洁九段去讨论AlphaGo和李世石对打的情况，柯洁九段在“一虎一席谈”上就比较谦虚了（按：比赛之前他曾经放话“就算阿法狗战胜了李世石，但它赢不了我”），他说这个东西还是要好好准备。

AlphaGo为什么能够战胜人类，因为它用的确实不是人类所擅长的方法，而是机器所擅长的方法，AlphaGo能够同时计算每部棋下几十步甚至上百步的可能性，而且AlphaGo能够记住三千万种法的对弈，而这是我们人类所不擅长的。但是人工智能是不是能够在所有方面超越人类呢？我觉得这也不一定，因为我们看到围棋是一个完全信息透明情况下的公开博弈，就像以前的国际象棋，机器是占有很大优势的。

很多人会问，人工智能到底体现在什么方面呢？我们知道人类有农业革命、工业革命，还有现在讲的信息革命，但可能很多人不知道的是，人类在统治地球的过程中其实经过了漫长的历史发展。有一本书《人类简史》，这本书里写到：人类在地球上已经出现两百万到三百万年了，但这些人类在全球各地，就是我们讲的猿人、欧洲的原始人，中国的山顶洞人、元谋人和蓝因人；但经过历史学家和基因工作者的研究发现，七万年前，智人从非洲走出来把其他猿人都给灭种了，现在不管是黑人白人还是棕色人种、黄种人，都是智人的后代。

在这个过程中，好像智人突然开窍了一样，人的智能在经过两三百万年的发展中突然迈上一大步，是什么让他们走到这一点？历史学家把他们叫做“认知的革命”，因为他们发现这些人跟其他猿人最大的不同是在他们的语言得到了极大的丰富，先有对话，然后产生文字，产生文字后有几个好处：

第一个好处，它可以更好地描述周围的自然世界，比如河边有只狮子，他们知道狮子长多大，身上有没有病，处于什么样的状态。更重要的是因为有了语言、有了语音，我们可以描述团队和团队之间的关系，如果没有语言，现在动物群种里面的黑猩猩，一个团队最大不能超过50头，超过50头就无法管理；但智人因为有了语言，因他们可以组织上千人的团队。
第二个好处，有了语言以后我们可以描述我们共同想像的内容，一些虚构的概念，“公司”、“梦想”都是从此得来。所以我们可以看到，现在历史学家一个非常重要的观点就是人类的认知革命将人类的智能带到一个新的高度。

机器擅长的运算智能，但如果讲到感知智能，机器其实比我们差得很远。这也是科大讯飞现在正在践行的以语音和语言为入口的计算机的认知革命。我们所执行的讯飞超脑计划想要做的事情，就是让机器通过传感器和算法感知世界，并且能够对自然的人类世界进行认知，作为我们人工智能一个非常重要的突破点。

怎样实现这种突破，其实我们有两种不同的途径，一种和我们的脑科学非常有关，我们可以对大脑所有的神经元构造和它的工作机理进行分析，甚至可以根据大脑的整个工作机理重构出来真正和大脑相同的机制，这是一条思路，但这条思路时间比较长；另外一条思路就是用互联网的思维，利用我们机器学习算法和大数据，不完全模仿大脑，但利用机器运算的方法能够模拟我们的感知和认知。

我们研究鸟类飞行造出了飞机，但我们并没有造一个鸟出来，是因为我们是知道了鸟在飞行中的空气动力学；我们研究大脑，其实并不是把大脑完成复制，而是希望找到大脑中的智力动力学，进一步优化我们整个学习的算法。

从另一个角度，如果用互联网思维来解决、改进我们的人工智能，要感谢三个方面的进展：一是人工神经网络，这个人工神经网络就像我刚刚说的，只是学到了大脑一些简单的机理，没有大脑那么复杂，但已经可以很好地工作了；另外拜互联网和移动互联网所赐，我们可以得到大量大数据；更重要的是我们有千千万万的算法，有直达用户的产品，这些产品把用户的使用习惯源源不断传入后台，我们可以利用网络的效应不断地优化它。正是因为有这三者的支撑，我们得到了非常好的结果。

真正人工智能的框架应该是什么样的呢？再给大家举个例子，人类大脑皮层在工作过程中分为两个层面：一个叫感知层面，就是我们讲的视觉、听觉和触觉，还有一个层面是认知层面，当我们看到一只猫，听到猫的叫声，或者是摸猫的皮毛，人脑里有一个概念，这些概念形成了我们语言中的单词和词汇，就是“猫”这个概念，它们汇聚到我们讲的语言和理解的大脑的认知皮层层面。所以在讯飞超脑里分两个层面：感知智能是对我们听到的、看到的、触觉到的东西进行识别，同时把识别结果上升到我们认知智能的层面，形成一个概念空间的表示和推理，在过去五年中我们相继把深度学习网络应用在刚才我们讲的感知和认知，包括视觉、包括听觉，包括自然语言，包括翻译的各个方面。

（工作人员播放了三个语音片段）

这是一段语音片断，大家听到第一个好像是“休息”，第二个好像是“休息室”，但当听完完整片断时你会知道（按：类似于大脑自动“校正畸变”），原来这句话说的是“《西游记》之大闹天宫”。人脑是怎么工作的呢？人脑能够记下短时或中间的或长时的记忆，通过一种递归的方法识别语音，现在最新型的递归神经网络能够模拟我们在大脑方面的感觉，这个过程非常复杂，我就不一一介绍了。

但光有递归还不够，光能够存储记忆还不够，现在最新的一个方式是用我们讲的图像的方法识别语音，当语音进入我们的耳朵时，我们耳朵里的纤毛会根据它的长度不同与语音中不同的频率进行共振，如果把共振的频率分析出来，我们可以得到一张语谱图，这个图形里的信息很丰富，在MIT专门有科学家可以根据这些图形就能够跟你说这句话里用的是什么样的文字。我们的识别系统如果能够读这些图，整个性能的稳定性就会有很大提高。

如果你是一个盲人，你的耳朵就会特别灵，因为它借用了我们在视神经方面的一些神经系统和细胞，这样可以把它的一些能力借用过来。我们应用一个新型的卷积神经网络，它原来是专门用来做图像的，来处理我们的语音图像，我们得到了一些非常令人惊讶的结果：即使是跟最新的递归神经网络相比，用卷积神经网络——也就是用识别图像的方法，我们仍然能取得一个48%的提高。

可以说，现在我们的语音不仅可以听到，而且可以看到。因为这样的结果，我们大家会越来越多地看到，在我们各种各样的输入法里，在我们的语音搜索里，还有在我们各种各样的语音交互式系统里，语音识别的错误率正在以每年30%的水平下降，我相信再过四到五年的时间，我们最后的语音识别系统就能跟人整个的感觉完全一样了。

在感知方面，我们语音识别技术不断取得提升，但是在认知方面，它有几个非常核心的任务要完成，讯飞超脑关于语言理解及深层、知识表述及推理，还有自主学习，要实现这些技术必须要有两个层面的东西：第一是要解决自然语言描述的问题，在此基础上我们要解决语言理解及深层，还有我们讲的知识表述及推理各个方面。

刚才我们提到了大脑在大脑皮层中关于概念的表示，它是一张图，不同的词语它们之间概念是有空间的，我给大家举个例子，比如“大家好”，传统的表达，每个词就代表了一个空间，我们把每个词的出现看成“1”，不出现的地方看成“0”，这是传统表现词语的一种方法，词语和词语之间，要不就是距离相同，要不就是不同。现在我们采用一种连续的空间来表现词语，每个字、每个词都可以用“词语卷积”的方法，用一段连续的数字，相当于一个空间里的坐标系，这样每两个单词之间的距离就可以把它计算出来。

科大讯飞胡郁：再过四到五年时间，机器语音识别就能达到人类水准

我们把所有词聚了一下类就可以看到这么一个结果，比如我们可以看到新浪、网易、腾讯，这些东西是连在一起的；我们可以看到吕布、张飞、关羽、诸葛亮，他们是比较接近的。如果通过医学的方法来测量，我们也会发现相关词语在大脑皮层中存储的位置也是非常接近的。

利用这种方法，我们就建立了一种表现词语的空间概念的表达体系，在这样的表达体系之下，我们可以进一步地去分析词语层面、句子层面和篇章层面，他们在各个层面上的连接和计算的距离。有了这个以后，我们来看一些实际的作用，他们能做什么样的事情呢？

首先我们看一下语言的理解及深层。首先来看翻译，在翻译方面，我们知道他们要进行语句的练习，因为不同语言是不一样的，这时候用到人脑中一个非常重要的概念，关注度模型，比如我们人在看一幅图像，海边有一个灯塔，我们看的时候注意力是集中在灯塔上而不是其它方面。

科大讯飞胡郁：再过四到五年时间，机器语音识别就能达到人类水准

这张图比较有意思，上面这张图是一个男司机在开车时观察各种各样的东西，下面这张图是一个女司机，她的思路就比较狭窄。

如果我们来看一段文字，这两天正好欧洲杯，我们的注意力其实也是集中在那些文字中比较有信息量的地方，这种关注度模型，其实它的方法是能够把我们最关注的那些输入量自动寻找出来，与我们最终的结果进行对应。

我们来看一下基于机器翻译的实际例子：大家都知道，不同的语言之间，他们的机器翻译，比如有很多谓语、主语、宾语，它们的位置是不同的，会进行倒装，顺序也会发生很多变化，原来用规则的方法来描述这些变化非常复杂，通过我们现在讲的这个神经网络，大家可以看到下面，输入“我是谁”，“谁”和“我”，它们的位置是有差异的，但利用attention这个神经网络，它们可以自动找到对应关系。采用全新的神经网络的翻译系统，相比传统系统，提高会非常多。

再看下一个具体的例子，我们都知道最近科大讯飞在教育方面做了非常多的工作，我们希望能够利用机器人帮助我们的老师进行卷面批改，比如我们写了一个作文，这篇作文，我们希望机器人也能给它打出分数并给出它的评语。大家看这个样例，右边94分是这篇文章的得分，右边有评语，而且从这篇文章中可以看到它用到了排比，用到了一些语句的引用，我们如何来做，让机器也能看懂这些东西？机器的关注度如何自动落在这些关键的地方呢？其实很简单，右边是一个范文，刚才我们讲了，用连续空间把它表示出来，这些范文和作文之间的向量，利用我们的关注度模型，会自动找到之间比较对接的地方，应该讲，现在我们这方面的结果在中考和高考的作文评卷，不管是中文还是英文，都取得了很好的效果，比普通老师改得还要准确，当然这是大规模的结果。

最后我们来看一个阅读理解题。我们看一段话，“月牙的影子在水中晃动小鸭子看见了，以为是条鱼，赶紧游过去”，现在题目是我把“小鸭子”抠掉，让机器看完这段话以后自动在上面填出来这地方应该填什么，利用我们现在的系统，我们会把篇章和问题进行attention的规划，“小鸭子”也在其它地方也出现过，它可以计算出每个地方热力度（关注度）的情况，后来我们发现“小鸭子”的关注度最高，这样我们就可以把“小鸭子”填在这个地方，而且是填对的。

现在它在阅读理解方面能达到6岁儿童的水平，大家不要小看6岁儿童，6岁儿童在常识的理解达到了一个水平，而在6岁以后主要是学各种各样的知识，这就跟我们认知到的，2岁、3岁、4岁形成个人最重要的学习能力，这方面是最一致的。相信随着6岁儿童常识的学习能力达到以后，我们再给他灌输小学、初中、高中的知识以后，它最后就能考上大学。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

林藠头

编辑

你先说有什么事，我好决定在不在。

发私信

当月热门文章