吴恩达谈百度深度学习：为什么要建中文神经网络

本文作者：思睿

2015-02-04 16:47

导语：Medium作者Caleb Garling与吴恩达的对话开始于他结束了在旧金山举办的深度学习峰会。他是斯坦福深度学习教授，也是前Google Brain的负责人和Coursera的创始人，现在他担任着百度公司首席科学家。

Medium作者Caleb Garling在吴恩达结束了旧金山的深度学习峰会后，与进行了一次访谈。在大会上吴恩达受到了一大群仰慕他的计算机科学家的访问。他是斯坦福深度学习教授，也是前Google Brain的负责人和Coursera的创始人，现在他担任着百度公司首席科学家。

深度学习已经成为了计算机领域最热门的话题之一了，这在很大程度上是由于Geoff Hinton在过去十年的努力，现在Geoff Hinton是Google的头号人物之一。他们的想法是，如果你反馈给一台电脑很多图像，比方说一只狗的图像，计算机最终将学会如何识别犬类。如果我们可以教会机器这么做，机器将很快能真正的拥有人的感观——理解语言和图像。

吴恩达和Caleb Garling谈论了他带领百度在深度学习中面临的挑战，他强调，百度只对可以影响 1 亿用户的技术有兴趣。其本人十分友好温和，是那种说起话来你不好意思打断他的人。

人们往往将我们的生物大脑与计算机神经网络混为一谈。你能解释为什么这是不准确的？

在大脑中的单个神经元是一个非常复杂的机器，即使到了今天我们仍然弄不明白。在计算机神经网络中的单个“神经元”是一个非常简单的数学函数，只捕捉了复杂的生物神经元中很小的一部分。这么说来计算机神经网络只是模仿人类大脑，但真正的人造神经网络是比不上我们生物的大脑。

深度学习算法在如今非常擅长的一件事就是学习输入，并将其映射到一个输出，X到Y。学习这一概念将是困难的。

有一件事是百度在几个月前做到，那就是输入图像，并输出文字。我们发现，你可以学习这些输入输出的映射。现在仍然有很多需要改进的地方，但它是一个很有前途的方法，可以让电脑理解这些高层次的概念。

普通话和英文，几乎从任何方面而言这都是两种完全不同的语言，所以对于理解这两种语言的机器框架来说，到底有何不同呢？

现有的科技理论还没有成熟到让吴恩达足以言简意赅地给出答案的地步。我们已经有很好的英文框架了，现在我们想尝试解决中文框架的问题。

英语有 26 个字母，然而中文大约有 5000 个字符。如果你看一篇中等长度英文的语料库，出现的总是那么 26 个字母，而中文的语料库中会有一些你只会见到一次的生僻字。所以你要如何学会认识这些中文字符？

相比较而言，罗曼斯语言（由拉丁文演变而成）更加简单。从法语转到英语也比从中文转到英语要容易得多。

所以如果有一张图片被标注上了英文标签，如何才能将这些标签转换成中文？

我认为有很多方法都值得我们去尝试，并且这些方法我们都还不曾进行过探索。我们用的其中一种方式就是多任务学习的方法。假设说你有一个可以识别被英语标签所标注的图像的人造神经网络，现在你要做的就是训练这个网络，让它可以识别中文标签，如果你能将这个神经网络训练成能同时完成中文和英文识别这两件事，很有可能这个网络会比单独识别英语和中文的网络要好得多。

这么做是有优势的，但是优势并不明显。原因是这样，机器可能会学习识别图像中的边，然后又学会了辨别图像中的角。对于两种语言来说，这种知识都是通用的。一旦你学会了识别英语中的物体，这事实上对于你学习中文中的物体也有帮助，因为你可以辨别这些边和物体。

那些只存在于一种语言之中的词又该怎么办呢？

在英语里，无论是姐姐还是妹妹都只有一个单词“sister”，但是在中文中，“姐姐”和“妹妹”是两个不同意思的词。事实上，当你想要翻译“sister”这个词的时候就会遇到问题，因为你不知道应该如何将它翻译成中文，你不知道到底说的是姐姐还是妹妹。不过我认为如果机器知道你的 sister 和屋子里其他的物体是有区别的话，那再区别是姐姐或者是妹妹并不困难。如果你不知道“sister”的概念，就要从零学习“姐妹”的概念了。

随着不断地训练，投入也会越来越高昂，除非你的神经网络规模比较小了。

什么样的神经网络才算是小型的？

这会随着时间改变。我们一般是依照神经网络之间的连接数划分。百度训练的神经网络的连接数量一般可以达到几百亿。

在语言识别上，百度会不会从一些特殊的音节或是字母组合入手，比如“th”？

过去的语音识别是这么做的——语音识别通常都有一个标准的管道，输入音频，并预计这些音节到底是什么。然后你再用另一套系统，把这些音节映射成文字。

不过近来人们一直在争论一个问题，那就是音节到底是语言的一个基本组成部分，还是语言学家空想出来的？我花了很多年试图说服人们，音节其实是人类构造的，它不是语言的一个基本事实，只是人类发明出来对语言的一种描述方式而已。许多语言学家对此表示强烈的不满，甚至公开地表示了反对。

我们在百度语音系统中并没有用到音节的概念，这和小孩学习语言的过程十分相似：我们会给计算机播放一段音频，告诉它文字的内容，然后让它自己建立映射。在说英文的人看来，人们还不知道音节的概念是什么之前，就已经会说英语了。

那么电影呢？百度是否有关注这方面吗？

深度学习在视频方面有很多的成果，但是考虑到机器对于时间这个基本维度的认识，我并不认为它们很成功。所以深度学习的研究者们会常常争论，时间这个维度对于我们的智能发展到底有多重要。

你看到了人工智能的潜在威胁了吗？

我认为关于“邪恶的机器人杀手”的担忧是被夸大了。有智力和感知能力之间是有很大的区别。我们的软件正变得越来越聪明，但是这并不意味着它即将变得具有感知能力。

via medium