AIR 019 | 华为诺亚方舟实验室主任李航：我们在人工智能领域的愿景与实践

本文作者：恒亮

2016-08-12 18:24

导语：华为的人工智能实验室都在做什么？

作为华为诺亚方舟实验室的主任，北京大学、南京大学的兼职教授，我们能够很轻易地发现，在李航身上兼具着一种学者的探索精神和华为公司特有的研发气质。在今天下午进行的GAIR大会“人工智能的商业场景”这一议程中，李航以“智能化信息助手”这一愿景为切入口，为大家分享了世界500强之一，中国科技界的领军企业，华为公司在人工智能和深度学习领域的发展和思考。

首先，李航阐明了诺亚方舟实验室的概况。他说，实验室成立4年多以来，主要关注人工智能、机器学习、数据挖掘等前沿科技领域的研究。同时，也面对华为三大BG事业群聚焦一些前沿产品的开发，例如智能通讯网络，企业BG的大数据应用，消费者BG的智能语音助手等。

其次，他重点表示，华为诺亚方舟实验室的愿景之一，就是打造一个全智能化的智能移动手机终端，用户将通过自然语言的方式从终端获取一切想要的信息和协助。

然后他以该愿景为目标，介绍了目前在诺亚方舟实验室研发的两款终端类软件产品，以及三个智能信息化检索技术。

两款产品

第一款产品是华为手机上的App市场。他表示，面对3亿用户，每天3千万次检索，1亿次下载总量的大数据挑战，诺亚方舟实验室一直在联合华为终端公司共同努力，智能化地为客户提供检索结果和推荐App。

第二款产品是华为“手机服务”。该产品是华为手机上的一个App，用户可以用自然语言的方式向它求助在手机使用过程中遇到的各种问题，在每天10万次当量的问题求助中，有超过90%的用户都可以得到满意的回答。

其次是三个利用深度学习算法实现的智能化检索技术。

三个技术

第一个是用自然语言检索分类照片。该方式不使用人工或机器学习的形式预先为每个照片设置一个标签，然后通过标签来处理照片。而是采用深度学习模型的方式处理照片，利用照片承载的内容产生自然分类。

第二个是神经机器翻译。

第三个是神经响应机，即一个自动生成式系统，李航表示这是业界第一台公开发表的能够自动生成回复的智能应答机，而不是通过大数据搜索配对实现的。

据李航介绍，后面两款检索技术都是基于序列到序列的学习模型而实现，将待翻译语句和神经响应机中的提问视为序列1，将目标翻译结果和神经响应机中的问题回复视为序列2。所谓的序列到序列是指，在两个序列之间存在一种中间变量态，该中间变量通过加权和attention（关注机制）来进行最优目标匹配，同时能有效防止重复和遗漏现象，最终完成了业界最优的深度模型之一。其中第三款神经响应机可以输出76%的正常对话，和高达95%的正确语句，需要强调的一点：这些都是自动生成的。

最后李航再度总结说，诺亚方实验室在进行人工智能研究和未来技术探索的同时，主要还将关注终端产品的智能化研发。

以下是演讲实录：

大家好！下面我就介绍一下华为，特别是诺亚方舟实验室在人工智能方面做的研究和技术开发。重点放在智能手机这块的应用。

我先介绍一下我们在智能手机上面的愿景，介绍一下我们相关的产品和我们的研究，最后介绍一下我们的技术。

诺亚方舟实验室成立4年，杨强教授是我们实验室第一人主任，我们研究的方向主要是人工智能、机器学习，数据挖掘，更进一步来说我们现在围绕华为三个BG的产品做研究开发，大概来说我们有4个方向：

第一个是智能通讯网络，大家知道通讯设备是华为非常重要的产品，未来的通讯设备一定是基于数据挖掘的，所以我们在这方面做了很多的技术开发。另一方面是大数据，还有我们聚焦在华为的智能手机上，主要是在语义语音，推荐搜索这方面的技术，帮助我们的用户能够更好的使用手机。简单说一下我们未来的愿景。我们用智能信息数据来概括我们的愿景。未来的华为的智能手机首先通过语言能够很自然的跟用户做交流，能够去帮助用户克服语言障碍，能够帮助做翻译，能够理解用户做需求，给用户做推荐，能够帮助用户管理信息，同时能够很好的帮助用户得到外界的信息。

下面介绍两个我们围绕华为手机做的产品，我们诺亚方舟实验室跟终端的部门有密切的合作，我们在一起开发几个重要的产品，比如说华为的应用市场，大家用华为手机的用户知道到华为的应用市场我们有应用的推荐和搜索，这个推荐和搜索的算法是我们华为诺亚方舟实验室和终端的产品线的同事们一起开发的，这里面的挑战就是一个大数据的挑战，这里面有3亿的注册用户，每天有3000万的用户访问我们这个市场，下载的用户每天有1亿，这里面怎么能够帮助用户很好很快的找到他们的应用，这个是比较挑战性的问题，大家知道搜索和推荐都是在大数据的环境下都是极具挑战性的，怎么样能够时时的更新模型，能够更好的满足用户的需求，现在用业界最新近的技术做推荐和搜索。

另外，我们做的大家有华为手机的话可以有看手机服务这个部分，我们有智能问答，回答怎么样更好的使用华为的手机，用自然语言的方式来问答，比如说怎么给手机做备份，我们可以找到答案，有的是我们的技术手册里面找到的答案，准确率能够达到90%，能够给用户提供更好的帮助，大家不用去网上去搜华为的使用了。

下面我做几个演示，我们诺亚方舟实验室一方面在跟产品部门一起开发产品，另外一方面未来在做一些技术的研发，特别是深度学习这方面我们做了一些工作，我现在演示三个演示：第一个是图片搜索，假设你是一个手机用户，你在手机上可以用语音或者是拼音的方式输入你的问题，比如说在飞机上看到云彩的照片，现在这个场景是由2万张图片，可以用自然语言的方式搜这些图片，这些图片没有做任何的图象处理，比如说吃火锅的照片，或者是爬山的照片可以通过自然语言自动的找到这些照片，现在手机上有成千上万的照片，怎么样做好照片的管理，这个是非常有用的应用，我们现在在做这方面的技术开发。

下一个是在做机器翻译，特别是用深度学习，大家叫做神经技术翻译，这块也开发了业界领先的技术，因为时间的关系我就不放了。

这个演示是神经响应机，这个是基于深度学习做单轮的自然语言的对话，这个是我们在业界第一个开发出来的，生成式自对话系统，这个系统可以自动的去产生回答，并不是像传统的问答系统，我们有大量的数据，有44万的数据去建立这样一个系统，这个系统比谷歌其他的公司开发的产品，我们早发表，并且在ACL的顶级的会议上发表了这个论文。我介绍一下里面的内容，比如说你输入一句话，我们到诺亚方舟实验室来访问的话，我们可以给你看看时时的，前天我们华为的总裁来诺亚方舟实验室参观我们就给他展示这个，比如我想买一部三星的手机，这个系统会说还是支持一下国产的吧，比如说你说占中终于结束了，系统会说下一个是不是鹿角嘴，产生一些非常有意思你完全想象不到的回答。

我们下面看一下这个技术，我们在围绕终端这样的应用场景在做技术开发，这块列出来的是我们主要在做的技术研究，包括问答、推荐、语音识别、对话、翻译、图片、检索、深度学习，就是说我们在特别是深度学习这方面做了业界一系列比较领先的一些工作，这块介绍一些具有代表性的工作。第一个是MulimodalCNN，第一个是图片搜索的演示，你说一句话就找到相关的图片，我们现在有2万张图片，每张图片大概有3句的描述，比如说一个小孩在游泳照片，有15万对数据，我们就可以训练这样一个模型，大家知道卷神经网络是一个比较有代表性的网络，左边的是可以把这个图片抽取出来，这个CNN有多层，可以从图片里面抽取里面的轮廓和物体，另外一个是从文本里面抽取特征，直观的就是单词和词组的特征，你说这句话小孩的照片，这个小孩可能就会被抽取出来作为特征，在这个照片里面正好有一个小孩，这个小孩会作为一个物体抽取出来，通过大量的学习可以做到刚好看到的效果，这个可以看一下，我们的实验的结果，这个是英语的30K的数据，我们做了比较实验，我们比较了跟业界的其他部门的方法的结果，可以看到诺亚方舟实验室提出的刚才MulimodalCNN在检索方面可以达到最好的效果，有些模型不一定很公平，大家为了所谓的Exprimental上面，可以达到更好的水平，这个工作在去年的图象识别的大会上训读了我们的论文。

下一个介绍的工作，我们看一下机器翻译和对话里面我们用了序列到序列的学习，最早的模型是谷歌和蒙特利尔大学提出来的，我们对他进行了改进，用在对话和翻译上取得了非常好的效果。序列到序列的学习到底是什么样好的方法。大家问自然语言里面哪个深度学习的工具给我们带来最大的革命性的变化，让我来说的话就是序列到序列的学习，基本的想法是这样，用翻译来做例子，现在把中文的一句话，一只猫坐在垫子上“A cat sit a cushion”，序列对序列的模型，从左到右一个词一个词的去看我们的中文，把它转换成一个语义的表示，这个是一个向量，我们现在看到的HE、HT-E，HT，就是这个一只猫坐在一个垫子上得到的语义的表示，我们叫编码，这个翻译到目标语言，翻译成英语的话这个T-1，表示说英语产生这样的句子在每个位置上对应的语义表示是什么，我们翻译要做的就是要把这个原文，中文做一个编码，表示成中间的表示，再从中间的表示转换成另外的一个中间的表示，是一个解码，把它转换成英文的句子，中间的C的这一行就是所谓的叫注意力模型，注意力就是帮助我们去选择，当我产生英文的某一个单词，我要做翻译要一个一个的产生英文单词，我要有选择性的去决定，我现在在任何一个位置我要决定产生解码的表示的时候我是要选择中文的语言里面的哪个表示更好，这个C实际上做了一个平衡，我在每个位置上我要重新判断，我现在要产生一个英文的单词的时候对应的中文是哪个好，直观上来说是这样的解释，我们可以通过这样的模型，实际上是相当复杂的，通过这个模型你给我任何一个单词的序列我可以产生另外的序列，这个数据是中英文我可以产生翻译，这个模型的效果是非常好的。

我们刚才演示的神经响应机实际上也是用的序列到序列学习的模型，这个时候我们有一点不同是中文到中文的句子，但是它不像翻译，翻译是在两句话不同的语言，但是语义是一样的几两句话才同一个语言他们形成同一轮的对话，我们最核心的想法就是用注意力的机制，但是我们有一个全球的机制，直观上解释这个C实际上表示我读完这句话整体的语义就是一个10数值的向量，每个位置上的编码得到的结果是得到每个位置上得到的语义是什么，这两者的语义结合起来就变成中间C的这一行的语义，再把它转换成要对应的话的语义的表示，最后再解码变成一句话，这个模型我们有400万的对应的数据的话就可以把这个模型对应得比较好，能够做这样转换。我们看到正确的句子大概有95%，大概有76%的回答是能够形成自然的对话，就是刚才我举的例子。

我们现在可以把它用在机器翻译上，机器翻译我们用的机制就是我们说序列对序列是很强大了，但是我们可以把它做得更好，用传统的序列对序列的模型的话会把原文的东西漏掉，或者是翻译多次，我们这边有一个机制，翻译的时候我哪些东西翻译过了就不用翻了，哪些没有翻，同时这个机制可以把它变得更强，直观上说我要产生英文下面是一个实词和虚词的话是不一样的，就中文的话就好了，如果产生一个实词，cat，这样的话我就要看哪个词影响我，如果两个结合的话会产生很好的效果，这个礼拜ACL顶级会议上我们发表了一个论文，其中有一个就是解决漏译或者是过译的问题。

诺亚方舟实验室在手机方面做产品方面的开发，做图片检索等技术方面的研究，就到这里，谢谢大家！

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

专题

CCF-GAIR | 全球人工智能与机器人峰会

本专题其他文章

恒亮

编辑

欢迎交流，微信：whl123465

发私信

当月热门文章