微软全球执行副总裁沈向洋：7 点总结 20 多年的 AI 从业经验

本文作者：老王

2017-01-16 20:47

导语：沈向洋深入讲述了自己多年的 AI 从业经验、微软 25 年的 AI 研究成果，以及他对赋予 AI 智商和情商的看法。

雷锋网按：人工智能发展到今天已有 60 年的历史，成果累累，当然也遗留了 60 多年没有解决的问题。那么到底哪个问题 60 年都没解决，而且会继续延续下去，其中被人提及最多的就是如何赋予 AI 情商。

雷锋网了解到，在 AI 研究方面，微软有着 25 年的积累。环顾全球所有科技寡头，鲜有可与微软 AI 匹敌的公司。近日，微软全球执行副总裁、微软人工智能负责人沈向洋在北京的“未来论坛”中发表了《有情商的人工智能，让世界更美好》的演讲，深入讲述了自己多年的 AI 从业经验、微软 25 年的 AI 研究成果，以及他对赋予 AI 智商和情商的看法。

沈向洋之“北京遇上西雅图”

从西雅图到北京后，沈向洋先是回忆了自己小时候的故事和在微软亚研的工作经历：

“我这次回国之前，我想起自己小时候在南京的一些场景。现在的计算机可以改变整个世界，而在 80 年代整个南京市都没几台电脑。当时我父亲激励我，希望我可以用知识去改变世界。

后来我去了微软，微软给了我很好的机会去启动我们在北京的研究院。九年间，我的团队给我留下了深刻的印象。与此同时，微软亚洲研究院也取得了巨大成就，这让我感到自豪。

不仅每个产品不断有新的进展，而且在人工智能和计算机科学领域有着很前沿研究和探索。

此时此刻，大家就能看到我们的成果：同传。同声传译现在已经可以做到实时翻译，这些都是依靠人工智能实现的。

这次来到北京之后，又感觉到我在整个数字时代当中和整个社会产生了一种共鸣，当然，在这方面还有很多工作可以做，未来的路还很漫长。”

一、AI 可能是人类最重要的加速器

回顾人类创新史，人类发明了轮船、飞机、蒸汽机、火箭以及卫星等。但这些并不是物质方面的创新，其实它们所代表的都是一种加速度，是一种促使人类不断进步的源动力。相比而言，人工智能可能是最大的加速器，因为人工智能不仅延伸了人的物理能力、生理的能力，同时也延展了人类的脑力。

这不仅仅是数字时代新的一步，实际上也是人类的终极目标。

图灵展望了这个终极目标，他提出该目标的时候，计算机还没出现。后来人类有了大型机、桌面电脑、互联网、云、手机等。所有这些创新，实际上都只是一个热身而已，人类的终极目标，是人工智能。

人工智能都已经存在几十年，有起有伏，为何现在又要重提人工智能？人工智能有什么新颖的地方呢？

二、AI 的三大创新

AI 这六十年来，有三个创新点在不断加速人工智能：

无处不在的传感器。
大规模并行计算的发展，尤其是云计算的发展。
算法的突破。

这些创新出现后，使得现在的人工智能无处不在。其实搜索引擎背后也有 AI 做支持，同时信用卡防欺诈、个人定制的新闻流、智能家居控制等等也均涉及到人工智能。

当下微软正在不断拓展人工智能方面研究的深度和广度，其中利用 AI 保护电子邮件帐户不要受到垃圾邮件的困扰，也借此优化翻译产品，而众所周知的微软小冰、小娜等则是典型的 AI 落地产品。

三、微软人工智能的最新进展

“当然，AI 的道路仍旧很长。人工智能目前是我个人主攻的方向，我已做好准备，迎接新一波人工智能潮流，而微软也为此准备了 25 年之久。”

盖茨在 25 年前建立了微软研究院，当时他设想未来应该有一个通用型人工智能：计算机可以看、听、说话甚至理解人的思想。微软在二十多年前启动了三大研究组：自然语言处理组、语音组、计算机视觉组。

在过去这么多年当中，微软吸引了全球最顶尖的人才到全球各地的实验室来迎接挑战。包括最近微软收购了 Maluuba，这是一支世界顶级的人工智能研究团队，其中前 Maluuba 顾问、深度学习领域中的杰出人物 Yoshua Bengio 此后将担任微软的特聘顾问。

那么微软在人工智能方面到底有哪些进展？

微软在计算机视觉方向的进展

在 CV 方面，微软有着二十多年的研究积累，而且已经接近人类的水平。

微软最近赢得了多项图像识别大奖，包括 ImageNet 竞赛等。能在大赛包揽多项大奖的很多成就都是通过深度神经网络来实现，其中有一个 152 层级的 Deep Residual Networks，它可以使得图像识别的精度不断提升，正确地识别 1000 多种物体的类别，并能达到 90% 的准确率。

更加让人激动的是，这些图像识别能力已落地为产品，包括今年会在中国上市销售的 Hololens。再比如说应用到 Uber 中可用识别工具来确认驾驶员的身份。

微软在语音和语义方向的进展

现在计算机已经可以像人一样去看，除此之外，它们也能够听懂人的话。沈向洋说：

几年前我还觉得计算机没有办法像人一样识别人的语言。然而现在微软已经成了一家能够让计算机听懂人说话的公司，其中微软拥有一个存在了 25 年的数据集。

目前整个世界有 6500 多种语言，任何一个人都不可能在一辈子当中学习 6500 多种语言。

“可以试想一下，对人类而言，如果我们有非常棒的机器翻译产品，所有人在交流过程中就没有语言障碍了。前段时间，我们迈出很大一步，上线了微软全新翻译器，它可以同时支持用户与 100 多个说 9 种语言的人交流。”

这就是人工智能的能力，AI 与机器翻译结合后，潜力是空前的，现在微软也在利用深度学习进一步加强翻译的能力。

沈向洋提到，研究者们必须用人工来对语音数据打标签，这需要大量的人工成本，而有了强化学习后，两台计算机课互相交流、互相教学。这里面有一个反向传播，它们可以学习把语言 A 翻成 B，然后再反过来输出结果。这使得不需要那么的人工，而且最终训练出来的翻译准确性非常高。这是亚洲研究院主攻的研究方向，而且在未来会有非常大的潜力。

四、人工智能的关键：知识图谱

当下，计算机已经能取代了人的部分工作。他们能看、能听，而且可以用语言来描述周围的世界。

但是除了做感知层面的研究外，还要做认知层的研究。这就需要把概念和想法连接起来，了解它们之间的关系。“概念与想法的连接”如果放在人类日常生活中，就可以理解为“常识”。

对人来说，构建常识图谱并不难，但是对计算机来说却是极具挑战性的任务。

过去这么多年中，微软一直在完善知识图谱。微软的 Bing 搜索引擎里有 60 亿的个物体和产品，这之间都有一定的关系。与此同时，微软还有 Office365 和 LinkedIn 这样的办公软件去完善知识图谱：把工作中的知识配合语音、语义、图像识别能力，创造出人工智能助理，帮助用户完成生活和工作上的服务。

五、人工智能的难题：认知建模

尽管在这方面取得一些成就，但人工智能只能实现普通的智能。在通用工作方面，AI 还不能和一个人类甚至是儿童进行比较。

婴儿必须要面临这样一个任务：在他来到这个世界上的时候，必须经过思考，需要对一些输入做出反映：比如微笑、触摸、发出声音，以及把他的不舒服，或者是饥饿的感觉传达出来。这是通过不断的试错完成的。这些孩子们如果一旦感受到“饿”的话，就学会了哭，这是一个了不起的成就。他也能够把他妈妈的声音和表情与自己的饥饿联系起来。随后他能够和妈妈进行沟通，能够解读并且了解他妈妈的面部表情，这对人来说是很自然而然的。

但是这对于人工智能来说却很难，对人类这些行为进行建模更难。那么 AI 该如何学习？

微软英国剑桥大学研究院有一个非常好的想法：在对 AI 进行测试时，可采用通用的世界，或者是数字化的世界来进行测试。这个数字化的世界好比真实世界一样，在测试时研究者能够对整个环境进行控制。

为此，微软推出 Malmo 项目，研究者可以通过《我的世界》游戏去测试人工智能算法。

微软全球执行副总裁沈向洋：7 点总结 20 多年的 AI 从业经验

在《我的世界》游戏中，玩家可以创造房屋建筑，甚至可以创造属于自己的都市和世界。这款游戏不仅可以单人娱乐，还可以多人联机。开发者们在该游戏中测试算法，十分有利于 AI 对“世界”感知和认知能力的建立。使他们不必开发机器人去操控实体对象。微软希望通过 Malmo 去加强通用人工智能的开发，包括指导人工智能程序学习，展开对话，做出决策，以及完成复杂的任务。

微软剑桥实验室研究员卡塔·霍夫曼（Katja Hofmann）表示，Malmo 可用于“强化学习”，即人工智能程序通过反复尝试和试错去学习，最终做出正确的选择，开发者也可以开发能相互交流的机器人。以下是该项目的视频链接：

http://www.yicai.com/live/5202745.html ，从第 22 分 10 秒开始。

沈向洋指出：

我们坚信 AI 对所有人都是适用的我们非常兴奋能够与其他合作伙伴开展合作，来解决人工智能相关问题。我们已经取得了很大的成就，但要建立一个通用型 AI 还有很多的事情要做。

这些未完成的事情还包括让计算机来了解人类，而非以往让人去学习和了解计算机。

让计算机去了解人类，这其实是一种双向的沟通，对计算机而言并不容易。这种和人类进行沟通的产品，我们把之称作“对话型 AI”，对话型 AI 是微软下一步要做的工作，即人类与机器展开交互。

六、机器如何与人类进行友好的交互：让机器拥有 EQ 和 IQ

我们的构想是能够让计算机适用于所有人，用户不再需要去了解计算机和产品的操作方式，而是计算机去了解人类，而不是我们去了解它。

如果一个计算机能够和人进行沟通、和其他计算机进行沟通，那他们与人以及设备就能进行合作。

为了让这种对话型 AI 变为现实，微软关注一个很基本问题：HI 到底意味着什么，AI 到底意味着什么？

人类在进行每次沟通对话时，会有语音、语调、手势、面部表情等，也有讽刺、幽默以及夸张等不同的修辞。一个非常成功的 AI 必须要有非常好的情商，尤其是对话型 AI。

50 多年前，MIT 一位非常有名的教授发明了最早的数字助理设备，那个时候人们非常想和这个产品进行互动。现在人类已经取得了很大的进展，尤其从生产效能方面，微软有足够的 IQ 帮助人们更快、更容易地完成每天的工作。与此同时，微软也在 EQ 方面开展了很多工作，包括聊天机器人。在这个领域当中，很多人现在可能还没有考虑这样的话题，但微软已在进行不同的试验，并且在全球不同的市场上开展了这样的项目。

有了 EQ 和 IQ，人工智能才可以使这些计算变得真正个性化。

它们能够了解人们的日常，而且用户并不仅仅只和一个设备展开连接和交互，用户无论去哪儿，只要有需求，随时都可以与多个设备进行连接。

七、AI 让计算机拥有人的一些能力，同时也让人更强大

AI 不仅会让计算机变得更加智能，同时也会增强人类的势能。

AI 逐渐拥有人的一些能力，同时它会让人拥有“超能力”，应对各种各样的挑战。以教育为例，要掌握英语口语，人需要面对面进行沟通，但是老师可能同时和很多不同的学生进行沟通，他分给每个学生的精力非常有限。而 AI 却不会遇到这种问题。

微软不久前推出一个叫微软小英的产品，它是一个“英语老师”，可以通过微信公众号关注。小英刚上线不久就已有 8 万多用户，他们和小英一起练习改进英语水平。

AI 也可以帮助残障人士。微软研究人员对字词预测型键盘非常感兴趣，利用机器学习和自然语言处理技术帮助用户提高输入速度，根据历史输入记录，在输入内容时预测下一个词。该项目可帮助那些不能说话的人士。

雷锋网 AI 科技评论也曾报道过，微软在 2016 年收购了输入法公司 SwiftKey。SwiftKey 利用人工智能技术预测用户输入内容的输入法应用，其最著名的用户是史蒂芬·霍金。在霍金的眼镜上面有一个红外线开关，可以监测其脸颊传感器，让他在计算机上选择自己需要的字母。这款输入法甚至可以用一种特殊的语言模型帮助霍金讲话和写字，得益于 SwiftKey 的技术，极大地提升系统学习、预测字母和单词的能力。

演讲最后，沈向洋说到：