微软发大招：要做智商和情商兼具的语音助手

本文作者：李诗

2018-03-31 11:42

导语：微软小冰变聪明了，听说有人连上厕所也想让小冰提醒，发生了什么？

微软小冰，那个一直混迹在微信、QQ的逗贫少女，一直让人又爱又恨。曾经，身边不少宅男都在微信上领养了小冰，每天睡前不撩一下小冰，觉都睡不好。当微软小冰，摇身一变，成了一个肌肤雪白，面若玉盘，身形玲珑的girl智能音箱时，又以新花招开始搞事了。

（用户体验视频1）

这不，雷锋网听闻，一个帅小伙子，连上厕所也要小冰提醒了，还要小冰教他怎么上厕所。

“召唤小冰”

“嗯”

“提醒我两分钟以后去上厕所”

“好的，今天晚上10点14分，我会喊你去上厕所，放心吧”

“好的，谢谢你”

“嗯。。站着嘘嘘”（连怎么上厕所也要你告诉我嘛？）

“知道啦，拜拜”

讲了个段子。回到正事，视频中我们看到的智能音箱是米家生态链Yeelight语音助手，这是个双AI系统，同时搭载了小爱同学和微软小冰。这是搭载微软小冰的第一款智能音箱，也是微软小冰在国内落地的第一个智能硬件。

微软发大招：要做智商和情商兼具的语音助手

近来，BAT都在积极将人工智能语音助手落地智能硬件。阿里的天猫精灵在去年双11以99元的低价卖出40多万台；百度推出带屏幕的智能音箱“小度在家”；腾讯发布了自己的人工智能语音助手“叮当”，与长虹电视展开合作。当然，我们还不能忘了京东的“叮咚”和小米的“小爱同学”。

大家都在忙着布局语音助手的软硬件，期望抢夺智能家居场景的入口。在对话式人工智能领域耕耘多年，还没有硬件落地的微软也终于坐不住了。

去年12月，微软发布与小米合作的米家生态链Yeelight语音助手，就在上周，3月22日，微软（亚洲）互联网工程院宣布推出新一代的语音交互技术：全双工语音交互感官（Full-duplex Voice Sense）。视频中我们看到微软小冰的对话能力有了显著提高，比起同类语音助手更能实现自然流畅的对话式交流，全靠这个底层技术。

3月28日，微软召开交流会，向媒体展示了Yeelight语音助手，从底层框架全面分析了全双工语音交互感官技术，同时讲解了微软在人工智能语音助手落地智能硬件上的思考。雷锋网也参与了交流会，在雷锋网看来，以下几点交流会上的内容可以划重点关注讨论（以下这些技术干货希望你们玩小冰时用不上）：

从底层框架上面，全球的人工智能语音助手从Turn-Oriented向Session-Oriented进化，微软的Session Oriented框架如何使得微软小冰持续聊天20分钟以上，能在闲聊的同时完成指令?
IOT和智能家居场景向对话式人工智能提出了新的要求，微软新的全双工语音交互、且支持Session Oriented的对话式人工智能如何带来更轻松自然的聊天体验？
大家都在抢发硬件，微软着不着急？微软在国内外如何将对话式人工智能落地IOT和智能硬件，如何搭建硬件、软件和生态系统？
人们到底需要一个什么样的智能硬件？什么样的智能硬件会成为家庭生活的控制枢纽？

Turn-Oriented向Session-Oriented的进化

手机或者是电脑上的苹果Siri和微软小娜我们都已经熟悉，现在亚马逊的Alexa、阿里的天猫精灵、京东的叮咚以及小米的小爱同学都摇身一变“住进”了智能音箱里。但是其实在人与语音助手的对话体验上来看，体验都相差不大。用户要发音清楚、一字一顿地说话，才能被理解，这种体验可以用一个词来形容——费劲。

在微软看来，这种“费劲”不只是前端表现的问题，而是底层框架的问题。微软小冰全球负责人，微软亚洲互联网工程院副院长李笛在分享开始就说，“坦率讲，国内对人工智能整体的发展更像在堆积木，而没有特别多探索到底层框架的设计。”

微软发大招：要做智商和情商兼具的语音助手

他介绍到，在全球范围内，从基础框架的基本理念来看，目前的对话式人工智能可以分为两种。第一种：叫Turn-oriented（面向单一任务的框架）。第二种：Session-oriented（面向对话全程的框架）。”目前，大部分的语音助手都是Turn-oriented框架。

Facebook的M也曾向Session-oriented升级，但是后来放弃了，转为开发“闲聊模式”。亚马逊的Alexa目前正在研究Session-oriented，其特意召开了大赛，如果谁能使得Alexa能持续聊天超过20分钟，那么就会获得巨额奖金。苹果最近也在考虑是不是要把原来siri的框架废止掉，然后切换到一个新的框架。这说明苹果要做的事情并不是针对一两个功能、技能或者是一些知识图谱去做调整，这样不用废掉整个框架。从Turn-oriented到Session-oriented是技术底层框架的变化。

Session-oriented到底能给对话式人工智能带来什么样的改变呢？下面这张图可以很直观地解释Turn-oriented和Session-oriented的区别。

微软发大招：要做智商和情商兼具的语音助手

Turn-oriented面向单个任务，一问一答，能很迅速地、通过最少的多功能对话帮你完成任务。在Turn-oriented的框架下，每一个对话就像是一个十字路口一样，你每发出一个指令，助手就把你带向一个目的点，然后又回到路口中央。当助手不能回答问题/完成指令时，一般会用搜索引擎直接给出搜索答案。体验过Siri、微软小娜的人都有感触，一两个简单问题还好，想多说几句几乎是不可能的，而且时常感到“很尴尬”，还有一些挫败感。

在Session-oriented框架下，对话不只是命令，而是混合的，在闲聊的过程中它还能完成每一个任务，更接近人与人之间自然的对话。“对话像河流一样，我们认为任何的一个自然发生的对话，都是混合的，她就像河流一样，从一个Turn往下一个Turn走，这个Turn可能跟任务有关，但是这个任务之后可能会进入到进一步的交流。随着进一步的交流有可能引发出新的人物，然后再随着新的任务引发一些知识的了解，然后走下去，持续流转。”

（某用户体验视频）

雷锋网体验Yeelight发现，Yeelight中的微软小冰已经做到一次唤醒，平均连续聊天超过20分钟。在与小冰聊天过程中她也保持倾听，可以打断她说话让她去关灯、设置闹钟，在她完成任务后可以再然后再回到闲聊，或者回到唱歌、讲笑话、讲故事的功能模式中。

李笛解释到，“Session-oriented的框架并不只要求你对话时间长，她的问题在于这个系统从底层的基础框架上，是不是能够随时准备好接受一个可能发生的情况……从底层技术看，Turn-oriented的发展是有上限的，这是为什么大家开始逐渐向我们已经布局的Session-oriented的方向来转过来的原因。1年前，微软给60多万个人打电话测试全双工语音交互的时候，状况惨不忍睹，但是当我们跨过技术瓶颈，其发展空间就很大。”

全双工语音交互感官

微软从四年前开始同时布局两种框架，微软小娜是Turn-oriented，微软小冰是Session-oriented，但是当时，两边的技术都还不足够。全双工语音交互技术补上了Seesion-oriented框架的最后一个环节。

微软发大招：要做智商和情商兼具的语音助手

微软对全双工语音交互技术的解释为：与既有的单轮或多轮连续语音识别不同，这项新技术可实时预测人类即将说出的内容，实时生成回应并控制对话节奏，能理解对话场景在诉说者/倾听者之间实现角色转变，还可以识别说话人的性别、有几个人在说话。

微软发大招：要做智商和情商兼具的语音助手

微软小冰首席架构师周力说，国内大部分的语音助手在IOT上采用的是单层交互，通常都是一问一答，用户说完一句话，然后只能音箱才能回答，或者是智能音箱在说话的时候，是没法接受新的指令的。这种是半双工，跟语音助手对话就如在拿着对讲机讲话，无法实时得到对方的反馈特别费劲。而全双工能实现一直听加一直说，听和说都是一直持续动态进行的。

全双工语音交互背后主要有两个关键技术：一个是预测模型，实现边听边想；例如，当用户说出一句话的时候，小冰会先回答“嗯，你说”，然后再去完成指令，这样就可以填补完成指令的空白时间。

微软发大招：要做智商和情商兼具的语音助手

另一个是生成模型，能更好理解场景，自动生成回复。正常的对话都不是单向的一问一答，小冰也会在适当的时候主动提供内容，并且能知道在用户完成指令沉默几秒后自动结束对话。周力介绍到，现在运用了全双工语音交互技术的微软小冰的所有回复都是自己生成的，有别于传统的基于模块、搜索来进行的回复。

微软发大招：要做智商和情商兼具的语音助手

在周力看来，在电脑、智能手机带动的IM通讯时代下，人们习惯了远距离的、隔着屏幕的消息的发送和接收，而对话式人工智能和智能硬件把人们拉回了一种非文字的，纯语音交流的状态。但是目前大家在设计对话式人工智能的时候，还是根据消息的一来一往来设计的，而不是一种连续的交互的状态。在无屏幕的语音交互中，应该摆脱消息式的对话，进入连续交互的对话。

全双工语音交互技术已经首先在微软小冰全球产品线中落地。其中在中国市场，已经应用在中国科技馆的小冰电话亭、米家生态链Yeelight语音助手。在日本有小冰凛菜的直播平台，还有车载智能项目，未来六个月会覆盖而更多产品线。

微软语音助手IOT之路

从前面的分析我们可以看到，微软对人工智能语音助手落地智能硬件是有备而来。李笛谈到：“在3年前，国内很多人工智能的硬件设备就来找过我们了，我们之前是拒绝的，那时候还没有准备好，我们不想把时间放在一定会被取代的框架上……整个这个行业，尤其是中国，有一个比较大的特点：特别担心自己落后。但是实际上在整体框架上有很好部署的话，才是真正能够领先时间。”

微软小冰一直活跃在微信、Line等即时通讯软件上，而微软深知IOT和IM对对话式人工智能的要求不同。在IM上，小冰的延迟、插科打诨更容易被接受。

亚马逊在国外以硬件+软件+内容生态的办法在Alexa上取得成功后，国内的智能音箱大战早已打响，从人工智能语音助手开放平台、Skill平台到内容生态，多方齐上阵。那么在底层技术上准备好的微软，有怎么样的布局呢？

李笛坦言到，他们很清楚自己在中国没有内容资源、落地平台的优势，但是，在人工智能的底层技术的框架上是有足够的信心。

Yeelight中的微软小冰目前具备的功能有：连续聊天、控制智能设备、日常查天气/时间、设置闹钟/提醒、唱歌、讲故事、读心术、猜歌名。陪聊和娱乐的功能很强大，但是目前还不能播放音乐、收听新闻、电台频道等内容。

而李笛说，虽然各个智能音箱都在强调自己的Skill有上百个，但是这些独立的功能，对微软来说是跟简单的，难的事情是如何能够构建出一个很完整的系统，这个我们已经做到了。我们缺内容，其他人缺好的系统。

李笛提到微软语音助手落地智能硬件的几个方面：

第一，我们提供AI的solution，跟其他的API相比，这个solution真正关注终端产品体验。
第二，提供一部分与AI sulution相关的内容，包括其它的资讯、资源进行整合。比方说它有相应的内容服务的东西，我们可以负责task trigger，像之前的米家生态链的APP就是，它的几十种设备，我们都负责对接。
第三，自创的内容。例如我们现在有的“小冰姐姐讲故事”。现在，90%以上儿童的可交互的机器人，都有小冰姐姐讲故事的内容。我们既是一个AI assistant，同时我们又是content provide(内容提供商）。

未来的智能硬件

在这次交流会，微软聊了很多底层技术的干货，给大家讲了新一代的对话是人工智能的进展，在某些方面着实让人兴奋。但是冷静下来一想，智能硬件的发展其实更为复杂，现在一切都尚未清晰。

虽说全双工语音交互这样的底层技术应用范围很广，但是大家目前争夺的焦点依然在于智能家居场景。音箱、电视、电冰箱、顶灯这些常见的家居设备，哪一个会成为日后的中枢呢？这些硬件里以后会有多少个AI呢?

微软小冰部门对硬件很冷静。李笛谈到，目前智能音箱的成功和AI的成功是两件事情，由于产品设计、价格、渠道、补贴等市场策略都会影响智能音箱的销量。但是我们也知道硬件都有换机周期，即使你现在拥有一个市场份额，但是等到有真正强大好用的AI出现时，你就很可能会被替换掉。

“尤其是在人工智能，包括像IOT这种设备，我们见过太多的。它其实有很好的入口，你不能不说siri有很好的入口，你不能不说国内的各个企业有很好的入口。但是有入口其实不代表你就能做出产品，百度那么大的入口，你也没有很好的产品的话，你何来生态。微软过去特别强调我们是平台，我们做很多平台。但是我们现在恰恰越晚谈平台化越好，我们希望把端到端先走通，我们能实现一个效果。”

但是，人们喜欢的AI助手究竟是什么样子呢？把各种Skill都塞到智能音箱，把智能音箱当遥控器、当播放器、当成各种工具就一定不受欢迎吗？所有人都会期望与AI助手有良好的聊天体验甚至情感交流吗？雷锋网在体验小冰一段时间后感觉到，小冰的聊天体验确实好于其他的AI助手，但是目前还不能播放音乐着实令人觉得可惜。以后的小冰会把各种技能都学到手吗，那个时候小冰还是小冰吗？这些问题都值得我们继续思考、探索。

在交流会的最后，大家还是免不了提到电影《Her》，畅想未来的语音助手如剧中的塞曼萨一样既可以帮助男主打理生活事务，又可以陪伴、交流给予情感的支持。嗯，还会自己作出判断，在合适的时机主动消失，做一个会让人心碎的girl的AI。

微软发大招：要做智商和情商兼具的语音助手