思必驰one-shot一语即达体验更简单的车载交互

本文作者：咲甜

2016-10-18 14:12

导语：思必驰将其升级至AIOS3.0版本，新增7大功能， 10月20日，思必驰再次发力，升级至AIOS3.1版本，积淀许久的one-shot功能也终于揭开神秘面纱。

人工智能的热潮驱动了整个行业的发展，智能语音作为最天然的交互手段，自然备受关注。在语音交互引起传统交互变革的今天，智能车载领域成为了变革的先锋，尤其是后装市场，智能语音似乎已经成为了车载场景交互的标配。

国内专注智能语音的企业竞争越来越胶着。阿里，语音客服俨然已成为刚需；百度，强大的搜索资源库成为了百度语音的后备力量；科大讯飞，依托政府项目，在教育、医疗、智慧城市等领域也占据着市场优势；乐视推出乐乐语音，改变着乐视超级电视的交互方式；爱奇艺、360、等也都在纷纷涉足语音技术。专业的语音公司更是凭借着特色的解决方案，风头正盛。在这其中，交互方式的简单便捷，成为几乎所有语音交互方案追求的一大效果。

讲到语音交互的简单与便捷，思必驰于2016年10月20日升级版的AIO3.1新增的one-shot功能吸引了行业极大的关注。AIOS For Car是思必驰于2015年10月针对智能车载后装市场推出的一款对话操作系统，主要应用在车机、智能后视镜、HUD，以及互联网汽车等产品上。2016年6月，思必驰将其升级至AIOS3.0版本，新增7大功能， 10月20日，思必驰再次发力，升级至AIOS3.1版本，积淀许久的one-shot功能也终于揭开神秘面纱。

one-shot一语即达

思必驰将one-shot功能描述为“一把说”，这一描述也十分的生动形象，贴近实际。

思必驰one-shot一语即达体验更简单的车载交互

图1 思必驰one-short一把说

据悉，one-shot一把说，采用“唤醒词+语音语义识别”一体化方式，实现唤醒词与语音操控之间零间隔、零延迟、无缝对接，摒弃传统的一问一答的形式，极大减少用户语音操控的步骤，实现信息反馈，化繁为简，实现简便操作，但这样的简便在设计之初却并不简单。

one-shot的一大特点是识别唤醒与语义理解一体化，保证语音交互的统一性与连贯性，完成操控。举个简单的例子来讲，过去智能语音的交互方式为一问一答，用户发出唤醒词指令，需要设备反馈待机信息，然后才能开始交互，例如：

用户：你好小驰（唤醒词指令）

设备：有什么可以帮您？（设备反馈，表示处于信息接收状态）

用户：我要去机场

设备：开始为您导航去机场

One-shot功能却可以一语即中，实现“唤醒词+语音语义识别”一体化，比如实现这样的交互：

用户：你好小驰，我要去机场

设备：开始为您导航去机场

相比传统，这样的体验似乎更具效率。或许未来，在人机交互中，机器通过采集用户的行为习惯数据，追踪用户意图，实现如下的对话，也并非不可能：

甲：我一直有个问题想问你

乙：爱过….

系统响应速度及精准度始终是用户关心的一大问题。AIOS3.1中的one-shot功能采用本地+云端混合引擎模式。语音唤醒和常用的语音指令识别存储在本地，系统接收反应灵敏，语音识别能够准确及时的响应。与此同时，连续语音识别和语义理解进行云端处理，基于场景，收集用户习惯数据，通过深度学习，分析并追踪用户意图，保证语义理解精准性。本地加云端的混合引擎处理，既保证了响应速度也确保了交互的精准，即使在没有网络的情况下，依然可以使用基本语音交互功能。

GUI图形交互界面必然会继续前进变革，VUI语音交互界面是一大发展趋势。思必驰one-shot功能的发布，展示了其在VUI产品交互设计的深度思考。相信，通过不断的提升语音交互体验，VUI必然会在未来IOT行业的人机交互中引起越来越多的变革。

用技术说话：研发实力是关键

很多车载后装产品用户反映一个问题，就是使用车载语音时，说“我要去天安门”，系统可以响应，但是说“去天安门”时，系统无反应，这是为什么呢？实际上，这是因为一些语音方案商将“我要去”三个字固化为唤醒词，而“去”、“我想去”这类词与“我要去”不完全匹配，所以系统自然无法识别。这种交互方式，表面上被宣传为“免唤醒”，实际上恰恰相反，系统通过采用大量唤醒词来实现，这样做导致误唤醒率极高、增加系统资源占用、可扩展性差，同时强迫用户记忆，为用户的安全驾驶带来隐患。

就此问题，思必驰产品总监雷雄国表示“思必驰用One-shot功能来解决这一问题，用户想怎么说系统都可以理解，基于对应用场景的深度学习，系统能够通过后台用户数据采集，分析用户行为习惯，准确追踪用户意图，克服刻板的关键词识别，通过大词汇数据，实现场景的流畅交互”。

实然，语音技术企业的核心竞争力在语音技术研发实力、产品化落地及市场应用着陆，成为企业生存之道。一些企业坚持自主研发，一些企业善于使用国际开源工具，比如，Google开源深度学习系统Tensor Flow。该系统支持支持CNN、RNN和LSTM算法等流行的深度神经网络模型，大大降低深度学习的应用难度，提升开发速度。但通用的开源工具有其效率和权限上的局限性，既无法满足特定的前沿算法需求，也常常无法满足用户基于场景的个性化需求，不同专业领域的算法、数据、架构等都要依托实际应用进行搭建及优化。

目前国内智能语音行业中，深耕技术研发的企业并不多，比如在深度学习方面，百度研究院推出Deep Speech系统，科大讯飞推出FSMNN算法模型，思必驰与上海交大联合实验室则独立拥有VDCNN算法模型和PSD解码架构。拥有独立自主研发实力，才能结合产品特性、应用场景，深度定制交互方案。

思必驰one-shot一语即达体验更简单的车载交互