作为搜狗语音交互补充的唇语识别发展到哪一步了

本文作者：吕倩

2017-12-25 15:22

导语：唇语识别目前最大的难点在于泛化能力的训练。

无声的世界里，你只要动动嘴唇，就可以被识别出说了什么、甚至被转化为语音，是不是很智能便利、同时又颇为惊悚？

今年12月，第四届世界互联网大会，搜狗发布唇语识别技术，也系业内首次公开演示。其背后的商业逻辑是什么？这项技术发展到什么地步了？

一、为什么要做唇语识别

搜狗语音交互技术中心负责人陈伟首先回顾了搜狗在语音交互方面的发展历史——早期搜狗于移动时代主要做两件事——输入法与搜索。后来进入智能时代，设备由手机变为IOT设备，人与智能硬件之间的连接也变为搜狗知音引擎这样的自然交互引擎，而硬件、信息，或更深度信息之间的连接，则是利用深度引擎来连接。

于搜狗语音交互整体而言，语音、翻译、识别合成技术，以及目前刚刚公开的唇语识别，均系搜狗语音识别大框架之下的内容，“这也体现了搜狗目前人工智能战略即是自然交互与知识测算。”

至于搜狗知音引擎自去年8月3日发布之后，到如今的一年多时间里，已形成三个解决方案：

语音听写解决方案；
语音交互解决方案；
语音翻译解决方案

陈伟表示，就本质而言，听写技术的作用就是将语音转化成文字，而如今搜狗发布的搜狗听写，则是希望通过机器的方式，自动将人的语音转化成文字。具体落地上，搜狗听写技术已经落地上百场会议，包括法院评审等工作。

而听写模块的语音交互，则结合了语音识别、语音合成与语音理解的能力，应用于不同刚需场景，包括手机、移动端穿戴设备、车载后视镜与车机等，也包括后续会应用的智能家居。

直到此次世界互联网大会，搜狗CEO王小川演示了最新语音同传案例与唇语识别技术，陈伟表示，除了同传，现场最称得上黑科技的，就是搜狗唇语识别技术了。

回顾唇语识别技术的研发起始，陈伟对雷锋网称，当初主要考虑着，围绕搜狗主路线上的工作，将图像和语言进行打通，实现从图像中转化出人讲话中的信息 ——“这也是对唇语识别的整体思考，以及对应整个知音引擎产品思考上的唇语识别的一个位置。”

王小川则表示，“因为搜狗搜索和输入法其实都在跟语言打交道。一方面帮助人们用语音表达，另一方面通过语言获取互联网上的信息，但在一些嘈杂、甚至无声的环境里，语音所能发挥的作用是有限的，于是在这种情况下，搜狗决定发展基于视觉的语言识别能力作为补充”。

具体应用上，就是将语音识别与唇语识别相结合，在噪音特别强的情况下，让后者辅助前者，形成包括视觉、音频、唇语在内的多模态输入。

目前，陈伟对雷锋网表示，在解决噪声问题上，仍是麦克风阵列比唇语识别更靠谱。在落地速度上，麦克风阵列已然落地，而唇语识别刚刚启动研发第一步，之后将要进入与音频结合解决降噪问题的阶段。

但唇语识别有其独特的场景优势，例如，当周围过大噪音造成语音指令无法被准确捕获、识别时，唇语识别可以帮助规避这一影响，确保输入的准确率，保证交互的稳定性；在安防领域中，由于目前很多监控场景，如电梯、马路中只有摄像头没有麦克风，通过唇语识别技术，则可以获取重要的用户讲话信息，为公共安全提供有效支持；此外，搜狗唇语识别还能服务于听障、失语人士等。

综合来讲，陈伟表示，目前搜狗唇语识别主要应用于两大场景：

其一，在多数语言场景下，摄像头的覆盖率远远高于麦克风，但通过摄像头获得的图像数据主要用于监控简单的行为，很难在安防等场景中，精确了解图中人物在说什么，但使用唇语识别技术就可以通过嘴的动作获取大量内容信息；
其二，唇语识别可以作为辅助技术，提升语音识别技术现阶段的准确率。搜狗的唇语识别技术目前在开放的口语测试级上可以达到50%-60%的准确率，在限定场景中可以达到90%。

作为搜狗语音交互补充的唇语识别发展到哪一步了