牛津大学联合 DeepMind 发布 LipNet ：用深度学习读懂你的唇语

本文作者：刘子榆

2016-11-08 12:14

导语：牛津大学人工智能实验室、谷歌 DeepMind 和加拿大高等研究院（CIFAR）在近日联合发布了一篇论文，介绍了结合深度学习技术的唇读程序 LipNet。

新的调查显示 AI 能够轻松战胜人类，但还有很多工作要做。

如何读懂唇语对人类来说是一个难题，据数据显示，大多数人平均只能读对一句唇语的十分之一。唇读很困难，不仅是因为你要观察对方嘴唇、舌头和牙齿的轻微运动，而且大多数唇语信号十分隐晦，难以在没有语境的情况下分辨。

现在，研究人员表示人工智能技术，比如深度学习或许能够解决这个难题。人工智能侧重于大数据运算，已经帮助改善了机器语音识别，甚至能达到人类的水平。那么机器学习技术是不是也能运用到读懂人类的唇语上？

据国外媒体报道，牛津大学人工智能实验室、谷歌 DeepMind 团队和加拿大高等研究院（CIFAR）就在近日联合发布了一篇论文，介绍了结合深度学习技术的唇读程序 LipNet。在 GRID 语料库上，LipNet 实现了 93.4% 的准确度，超过了经验丰富的人类唇读者和之前的 79.6% 的最佳准确度。研究人员还将 LipNet 的表现和听觉受损的会读唇的人的表现进行了比较。平均来看，他们可以达到 52.3% 的准确度，LipNet 在相同句子上的表现是这个成绩的 1.78 倍。除此之外，该模型将可变长度的视频序列转换成文本的过程几乎是实时的。

不过，当你沉醉在科幻电影《2001：太空漫游》里，幻想着像 Hall 一样能读懂人类唇语的飞船主控计算机出现之前，雷锋网小编必须要给你敲响一个警钟——牛津大学的这一实验很可能具有局限性。这一实验首先是基于 GRID 语料库完成的，这其中包含 34 个志愿者录的短视频，所有的视频都长 3 秒，使用 DLib 面部检测器和带有 68 个 landmark 的 iBug 面部形状预测器进行处理。每个句子都是以这样的模式出现的：命令、颜色、介词、字母、数字、副词等。例如“set blue by A four please”或者 " place red at C zero again " 这样的句式。由于这一模式下的词句是有限的，只包含了四种不同的命令和颜色。这导致人工智能领域的一些专家认为，牛津大学这篇论文的研究结果被夸大了，尤其是当他们看到其中一位研究人员在接受采访时煽情地表示这项成果意味着人们将“没有秘密。”

“事实并非如此，” 研究人员 Yannis Assael 和 Brendan Shillingford 在接受国外科技媒体 The Verge 采访时说道，他们正在努力地突破“有限的词汇和语法” 。Assael 表示，“现在的数据集虽小，但它却是一个好的迹象，将来我们会使用更大的数据集执行任务。”

除此之外，Yannis Assael 和 Brendan Shillingford 都在强调这一成果不会用于窥探他人的隐私。很简单，因为唇读需要看到对方的舌头，所以你必须在光线很好的地方才能够完成这一行为。“这在技术上来说是非常困难的。” Assael 表示，任何唇读软件都很难做到监视他人的地步，所以大家可以放心。而且帧率也是一个重要的因素。“除非你拿着一个技术很高的相机对准目标对象，同时还要举着一个麦克风指向他。”

相反，两位研究者认为在深度学习的帮助下，这种唇读方式可以帮助有听力障碍的人，尤其是在嘈杂的环境中。例如在聚会上，LipNet 就可以录制实时通话，并将信息清晰准确地送到人们的耳中。“只要你有语音识别和摄像头，在任何地方都可以实现这项服务。” Assael 说。他还提到苹果的 Siri 或谷歌语音助理或许也会用到这样的技术。那么在未来，如果你不想亲自和计算机对话，只要动动嘴巴它就能知道你在说什么了。

论文戳这里 PDF

Via the verge