只用音频，让25年前的奥巴马“穿越”到现在？

本文作者：李赓

2017-08-08 04:02

导语：真假奥巴马，傻傻分不清。

真假奥巴马，傻傻分不清。

上面两个人，其实都是奥巴马。左边是1990年还在剑桥读书时的他，另外一个则是20多年之后已经当上总统的“他”。最关键的是，这两个奥巴马实际上都在讲着一样的东西，因为右边的“假”奥巴马，而且是利用左边20多年前奥巴马音频生成的。

只用音频，让25年前的奥巴马“穿越”到现在？

这个魔术般的“表演”，实际上是来自华盛顿大学的3位学者Supasorn、Steven、Ira的最新成果。他们在7月中旬发布了相关的演示视频，其中一位成员Ira在上周洛杉矶的SIGGRAPH上对这一成果进行了详细的介绍和解析，雷锋网也在SIGGRAPH现场聆听了这次分享。

如何实现输入语音，输出图像？

只用音频，让25年前的奥巴马“穿越”到现在？

看完这个演示第一个想到的问题必然是：这个“魔术”究竟是如何实现的？究竟如何将语音转化为一个人的面部表情呢？

在现场分享的开始阶段，Ira就直接指出了这一研究的两大难点：

音频只是一个一维信息，但最终我们要的是二维的图像画面；
人类本身对于嘴部运动的感知非常敏感，高清画质下小的瑕疵将更加明显。

举个例子，目前电影和游戏中有很多人物的细节片段，他们说话时整个脸部的细微动作，实际上都是由真人演员，通过在脸上贴满了各种标记之后在摄像机面前一对一模拟的结果。但很明显这种方法并不能应用到所有应用场景当中。

既然不能明着来，那就只能“取巧”了，我们引用正式论文中的一张图，来看一下他们实际的处理过程。

只用音频，让25年前的奥巴马“穿越”到现在？

简单归纳一下：

输入音频，进行利用一个神经网络循环将语音转化一个大致的嘴型；
利用大致的嘴型重新转化为嘴、牙齿、相关脸部的图像；
寻找到适合的视频片段，并且将嘴型的时间点与视频片段对应；
将嘴型覆盖在目标的视频片段上；
得到最终视频片段。

整个过程中最重要的还是对现有数据的使用。除了从现有的图像数据中学会嘴型变化之外，他们实际上真正生成的只有嘴部的变化，剩下的头部变化以及背景实际上也来自于现有的素材。

这种“通过AI技术将真实资料结合到一起，再生成虚拟内容”的思路是他们成功的关键。

让AI模仿奥巴马的嘴

只用音频，让25年前的奥巴马“穿越”到现在？

因为会利用很多现有的素材，所以第一个问题变成了“如何模仿奥巴马的嘴部运动”。因为嘴型其实并不与发音完全一一对应，它同时也会受到前后发音、语气等因素的同时作用。

如果你直接把音频分成无数个片段，对应嘴型之后再拼起来。你就会得到一个说话时候像在抽搐的奥巴马。对此，Ira他们想出了一套“循环神经网络（recurrent neural network）”：神经网络循环对25毫秒的音频进行分析，然后结合前后的发音来确定面部表情。最关键的是：这个25毫秒的窗口期并不是一个一个分隔的，而是随着时间不断推进的。这也让最终生成的奥巴马非常流畅。

确定这种检测方法之后，他们就利用机器学习对所有奥巴马片段进行分析，并且最终将他们转化为包含上下嘴唇的18个标记点的二维模型。

在正式论文中，他们也详细介绍了自己如何使用“循环神经网络”，感兴趣的可以下载下来详细看看。

造脸：弄假成真

只用音频，让25年前的奥巴马“穿越”到现在？

虽然有了单独生成的嘴，但距离完成奥巴马的整个脸，甚至是整个片段还相差很远，首先需要寻找到一个能够作为“背景”的现有片段。他们选择了以语音的间隔作为参考：首先分析输入语音的间隔，然后在现有的片段中寻找直接相似的片段。甚至是将现有的片段进行50%幅度以内的缩放。

紧接着他们构建出一个假定的奥巴马3D模型，并且以此对选中的片段进行头部位置的分析。同时根据目标片段的数据生成虚拟的下半部分脸部。为了让最终画面看起来更加真实，他们甚至单独对牙齿进行了高清化处理。

最后他们再将现有片段中的脸、衬衫抽出来，并且将生成的下半部分脸部模型分成脸部和颈部。最终将几个图层进行整合，成为最终片段。

由于没有进行完全的三维化处理，所以在效果上他们也遇到了一些“小问题”。比如在奥巴马头部左右转向比较大的时候，生成的嘴部模型不能很好适应下巴，进而出现诸如双下巴等贴图错误。

但即便如此，在不告知是生成片段的情况下，相信并没有多少人会发现是假的。

局限：现在能模仿的可能只有总统们

只用音频，让25年前的奥巴马“穿越”到现在？

不过在现场，雷锋网注意到Ira也坦言了这一方法的两个主要局限：

模仿的对象只能面向镜头（侧脸、其他角度不行，因为没有使用完全的3D渲染技术）；
必须要有大量的高清视频数据供以分析。

这也是他们最终将奥巴马选做第一位“实验者”的关键，因为美国总统在任期之上都会发表每周电视讲话。而奥巴马在自己任职的8年间累积了超过800个高清电视讲话。其他人想要有这么多素材并不太容易。

另外一方面，目前整体的制作过程还是比较慢，在使用NVIDIA TitanX、Intel i7-5820K的情况下，生成66秒的实际视频大致需要3分钟。而为了对整体时长达到17小时的视频进行学习，他们大概用10组Xeon E5530服务器跑了两周。

只用音频，让25年前的奥巴马“穿越”到现在？

Ira对于这项技术的应用前景也表示了充分的乐观，他在现场也举了几个具体的例子：可以实现高质量的画面传输，同时大幅度减小带宽需求；可以实现各种语言下的读唇能力；可以实现各种娱乐能力，诸如电影、游戏中的特效，让像Siri这样的虚拟助手“长”出一张脸。

Ira最后在现场对雷锋网以及其他观众表示：

这个应用在奥巴马上的处理实际上也能够应用在符合条件的其他对象上。但从结果来看，在利用AI的时候结合现有真实数据是一种更加“可靠”的做法。对于他们来说，下一步的挑战是尝试结合除了脸部以外的更多奥巴马素材。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

李赓

主笔

青衣怒马少年

发私信

当月热门文章