「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

本文作者：刘鹏

编辑：郭奕欣

2018-04-13 15:44

导语：昨日，Google Research 软件工程师发表了可解决「鸡尾酒会效应」视觉-音频语音识别分离模型。

雷锋网 AI 科技评论按：人类很擅长在嘈杂的环境下将其他非重点的声响「静音」化，从而将注意力集中在某个特定人物身上。这也就是众所周知的「鸡尾酒会效应」，这种能力是人类与生俱来的。然而，自动化语音分离系统—将音频信号分离至单独的语音源—尽管这是一个已经被深入研究过的问题，但是它依旧是计算机系统研究上的一项巨大挑战。

Google Research 软件工程师 Inbar Mosseri 和 Oran Lang 于 4 月 11 日发表了一篇关于视觉-音频语音识别分离模型最新研究成果的博文，雷锋网 AI 科技评论编译整理如下。

在解决了「鸡尾酒会效应」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》论文中，谷歌团队提供了一个深度视觉-音频学习模型，来从其发声者音频和背景噪音的混合音频场景中，为特定的发声对象分离出一个匹配的单一音频信号。在这次操作中，谷歌已经能够通过增强特定人物对象的音频，抑制其他非重点音频来计算生成针对特定发声对象的单一音轨视频了。该方法适用于具有单一（主）音轨的常见视频，用户也可以自行选择倾听对象来生成对其的单一音轨，或者基于语境由算法进行对特定发声对象进行选择。谷歌相信这种视觉-音频语音识别分离技术拥有广泛的应用场景，识别视频中的特定对象将其音频增强，特别是在多人视频会议的场景中对特定发言人进行针对性音频增强。

这项技术的独特之处在于，其通过结合分析输入视频的音、视频信号来识别分离所需的单一音轨。直观来说，例如特定人物对象的音频与其发声时的嘴部动作相关联的，这也就帮助模型系统区分哪一部分音频（轨）对应着哪一个特定对象。对视频中的视觉信号进行分析，不仅能够在多种音频混合的场景下显著提升语音识别分离质量（相较于只借助音频来进行特定对象语音分离），同时，更加重要一点还在于，它还能将分离后的纯净单一音轨与视频中的可视对象联系起来。

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

在本文的视觉-音频语音分离识别方法中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出是将前面输入的视频音轨分解成纯净的音轨，并对应到特定的发声对象身上。

视觉-音频语音识别分离模型

为了生成视觉-音频语音分离模型训练样本，谷歌收集了 Youtube 上高达 10 万份高质量学术以及演讲视频。团队从中提取了音频纯净的一些片段（例如无背景音乐，听众噪音以及其他发声者音频干扰），这些视频片段中仅有一位可见的发声对象。谷歌花费了约 2000 个小时从中剪辑出，无背景噪音干扰，同时只有单一可见发声对象的视频数据，团队运用这份纯净的数据来生成「合成鸡尾酒会效应（synthetic cocktail parties）」—将来自分离视频源的脸部动作视频和对应的音频，以及从 AudioSet 获取的无背景噪音的视频混合在一起。

利用这些视频数据，我们能够训练一个多流卷积神经网络模型，为「合成鸡尾酒会场景混合体」片段中每个发声对象分离出对应音频流（音轨）。输入到视觉-音频网络识别系统中的数据具体是指，视频每一帧中被检测到的发声对象的脸部动作缩略图中提取的视觉特征，以及视频音轨的频谱图信息。在模型的训练过程中，网络系统学习分别学习视觉和音频信号的编码，然后将它们融合成一个音频-视觉表现。通过音频-视觉表现，网络系统学会了为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘，随后转换成时域波形，从而为每一位发声对象生成单独的，纯净的音频信号。更多详细内容，可以点击参考谷歌团队的论文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》进行查看。

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」