与假视频死磕到底！谷歌 AI 开源 Deepfake 检测数据集，3000+ 真人亲身上阵

本文作者：杨鲤萍

2019-09-27 18:21

导语：让 Deepfake 假视频无处遁形

雷锋网 AI 开发者按：在不久前，Facebook 发起了 Deepfakes 检测挑战赛；而近日，谷歌 AI 就跟着强势推出了 Deepfake 视频检测数据集，势将一同与假视频死磕到底。

（Deepfakes 检测挑战赛详情：https://www.leiphone.com/news/201909/2T95wJf5RRTycmkT.html?type=preview&sign=g3d2q7B6dqqAdnGqs6V5YoCdn5aEh33agquWoQ）

该数据集一共包含了来自 28 个不同场景下，由真人演员现场拍摄的 3000 多段视频。谷歌希望能够通过这些视频数据，更好的维护整个社会的网络安全环境，并使得开发者能够利用这些数据，开发新的 Deepfake 检测工具，更高效地识别 Deepfake 假视频。谷歌在博客上发表了相应的文章来介绍这一数据集，雷锋网 AI 开发者将其整理编译如下。

与假视频死磕到底！谷歌 AI 开源 Deepfake 检测数据集，3000+ 真人亲身上阵

Deepfake 视频检测数据集背景

近几年来，深度学习的发展催生了曾经被认为不可能实现的技术。现代生成模型就是其中的一个例子，它能够合成超现实主义的图像、语音、音乐甚至视频。这些模型已经被广泛应用于各种各样的应用中，包括：通过文本到语音的方式使世界各国的人变得更容易沟通，或者是用以生成医学成像的训练数据等。

与任何变革性技术一样，这些技术也带来了新的挑战。所谓的「Deepfake」就是其中之一，它可以由能够操纵视频和音频剪辑的深度生成模型制作而得。自从 2017 年底首次出现以来，就有许多开源的 Deepfake 生成方法流于市面，导致合成媒体剪辑视频的数量不断增加。虽然许多人可能只是出于趣味性的目的，但一旦落入不法分子手里，这一技术也可能对个人和社会造成极大的危害。

与假视频死磕到底！谷歌 AI 开源 Deepfake 检测数据集，3000+ 真人亲身上阵

谷歌认真考虑了这些问题。正如他们去年在《人工智能原则》中发表的那样：「我们致力于开发 AI 的最佳实践，以减少技术的滥用所带来的潜在危害。」

去年 1 月，谷歌宣布发布一个合成语音数据集，以支持开发高性能合成音频检测器的国际挑战赛。作为该挑战赛的一部分，该数据集只供给共计有超过 150 个研究机构和工业组织进行下载；而从此刻刻起，数据集开始免费向公众开发。

Deepfake 视频检测数据集介绍

谷歌现在开始与 Jigsaw 合作，并发布了一个自制的大型可视化数据集，该数据集已被纳入 Face Forensics 视频基准测试。这一基准测试是德国慕尼黑工业大学和意大利那不勒斯腓特烈二世大学开发的图像测试。将这些数据纳入 Face Forensics 视频基准的是由包括 Matthias Niessner 教授、Luisa Verdriva 教授和 Face Forensics 团队在内的主要研究人员合作进行开发。

与假视频死磕到底！谷歌 AI 开源 Deepfake 检测数据集，3000+ 真人亲身上阵

谷歌对 Face Forensics 基准测试贡献的视频样本。为了生成这些样本，研究者随机选择了几对演员，并利用深层神经网络将一个演员的脸交换到另一个演员的头上，详细地址：https://www.youtube.com/watch?v=x2g48Q2I2ZQ

为了制作这个数据集，在过去的一年里，谷歌与众多演员合作录制了数百段视频；并使用公开的 deepfake 生成方法，从这些视频中创建了数千个 Deepfake 假视频。

这些由真实视频和虚假视频组成的数据集组成了可用于 Deepfake 检测和识别的素材。作为 Face Forensics 基准测试的一部分，该数据集现在已经免费提供给研究社区，研究者可以用来开发合成视频检测的方法。

与假视频死磕到底！谷歌 AI 开源 Deepfake 检测数据集，3000+ 真人亲身上阵

演员在各种场景下拍摄的视频。图片中上图为真实视频下图为生成的 deepfake 视频，两者之间可能存在或微妙或剧烈的变化，这取决于拍摄演员本身

Face Forensics++与 Deepfake 检测数据集

Face Forensics++是一个由 1000 个原始视频序列组成的检测数据集，这些视频序列通过四种自动面部操作方法进行操作，即 deepfakes、face 2 face、faceswap 和 Neural Textures。这些数据来源于 977 个 YouTube 视频，所有视频都包含一个可追踪的大部分正面，没有遮挡，这使得自动篡改方法能够生成真实的伪造。

由于该方法提供了二进制掩码，因此这一数据集可以用于图像和视频分类以及分割。此外，Face Forensics++还提供 1000 个 deepfakes 模型来生成和扩充新数据。有关更多信息，请参阅我们最新的文件。（https://arxiv.org/abs/1901.08971）

新版本改进内容包括

Deepfake 检测数据集——加入了谷歌与 Jigsaw 发布的 Deepfake 检测数据集
数据集下载地址：https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html
Neural Textures——加入了使用 GANs 和 Neural Textures 进行面部操作的方法
论文地址：https://arxiv.org/pdf/1904.12356.pdf