DeepMind 发布 VQVAE-2，图片生成效果超越 BigGAN

本文作者： skura

2019-06-12 10:46

导语：相关的论文已被 ICLR2019 接收为 oral 论文

雷锋网 AI 科技评论按，近日，DeepMind 的研究人员宣布，VQVAE-2 问世了！

VQ-VAE 是 Vector Quantised-Variational Auto Encoder 的简写，此次的 VQ-VAE2 是 DeepMind 基于第一代 VQ-VAE 研究出来的改进模型。相关的论文已被 ICLR2019 接收为口头报告论文，DeepMind 研究员 Suman Ravuri 做了精彩的现场演讲。

论文 ARIXV 链接：http://arxiv.org/abs/1906.00446

论文摘要如下：

DeepMind 发布 VQVAE-2，图片生成效果超越 BigGAN

我们探讨了矢量量化变分自动编码（VQ-VAE）模型在大规模图像生成中的应用。为此，我们对VQ-VAE 中使用的自回归先验进行了缩放和增强，目的是生成比以前具有更高相关度和保真度的合成样本。我们使用简单的前馈编解码器网络，这让我们的模型对于编码\解码速度至关重要的应用非常有用。此外，VQ-VAE 仅仅只需要在压缩潜在空间中对自回归模型进行采样，这比在像素空间中的采样在速度上快一个数量级，对于大型图像尤其如此。我们证明了一个 VQ-VAE 的多尺度层次组织，加上强大的先验潜在代码，能够在多种数据集（如 ImageNet）上生成质量与最先进的生成对抗网络相媲美的样本，同时不受 GAN 的已知缺点，如模式崩溃、多样性的缺乏等的影响。

DeepMindAI 的这一研究表明，当用于训练分类器（数据增强）时，GAN 生成在看起来真实的样本的能力有限。初始分数与分类表现呈负相关。

论文的三位作者之一，DeepMind 的研究人员 Aaron van den Oord 在 twitter 上表示，这是一个在分层压缩潜在空间中的强大自回归模型，在创建示例时，任何模式中都没有遇到崩溃问题。

更多示例和细节如下：

DeepMind 发布 VQVAE-2，图片生成效果超越 BigGAN