Ian Goodfellow 谈 GANs 论文评审：有这些迹象的论文要怀疑

本文作者：杨晓凡

编辑：郭奕欣

2018-03-28 10:06

导语：「基准模型总是在别人的论文里表现比较好」

雷锋网 AI 科技评论按：谷歌大脑研究员、「GANs」之父、《Deep Learning》课本作者之一的 Ian Goodfellow 自上次的线上直播里回答了网友们提出的种种问题之后，昨天也在 Twitter 上发表了很多关于 GANs 论文评审、GANs 研究现状的想法。作为一直以来投入了大量精力在 GANs 上的研究者，以及作为参与了许多论文评审的审稿人， Ian Goodfellow 自然为 GANs 的进步感到开心，但他现在也同样对领域内的现状有诸多忧虑。雷锋网 AI 科技评论把相关内容整理如下。

「越是好论文，越是资深审稿人在看」

我想谈谈学术会议的论文评审的事。最近我看到很多人讲「很明显，好的论文都给资深审稿人看了」，或者「要记得去占论文，不然分给你的都是质量不高的论文」这样的话。既然我现在也算是资深审稿人了，我想很多人应该愿意听到我说这句话：我自己不会主动要求去审那些明显的好论文。

审稿人希望审哪些论文可能会出于各种各样的目标。每个审稿人都应该想好自己的目标，并且了解一些其它审稿人可能会抱有的目标。我参与论文评审一般有两个目标：1，确保论文的质量足够高；2，减少我自己作为审稿人的工作量。基于我的这两个目标，我希望评审的论文多数时候都是可能需要拒掉的，但其它的审稿人不一定能看出来其中的原因。有一些非常忙的审稿人甚至会要求只看那些明显质量很糟糕的论文，就是为了尽量减轻自己的工作量。

审稿人们其它可能的目标还包括：比一般大众更早地看到有意思的研究（不过现在论文都传 arXiv 了，这样的人就没那么多了）、确保好的研究成果不会被拒、审阅他们自己做过深入研究的某几个课题下的论文，等等。当然也有一些审稿人的做法很消极、很自私。比如，审稿人和某篇论文的作者有私人恩怨，那他就可能会要求审这篇论文，以便给它打个低分。现在大量论文都会先传到 arXiv 上，论文投稿的匿名性大打折扣，这种事情也就变得常见了。

不过也有一件需要说明的是，审稿人抢占论文的作用不一定有你想象的那么明显。区域主席一般都会把审稿人列表手动整理到比较高的水平上。起码我自己做区域主席的时候确实这样做了。自动审稿人分配系统经常需要忽略很多指定审稿的要求，以保证每一篇论文都会有人审。我自己就确实遇到过这样的情况，之前已经选了「不想审」的文章结果还是分配给我了，我的好几个朋友也跟我讲他们也遇到过。

如果我做区域主席的话，基本可以肯定我会给每篇论文分一个在那个课题上称得上绝对专家的审稿人，有必要的时候我甚至会邀请新的审稿人加入。比如我就经常从安全社区邀请审稿人来看机器学习安全性的论文。

如何评审对 GANs 做出通用改进的论文

对于 GANs 工作原理的理论和实证研究论文都已经有很多，关于如何把 GANs 用在一些有意思的或者奇怪的新任务的论文也有很多（比如第一篇用 GANs 做无监督翻译的），还有很多研究模型的评价指标的。我没打算谈这些。也有很多论文把 GANs 作为一个大系统当中的一部分，比如用 GANs 做半监督学习、差分隐私、数据增强等等。这些也不是我想谈的——这都需要在那个所在的大系统的应用领域中进行评价。

我下面想聊的是能够普遍地让 GANs 的训练变得更稳定，或者能让 GANs 产生更好的样本等等的改进 GANs 表现的新方法。我首先推荐 GANs 论文的审稿人都应该读一读《Are GANs Created Equal》（https://arxiv.org/abs/1711.10337）这篇论文，它解释了为什么这个领域的实证研究非常难做，要做的话如何才能做对。另一篇很适合阅读的背景知识论文是《A Note on the Evaluation of Generative Models》（https://arxiv.org/abs/1511.01844），它解释了为什么有的模型可以同时具有很棒的样本和很糟糕的似然，又或者同时有很糟糕的样本和很高的似然，以及其它生成式模型会遇到的评价指标方面的问题。

GANs 的论文写作有一大难点，就是如何有新颖性。现在大家已经提出了许许多多的 GANs 改进模型，很难把它们全都追踪到，很难弄清自己的一个新的想法是不是真的以前没有人做过。最好尝试在谷歌上把它的四五种不同的叫法都搜搜试试，看看会不会有人已经提过了。已经有人把各种 GANs 的变体总结出了资源，可以到这个 GAN ZOO 看看（https://github.com/hindupuravinash/the-gan-zoo）。即便论文里提出的新方法不是全新的，它可能还是有一些价值的，但是审稿人应当确保论文作者充分了解之前的研究中的内容。

评价指标发展到现在，Frechet Inception Distance（或者它的类别内版本）大概是现有方法里衡量通用的 GANs 表现最好的一种方法了。对于 ImageNet 之外的数据集，定义距离的时候用模型而不是 Inception 是很合理的做法。有一些研究特殊情况的论文可能也会包括其它的一些评价指标（比如带有 real NVP（real-valued non-volume preserving，无体积真值保留）的 GANs 可以报告准确的似然），但是如果一篇论文里没有包括 Frechet Inception Distance，那么我就很想了解一下这是为什么了。

有很多论文希望读者多观察生成的样本，并以此为主要依据形成论文所提方法的印象。这通常是一个不好的信号。以我的了解，有的领域的问题用以往的方法从来没有解决过，然后 GANs 带来了明显的提升、能生成样本了，这才是通过样本展示方法效果这种做法主要适合的地方。比如说，用单个 GANs 模型生成 ImageNet 中各种内容不同的图像曾经很难做，许多论文尝试解决这个问题但结果基本都是失败的。SN-GAN 成功地为所有类别都生成了可以辨认的样本，那么从这一点就可以看到 SN-GAN 是一项重大改进。（虽然这种提升也可能是所提的方法之外的因素带来的，比如新的、更大的架构等等）

相比之下，很多论文中展示了来自 CIFAR-10 或者 CelebA 数据集生成的样本，然后希望审稿人被这些样本折服。对于这样的情况，我作为审稿人其实根本不清楚他们希望我在其中找到哪些亮点。这都是一些已经基本得到解决的任务，那我也基本就对这些论文失去了兴趣。同时，对于一些有某种小缺陷的图像，和其它定性地有另一种小缺陷的图像之间，我也不知道应该如何排序，也许这种时候掷骰子或者画十字格可能会更合适一点？出于这些原因我一般不会把来自 CelebA 和 CIFAR-10 等等的生成样本当一回事，它们也就只能佐证一下这个方法没有大的纰漏而已。

对于任何一个实现了自己的模型作为基准模型的人，审稿人都应当很小心。有很多细小的改动都可以让深度学习算法出问题，而论文作者也有充分的动机不去仔细检查自己的基准模型。一般来说，各个基准模型里至少要有一个是在别的论文中展示过的，因为那一篇论文的作者会有一些主动性得到好的结果。这样做的话，对模型的评价起码不会过于自私。

审稿人也应当检查一下实现了一样的模型、做了一样的任务的其它论文，其中都分别得到了什么分数。引用一篇论文，但是展示的图像/分数比原论文实际写的要差，很多人都在这样做。当然了，其它研究领域内也有这种故意打压别人的基准模型的做法，但是我觉得在 GANs 的论文中这种情况尤为严重。

有一些情况下，一篇论文研究的是一个全新的任务，或者是以前别人研究过的任务的某个罕有关注的方面，作者可能会有必要自己实现一个基准模型。在这种情况下，我觉得这篇论文可能需要花差不多一半的篇幅论证自己的基准模型是正确的才比较合适。

所有超参数的取值都来自哪里也非常重要，一定要解释。经常发生的情况是，新提出的方法之所以有更好的表现，真正的原因其实是作者花了更多时间、想了各种办法为新方法优化超参数。

许多深度学习算法，尤其是 GANs 和强化学习，每一次运行得到的结果都会有非常大的区别。论文里展示结果的时候，对于同样的超参数应当至少展示三次运行得到的结果，才能对结果的随机性有个初步的感受。有很多论文，从结果看来似乎是有所改进，但其实就是从新方法的结果里挑出比较好的，然后从老方法的结果里挑出比较差的，最后再放在一起比而已。即便有一些不能明显看出在挑选结果的论文，通常在报告学习率曲线的时候也是用一根线表示新方法，一根线表示老方法，然后这两根线之前的区别并不大。对于这样的情况，我敢说同一个方法跑两次的结果都会大相径庭。

对于解释超参数是如何优化的，说明选择这样的超参数是为了优化最大值、最小值、还是多次运行之后的平均值非常重要。还有一件需要注意的是，针对某种好的方法写出一篇糟糕的论文是完全有可能的。有时候我们看到一篇论文里提出的新方法有很好的表现，但同时文中还有很多想法是没有科学的依据的。后面这样的做法审稿人应当尝试驳回。

如果你是区域主席，我非常希望你可以对审稿人-论文之间的匹配做一些仔细的调节。我觉得这世界上没有哪个人完全懂得 GANs 的方方面面。举例说明，如果你拿到了一篇论文，内容是带有编码器的 GANs，那你应该试着找写过 ALI、BiGAN、alpha-GAN、AVB 论文的作者来看这篇论文。即便是我，对于 GANs 下面的许多子课题的了解也是非常有限、无能为力。

如果你审的论文是关于模式崩溃的，然后论文作者认为模式崩溃意味着模型记住了训练样本的一个子集的话，你需要有所怀疑。模式崩溃的实际状况要邪门得多。比如，模式崩溃得到的结果经常是一些奇怪的垃圾点，而且和实际数据一点都不像。在训练过程中这样的点还会在空间中来回移动。模式崩溃也有一种表现是对图像中某种纹理或者背景的重复，其中有一些细微的改变，但对的情况在人眼看来应当有很大的变化。

今天讲给大家的思考题就这么多吧。对于各位 GANs 论文的审稿人来说，你们也可以考虑下给别人提出的意见在自己身上是不是适用。

（完）

via Twitter @goodfellow_ian，雷锋网 AI 科技评论编译

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

3人收藏

杨晓凡

读论文为生

日常笑点滴，学术死脑筋

发私信

当月热门文章