MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

本文作者：杨文

编辑：杨晓凡

2018-02-03 22:06

专题：ICLR 2018

导语：关于一名MIT CS在读博士生在推特上引发的争论.

雷锋网 AI 科技评论：这是一名 MIT CS 在读博士生在推特上引发的争论。

谷歌大脑负责人 Jeff Dean 日前在推特上转了一篇名字为 Anish Athalye 的推文，立刻引起了整个机器学习学术圈的关注，被誉为「GANs 之父」的 Ian Goodfellow 也接连跟帖回复。

Anish Athalye：我们研究了 ICLR 论文，结果并不令人满意

到底是什么言论惊动了众多 AI 界大牛，我们先来看看这篇推文：

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

防御对抗样本仍然是一个尚未解决的问题，三天前公布的 ICLR 接收论文里，八篇关于防御论文里已经有七篇被我们攻破。（只有「aleks_madry」等人的论文中提到的方法在攻击中准确率保持了 47%，没有被攻破）

Anish Athalye 也贴出了自己的 GitHub 地址，https://github.com/anishathalye/obfuscated-gradients ，其中有详细的说明。

雷锋网发现在他的 GitHub 中展示了一个对抗样本的例子，对一只猫的图像加入轻微的干扰就可以使分类器 Inceptionv3 判别错误，将猫头像错认为为「果酱」。他称这样的「欺骗性图像」很容易使用梯度下降法生成。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

根据 GitHub 中的介绍，Anish Athalye 等人近期的论文《Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples》（https://arxiv.org/abs/1802.00420 ）研究了 ICLR 2018 收录的八篇关于防御的论文中的防御对抗样本的鲁棒性，发现其中有七种防御鲁棒性都很有限，可以通过改进的攻击技术攻破。

下面是论文中的一个表格，展示了多种对抗性样本防御方法在攻击下的鲁棒性。（加 * 表示的这些防御方法建议结合对抗性训练使用）

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

根据 Anish Athalye 等人的研究，八篇论文中唯一一篇显著提高对抗样本防御的鲁棒性的论文是：《Towards Deep Learning Models Resistant to Adversarial Attacks》(即上述表格中的准确率 47% 那篇）。除了使用威胁模型以外，没有办法攻破这种防御。即便如此，这种防御方法也是难以扩展到 ImageNet 规模的。其余的七篇论文无论是有意还是无意都在依赖于「混淆梯度」。一般的攻击利用梯度下降法使给定图像网络损失最大化，从而在神经网路上产生对抗样本，这种优化方法需要有用的梯度信号才能成功。基于混淆梯度的防御会破坏这种梯度信号，并导致优化方法失效。

Anish Athalye 等人定义了三种基于混淆梯度的防御方式，并构建了绕过每一种攻击的方法。新的攻击方法适用于任何有意的、无意的、包括不可微分操作或以其他方式防止梯度信号流经网络的任何防御。研究员们希望用此方法进行更彻底的安全评估。

《Towards Deep Learning Models Resistant to Adversarial Attacks》
论文摘要
我们意识到「混淆梯度」给防御对抗样本带来的是一种虚假的安全感现象，尽管基于混淆梯度的防御可以打败基于优化的攻击，但我们发现依靠这种效果的防御仍然可以被攻破。
对于我们发现的三种混淆梯度类型中的每一种，我们都会描述展示这种效果的防御指标，并开发攻击技术来攻破它。在样本研究中，我们试验了 ICLR 2018 接收的所有防御措施。我们发现混淆梯度是常见现象，其中 8 个防御中的 7 个依靠混淆梯度。使用我们新的攻击技术，成功攻破了 7 个。
论文地址：https://arxiv.org/abs/1802.00420

Ian Goodfellow：你们其实只研究了一部分论文

Jeff Dean 转发后，很快引起了整个机器学习学术圈的注意。难道这是在质疑 ICLR 2018 收录的论文质量很水吗？由于 Anish 的表态主要是针对对抗性样本的防御问题，很快便吸引了 GANs 的发明者、以及长期研究对抗性样本的 Ian Goodfellow 围观，并在推特评论区接连跟帖回应。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应