0
本文作者: 杨文 | 编辑:杨晓凡 | 2018-02-03 22:06 | 专题:ICLR 2018 |
雷锋网 AI 科技评论:这是一名 MIT CS 在读博士生在推特上引发的争论。
谷歌大脑负责人 Jeff Dean 日前在推特上转了一篇名字为 Anish Athalye 的推文,立刻引起了整个机器学习学术圈的关注,被誉为「GANs 之父」的 Ian Goodfellow 也接连跟帖回复。
到底是什么言论惊动了众多 AI 界大牛,我们先来看看这篇推文:
防御对抗样本仍然是一个尚未解决的问题,三天前公布的 ICLR 接收论文里,八篇关于防御论文里已经有七篇被我们攻破。(只有「aleks_madry」等人的论文中提到的方法在攻击中准确率保持了 47%,没有被攻破)
Anish Athalye 也贴出了自己的 GitHub 地址,https://github.com/anishathalye/obfuscated-gradients ,其中有详细的说明。
雷锋网发现在他的 GitHub 中展示了一个对抗样本的例子,对一只猫的图像加入轻微的干扰就可以使分类器 Inceptionv3 判别错误,将猫头像错认为为「果酱」。他称这样的「欺骗性图像」很容易使用梯度下降法生成。
根据 GitHub 中的介绍,Anish Athalye 等人近期的论文《Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples》(https://arxiv.org/abs/1802.00420 )研究了 ICLR 2018 收录的八篇关于防御的论文中的防御对抗样本的鲁棒性,发现其中有七种防御鲁棒性都很有限,可以通过改进的攻击技术攻破。
下面是论文中的一个表格,展示了多种对抗性样本防御方法在攻击下的鲁棒性。(加 * 表示的这些防御方法建议结合对抗性训练使用)
根据 Anish Athalye 等人的研究,八篇论文中唯一一篇显著提高对抗样本防御的鲁棒性的论文是:《Towards Deep Learning Models Resistant to Adversarial Attacks》(即上述表格中的准确率 47% 那篇)。除了使用威胁模型以外,没有办法攻破这种防御。即便如此,这种防御方法也是难以扩展到 ImageNet 规模的。其余的七篇论文无论是有意还是无意都在依赖于「混淆梯度」。一般的攻击利用梯度下降法使给定图像网络损失最大化,从而在神经网路上产生对抗样本,这种优化方法需要有用的梯度信号才能成功。基于混淆梯度的防御会破坏这种梯度信号,并导致优化方法失效。
Anish Athalye 等人定义了三种基于混淆梯度的防御方式,并构建了绕过每一种攻击的方法。新的攻击方法适用于任何有意的、无意的、包括不可微分操作或以其他方式防止梯度信号流经网络的任何防御。研究员们希望用此方法进行更彻底的安全评估。
《Towards Deep Learning Models Resistant to Adversarial Attacks》
论文摘要
我们意识到「混淆梯度」给防御对抗样本带来的是一种虚假的安全感现象,尽管基于混淆梯度的防御可以打败基于优化的攻击,但我们发现依靠这种效果的防御仍然可以被攻破。
对于我们发现的三种混淆梯度类型中的每一种,我们都会描述展示这种效果的防御指标,并开发攻击技术来攻破它。在样本研究中,我们试验了 ICLR 2018 接收的所有防御措施。我们发现混淆梯度是常见现象,其中 8 个防御中的 7 个依靠混淆梯度。使用我们新的攻击技术,成功攻破了 7 个。
Jeff Dean 转发后,很快引起了整个机器学习学术圈的注意。难道这是在质疑 ICLR 2018 收录的论文质量很水吗?由于 Anish 的表态主要是针对对抗性样本的防御问题,很快便吸引了 GANs 的发明者、以及长期研究对抗性样本的 Ian Goodfellow 围观,并在推特评论区接连跟帖回应。
Goodfellow 回应称,ICLR 2018实际上至少收录有11篇关于防御的论文,其他三篇没有提到,却说只有Madry一篇中提到的方法没有被攻破,这是不公平的。
Goodfellow:ICRL 实际上至少有 11 篇防御论文,而不是 8 篇。(另外三篇里,)实际上有 2 篇已被证明可防御,还有 1 篇他们没有研究。他们(论文的作者)应该说「所有未经认证的白盒防御」而不是「全部防御」。
另外,Goodfellow 认为这篇论文中提出的「混淆梯度」简直就像是给「梯度掩码」换了个名字而已。为了让大家对「梯度掩码」的概念更加了解,Goodfellow 还推荐了相关文献。
与此同时,Goodfellow 还丢出了一篇 ICLR 2018 论文(Goodfellow 是作者之一),称已经专门解决了梯度解码的问题了。论文题目: Ensemble Adversarial Training: Attacks and Defenses
论文地址:https://arxiv.org/pdf/1705.07204.pdf
不过这一观点截至目前暂未被发出这条震惊学术圈推文的 Anish Athalye 所承认。
雷锋网报道
雷峰网原创文章,未经授权禁止转载。详情见转载须知。