新智元报道  

来源:Reddit、Distill
编辑:大明
【新智元导读】5月初,MIT的一篇论文提出。对抗样本不是bug,而是有用的特征,引发热议。三个月以来,有学者该文中的观点提出了不同意见,对抗样本到底是bug还是特征?有网站专门组织了一场大讨论,原论文作者也参加了,双方有来有回,一起来看看吧。
5月6日,MIT的Andrew Ilyas团队发表了一篇论文,题为《对抗样本不是Bug, 而是特征。文中概述了两组实验。首先,他们表明,在对抗性实例上训练的模型可以应用到实际数据上,其次,在源自高鲁棒性神经网络表示的数据集上训练的模型,似乎继承了这些数据集非平凡的鲁棒性。
他们对这一结论提出了一个有趣的解释:对抗性实例是由于“非鲁棒特征”,这些特征具有高度可预测性,但对人类来说难以察觉。
新智元曾对这篇论文做过专门报道,详见:
这篇论文引起了全世界社交媒体上的热议,各地社群和研究小组中都引发了兴趣浓厚的讨论。该如何解释这些实验?这些实验是可复现的吗?如果确实存在非鲁棒性的特征......那么都有哪些特征?
大讨论:对抗样本到底是不是bug?
为了探索这些问题,Distill上开展了一个实验性的“讨论”,邀请了一些研究人员在论文上撰写评论,并组织了原作者的讨论和回应。
机器学习社区有时担心同行评议不够彻底。但此次讨论参与的积极性非常高。一些人花了几个星期的时间来复现结果,进行新的实验,并深入思考原来的论文。还有人在实验时随时更新着对非鲁棒特征观点,有时还会进行讨论。此文的原作者也深入地讨论了实验结果,澄清了误解,甚至在回应他人的评论时进行了新实验。
这种深度的参与和讨论非常令人兴奋,希望将来能够尝试更多此类形式的讨论。
讨论内容主要围绕以下几个主题:
对原文内容的澄清:参与讨论和原论文作者之间的讨论中可能表现出一些误解,借此机会能够各自明确自己的观点。
成功的实验再现:有些讨论者成功复现了Ilyas团队的许多实验。这与论文原作者发布代码,模型和数据集是分不开的。Gabriel Goh和Preetum Nakkiran都独立地重新实现并复制了非鲁棒数据集的实验。Preetum还通过已发布的鲁棒数据集上训练了模型,发现模型结构其实非常简单,从而复现了部分鲁棒的数据集实验。而且,Preetum和Gabriel最初都对此持怀疑态度。Preetum表示,他尝试的许多模型变体和超参数都是高鲁棒性的。
探索非鲁棒性“转移”的边界条件:其中一些讨论重点放在了“非鲁棒数据集”实验的变体上,这些实验将训练的对抗样本非鲁棒性转移到了实际数据上。这种转移是何时发生的,为何会发生?Gabriel Goh探索了出另一种机制,Preetum Nakkiran则展示了一种不会发生这种转移的特殊结构。Eric Wallace表明,对于其他类型的错误标记数据,很可能会发生这种转移。
鲁棒和非鲁棒特征的属性:Gabriel Goh探讨了线性模型中出现非鲁棒特征的可能性,Dan Hendrycks和Justin Gilmer讨论了实验结果与更广泛的鲁棒性的分布和转移问题相关联的问题。Reiichiro Nakano探讨了鲁棒模型的定性差异等。
讨论话题和作者回应节选
论文原作者积极参与了这次讨论,并针对讨论中提出的多种观点和问题给出了回复。以下节选几例:
对抗样本研究人员应该扩展“鲁棒”的含义
Justin和Dan讨论了“非鲁棒特征”模型不具备鲁棒性的特殊情况,因为这些特征依赖于肤浅的相关性,这种观点经常出现在分布鲁棒性文献中。他们还讨论了神经网络在频率空间中的最新行为分析。他们强调,我们应该对鲁棒性的概念进行更广泛的扩展。
原作者回复:
仅从数据中高频出现的要素进行学习的模型,是一个有趣的发现,这一发现为我们提供了另一种视角,我们的模型可以从对人类“毫无意义”的数据中进行学习。我们完全同意这一观点,即研究更广泛的鲁棒性概念,在机器学习研究中将变得越来越重要,并有助于我们更好地掌握希望模型依赖的那些特征。
存在非鲁棒、但有用的样本
Gabriel探讨了线性模型中非鲁棒但有用的特征。他提供了两种结构:一种是“受污染”的特征,由于混合了无用的特征,是非鲁棒的,而“集合”特征可能是真正有用的非鲁棒特征。
原作者回复:
这些线性模型实验,是实现真实数据集非鲁棒特征可视化的第一步(即对它们的存在性的一种巧妙的证实)。此外,“受污染”的非鲁棒特征的理论架构,为开发更精细的特征定义提供了一个有趣的方向。
对抗样本就是Bug
Preetum构建了一系列对抗样本,这些样本没有转移到真实数据中,这表明一些对抗样本是原始论文框架中的一些“错误”。Preetum还证明,即使底层分布没有“非鲁棒特征”,也会出现对抗样本。
原作者回复:
应该细致考察对抗样本。基于构造的“bug”的对抗样本不会转移的事实,是“可转移性”和“非鲁棒特征”之间的存在联系的另一个证据。
从错误标记的数据中学习
Eric表示,对模型的训练错误进行训练,或者如何预测示例形成不相关的数据集,可以转移到真实的测试集。这些实验类似于原始论文的非鲁棒转移结果。- 所有三个结果都是“从不正确标记的数据中学习”的例子。
原作者回复:
这些实验创造性地证明了这样一个事实,即“人类毫无意义”数据的学习特征的潜在现象实际上可以在广泛的环境中出现。
原论文地址:
https://arxiv.org/pdf/1905.02175.pdf
讨论内容链接:
https://distill.pub/2019/advex-bugs-discussion/
继续阅读
阅读原文