©作者 | 陈思哲
单位 | 上海交通大学
研究方向 | 神经网络对抗鲁棒性
上海交通大学自动化系图像处理与模式识别研究所黄晓霖副教授团队,与鲁汶大学、加州大学圣克鲁兹分校的研究者合作,关注真实场景的防御,提出主动对攻击者实施攻击,在保证用户正常使用模型(无精度/速度损失)的同时,有效阻止黑盒攻击者通过查询模型输出生成对抗样本。经 Rebuttal 极限提分(2445->7747),该研究已被机器学习顶级会议 NeurIPS 2022 录用,代码已开源
论文题目:
Adversarial Attack on Attackers: Post-Process to Mitigate Black-Box Score-Based Query Attacks
论文链接:
https://arxiv.org/abs/2205.12134
代码链接:
https://github.com/Sizhe-Chen/AAA
Video:
https://recorder-v3.slideslive.com/?share=71478&s=8fd8ef17-b472-4639-a18c-1232c5b9fc12

研究背景

基于查询分数的攻击(score-based query attacks, SQAs)极大增加了真实场景中的对抗风险,因为其仅需数十次查询模型输出概率,即可生成有效的对抗样本。 
然而,现有针对 worst-case 扰动的防御,并不适用于真实场景中,因为他们通过预处理输入或更改模型,显著降低了模型的推理精度/速度,影响正常用户使用模型。
因此,本文考虑通过后处理来防御,其自带以下优点:
  • 有效防御基于查询分数的攻击
  • 不影响模型精度,甚至还能使模型的置信度更加准确
  • 是一种轻量化,即插即用的方法 
可是在真实的黑盒场景中,攻击者和用户得到的,是相同的模型输出信息,如何在服务用户的同时,防御潜在攻击者?

本文方法

我们的核心思路是,测试阶段,主动误导攻击者进入错误的攻击方向,也就是对攻击者发动攻击(adversarial attack on attackers, AAA)。如下图所示,若我们将模型的(未经防御的)蓝色损失函数曲线,轻微扰动至橙色或绿色的曲线,那么当攻击者贪婪地沿梯度下降方向搜索对抗样本时,将会被愚弄至错误的攻击方向。
具体的,我们的算法分为 4 步,对应上图中的 4 行:
1. 计算未经修改的原损失函数值,也就是上图中的蓝色曲线;
2. 根据原损失函数值,计算出目标损失函数值,即橙色或绿色曲线;
3. 根据预先标定的温度 T,计算出目标置信度
4. 优化输出的 logits,使其同时拥有目标损失函数值目标置信度

实验结果

如下左图所示,对比蓝线和橙线,我们的方法 AAA,最小程度地扰动输出,却最大限度保留精度(Acc ↑),提升置信度的准确度(expected calibration error, ECE ↓)。如右图和下表所示,AAA相比现有方法,能有效地防止真实场景攻击下的精度损失
同时,AAA 能简单地与现有防御结合,如对抗训练。
AAA 是极其轻量化的防御,因为后处理操作的计算量很小,如下图所示。
尽管攻击者可以对 AAA 设计自适应攻击(adaptive attacks),但在真实场景中,自适应攻击的成本非常高。因为黑盒场景下,攻击者完全没有模型的信息,更不用说其防御策略了。探索模型防御策略以设计自适应攻击,需要大量额外的查询。
更重要的是,自适应攻击者也很好愚弄,比如使用正弦类的目标损失函数曲线以迷惑攻击者,因为其策略更难被猜测。如下表所示,反向搜索和双向搜索的自适应攻击,都可以被 AAA-sine 很好的防御。

总结

我们指出在真实场景下,一个简单的后处理模块,就可以形成有效,用户友好,即插即用的防御。为了专门防御基于查询分数的攻击,我们设计了对攻击者的攻击,通过细微的输出扰动干扰攻击者。广泛的实验表明我们的方法在抵御攻击,精度,置信度准确度,速度上,显著优于现有防御。 
值得注意的是,抵御其他类型的攻击并非本文关注的重点。我们的方法并不提升worst-case robustness,故不能防御白盒攻击。我们也几乎不改变模型决策边界,故不能防御迁移攻击和基于决策的查询攻击(decision-based query attacks)。
关于作者
论文一作陈思哲(左一)是上海交通大学自动化系的三年级硕士生,研究方向为神经网络的对抗鲁棒性,导师为黄晓霖副教授。他曾在TPAMI, NeurIPS, CVPR等期刊/会议发表论文7篇,担任TPAMI, ECCV, PR等期刊/会议审稿人。他曾获上海交通大学优异学士学位论文(1%),两次获评国家奖学金,并曾在腾讯朱雀实验室实习。
个人主页:
https://sizhechen.top 
论文通讯作者黄晓霖博士(右一)是上海交通大学的长聘教轨副教授,研究方向为机器学习,优化理论及其应用。他曾在Nature Reviews Methods Primers, JMLR, TPAMI, NeurIPS, CVPR等期刊/会议发表论文百余篇,担任TPAMI, TAC, TSP, TNNLS, NeurIPS, ICML, ICLR, CVPR等期刊/会议审稿人。他曾获青年千人,德国“洪堡学者”。他在清华大学获得博士学位,并在鲁汶大学完成博士后研究。
个人主页:
http://www.pami.sjtu.edu.cn/xiaoli
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
继续阅读
阅读原文