NeurIPS 2022 | 对攻击者的攻击：一种真实场景下的防御（Rebuttal极限提分）

©作者 | 陈思哲

单位 | 上海交通大学

研究方向 | 神经网络对抗鲁棒性

上海交通大学自动化系图像处理与模式识别研究所黄晓霖副教授团队，与鲁汶大学、加州大学圣克鲁兹分校的研究者合作，关注真实场景的防御，提出主动对攻击者实施攻击，在保证用户正常使用模型（无精度/速度损失）的同时，有效阻止黑盒攻击者通过查询模型输出生成对抗样本。经 Rebuttal 极限提分（2445->7747），该研究已被机器学习顶级会议 NeurIPS 2022 录用，代码已开源。

论文题目：

Adversarial Attack on Attackers: Post-Process to Mitigate Black-Box Score-Based Query Attacks

论文链接：

https://arxiv.org/abs/2205.12134

代码链接：

https://github.com/Sizhe-Chen/AAA

Video:

https://recorder-v3.slideslive.com/?share=71478&s=8fd8ef17-b472-4639-a18c-1232c5b9fc12

研究背景

基于查询分数的攻击（score-based query attacks, SQAs）极大增加了真实场景中的对抗风险，因为其仅需数十次查询模型输出概率，即可生成有效的对抗样本。

然而，现有针对 worst-case 扰动的防御，并不适用于真实场景中，因为他们通过预处理输入或更改模型，显著降低了模型的推理精度/速度，影响正常用户使用模型。

因此，本文考虑通过后处理来防御，其自带以下优点：

有效防御基于查询分数的攻击
不影响模型精度，甚至还能使模型的置信度更加准确
是一种轻量化，即插即用的方法

可是在真实的黑盒场景中，攻击者和用户得到的，是相同的模型输出信息，如何在服务用户的同时，防御潜在攻击者？

本文方法

我们的核心思路是，测试阶段，主动误导攻击者进入错误的攻击方向，也就是对攻击者发动攻击（adversarial attack on attackers, AAA）。如下图所示，若我们将模型的（未经防御的）蓝色损失函数曲线，轻微扰动至橙色或绿色的曲线，那么当攻击者贪婪地沿梯度下降方向搜索对抗样本时，将会被愚弄至错误的攻击方向。

具体的，我们的算法分为 4 步，对应上图中的 4 行：

1. 计算未经修改的原损失函数值，也就是上图中的蓝色曲线；

2. 根据原损失函数值，计算出目标损失函数值，即橙色或绿色曲线；

3. 根据预先标定的温度 T，计算出目标置信度；

4. 优化输出的 logits，使其同时拥有目标损失函数值和目标置信度。

实验结果

如下左图所示，对比蓝线和橙线，我们的方法 AAA，最小程度地扰动输出，却最大限度保留精度（Acc ↑），提升置信度的准确度（expected calibration error, ECE ↓）。如右图和下表所示，AAA相比现有方法，能有效地防止真实场景攻击下的精度损失。

同时，AAA 能简单地与现有防御结合，如对抗训练。

AAA 是极其轻量化的防御，因为后处理操作的计算量很小，如下图所示。

尽管攻击者可以对 AAA 设计自适应攻击（adaptive attacks），但在真实场景中，自适应攻击的成本非常高。因为黑盒场景下，攻击者完全没有模型的信息，更不用说其防御策略了。探索模型防御策略以设计自适应攻击，需要大量额外的查询。

更重要的是，自适应攻击者也很好愚弄，比如使用正弦类的目标损失函数曲线以迷惑攻击者，因为其策略更难被猜测。如下表所示，反向搜索和双向搜索的自适应攻击，都可以被 AAA-sine 很好的防御。

总结

我们指出在真实场景下，一个简单的后处理模块，就可以形成有效，用户友好，即插即用的防御。为了专门防御基于查询分数的攻击，我们设计了对攻击者的攻击，通过细微的输出扰动干扰攻击者。广泛的实验表明我们的方法在抵御攻击，精度，置信度准确度，速度上，显著优于现有防御。

值得注意的是，抵御其他类型的攻击并非本文关注的重点。我们的方法并不提升worst-case robustness，故不能防御白盒攻击。我们也几乎不改变模型决策边界，故不能防御迁移攻击和基于决策的查询攻击（decision-based query attacks）。

关于作者

论文一作陈思哲（左一）是上海交通大学自动化系的三年级硕士生，研究方向为神经网络的对抗鲁棒性，导师为黄晓霖副教授。他曾在TPAMI, NeurIPS, CVPR等期刊/会议发表论文7篇，担任TPAMI, ECCV, PR等期刊/会议审稿人。他曾获上海交通大学优异学士学位论文（1%），两次获评国家奖学金，并曾在腾讯朱雀实验室实习。

个人主页：

https://sizhechen.top

论文通讯作者黄晓霖博士（右一）是上海交通大学的长聘教轨副教授，研究方向为机器学习，优化理论及其应用。他曾在Nature Reviews Methods Primers, JMLR, TPAMI, NeurIPS, CVPR等期刊/会议发表论文百余篇，担任TPAMI, TAC, TSP, TNNLS, NeurIPS, ICML, ICLR, CVPR等期刊/会议审稿人。他曾获青年千人，德国“洪堡学者”。他在清华大学获得博士学位，并在鲁汶大学完成博士后研究。

个人主页：

http://www.pami.sjtu.edu.cn/xiaoli

更多阅读