ECCV 2022 | 用于对抗攻击的频域模型增强方法

©作者 | 陈兆宇

单位 | 复旦大学ROILab

研究方向 | 对抗样本

论文标题：

Frequency Domain Model Augmentation for Adversarial Attack

论文来源：

ECCV 2022 Oral

论文链接：

http://arxiv.org/abs/2207.05382

原文代码：

https://github.com/yuyang-long/SSA

解决的问题

对于黑箱攻击，替代模型和受害者模型之间的差距通常很大，这表现为攻击性能较弱。观察到通过同时攻击不同的模型可以提高对抗样本的可迁移性，因此提出了模型增强的方法，通过使用变换的图像模拟不同的模型。然而，现有的空域变换并不能转化为明显不同的增强模型。

为了解决这个问题，作者提出了一种新的频谱模拟攻击（spectrum simulation attack），以制作更多的可迁移的对抗样本来攻击正常训练和防御模型。具体来说，作者对输入进行频谱变换，从而在频域上进行模型增强。作者从理论上证明，从频域得出的变换导致了多样化的频谱显著性图，这是提出的反映替代模型多样性的指标。值得注意的是，其方法一般可以与现有的攻击相结合。在 ImageNet 数据集上进行的大量实验证明了这个方法的有效性。

提出的方法

替代模型和受害者模型之间的差距通常很大，这表现为对抗样本的低可迁移性。虽然同时攻击不同的模型可以提高可迁移性，但收集大量不同的模型是很困难的，而且从头开始训练一个模型也很耗时。为了解决这个问题，人们提出了模型增强（model augmentation）。特别是，典型的模型增强方法旨在通过对输入进行保损转换来模拟各种模型。

2.1 保损变换和模型增强

简单总结，保损变换就是对图像做了变换之后，损失函数的数值没有太大变换。如果满足保损变换，可以视为是一个新模型（图片来自 SI-NI-FGSM）。在这之前常见的模型增强方法是 SI-FGSM：

其主要是直接对图像像素值变为原来的 1/2、1/4 和 1/8 等等，这样的情况下，loss 变化不大，因此这种缩放可以等价视为一个新模型。

2.2 Spectrum Saliency Map

所有现有的工作都是在域研究不同模型的关系，这可能忽略了它们之间的本质区别。为了更好地揭示模型之间的差异，作者从频域的角度引入频谱显著性图，因为图像在这个领域的表示有一个固定的模式，例如，图像的低频成分对应于它的轮廓。具体来说，频谱显著性图被定义为模型损失函数的梯度，与输入图像的频谱有关。

如下图（d∼g）所示，不同模型的频谱显著不同，这清楚地揭示了每个模型对同一频率成分有不同的兴趣。直观地说，不同的模型通常关注每个输入图像的类似空间区域，因为图像中关键物体的位置是固定的。相比之下，正如以前的工作所证明的那样，不同的模型在做决策时通常依赖于每个输入图像的不同频率成分。

受此启发，作者考虑调整频谱突出度图以模拟更多不同的替代模型，从而产生更多可转移的对抗样本。为此，作者提出了一种基于（离散余弦变换）DCT 和（反离散余弦变换）IDCT 技术的频谱变换，使输入图像多样化。本文从理论上证明，这种频谱变换可以产生不同的频谱显著性图，从而模拟出不同的替代模型。

如上图（a∼c）所示，在对不同的增强模型的结果进行平均后，只有本文产生的频谱显著性图能够覆盖其他模型的几乎所有结果。这表明本文提出的频谱转换可以有效地缩小替代模型和受害者模型之间的差距。

受此启发，作者转而从频域的角度来探索模型之间的关联性。具体来说，采用 DCT 将输入图像 x 从空间域转换到频率域。DCT 的数学定义（在下文中表示为 D(-)）可以简化为：

为正定矩阵，等于单位矩阵。从形式上看，振幅高的低频成分往往集中在频谱的左上角，而高频成分则位于其余区域。显然，与空间域中图像的多样化表示相比，频域的模式更为固定。因此，作者提出了一个频谱显著性地图来挖掘不同模型的敏感点，其定义为：

其中表示 IDCT，它可以将输入图像从频域恢复到空域。注意，DCT 和 IDCT 都是无损的，即。

根据之前的可视化，作者观察到，感兴趣的频率成分通常因模型而异。因此，频谱显著性图可以作为一个指标来反映一个特定的模型。

2.3 Spectrum Transformation

上面的分析说明，如果能用与被攻击模型相似的频谱显著性图来模拟增强模型，那么替代模型和被攻击模型之间的差距就可以大大缩小，对抗样本就可以更容易迁移。

定理 1 表明，有可能以矩阵变换的形式使两个矩阵（注意频谱显著性图的本质也是一个矩阵）相等。然而，被攻击模型的频谱显著性图在黑箱设置下通常无法获得。此外，替代模型的频谱显著性图是高维的，不保证是可逆的。为了解决这个问题，作者提出了一个随机频谱变换，它将矩阵乘法分解为矩阵加法和哈达玛德积，以获得不同的频谱。具体来说，结合 DCT/IDCT，可以表示为：

其中，是哈达玛积，，。在应用 DCT 之前将图像分割成几个区块，对提高可迁移性并不奏效。因此，在实验中，本文在整个图像上应用 DCT。

从形式上看，能够产生多样化的频谱显著性图，能够反映替代模型的多样性，同时，缩小与受害者模型的差距。如上图所示，以前提出的空域的变换（即 b 和 c）对产生多样化的频谱显著性地图不太有效，这可能导致较弱的模型增强。相比之下，通过本文提出的频谱变换，产生的频谱显著性图（即a）几乎可以覆盖其他模型的所有图。