ICLR 2022 | 基于积分梯度的迁移对抗攻击

©PaperWeekly 原创 · 作者 | 鬼谷子

引言

该论文是关于黑盒对抗攻击的工作。论文中作者提出了一种基于积分梯度的可迁移性攻击算法（TAIG），该算法可以生成高可迁移性的对抗样本。作者将三种方法分别是优化标准目标函数、注意力图和平滑决策面集成到论文方法 TAIG 中，作者研究了两种计算直线路径和随机分段线性路径上积分梯度的 TAIG。实验结果表明，论文中提出的方法生成了高迁移性的对抗样本，并且可以与以前的方法进行无缝协同工作，而且 TAIG 的性能优于现有的方法。论文代码目前已经开源了。

论文标题：

Transferable Adversarial Attack based on Integrated Gradients

论文链接：

https://arxiv.org/abs/2205.13152

代码链接：

https://github.com/yihuang2016/TAIG

预备知识

令是一个分类器网络，该网络将输入映射成输出向量，其中输出向量的第个元素表示的是 logit 层第个输出单元；表示的是网路将输入映射成第类的输出值，即，其中表示的是转置操作。

和分别表示干净样本和对抗样本，其中和分别表示的是干净样本和对抗样本的第个像素。是输入的类别。

积分梯度是一种将深度神经网络的预测归因于其输入特征的方法，其计算的属性表示每个像素对网络输出的重要性，也可以看作是注意值和显著值。积分梯度主要基于两个公理发展而来，即灵敏度和实现不变性，并且满足另外两个公理，即线性性和完备性。积分梯度是从参考图像到输入图像的梯度的线性积分。输入的第个像素的积分梯度定义为：

其中表示的是的第个像素，且一般会选取黑色图像。完备性公理表示和之间的距离等于之和：

为了简化符号，和被用作表示，和被用作表示。

基于积分梯度的可迁移性攻击

作者提出了无目标攻击的基于积分梯度的可迁移攻击两个版本的算法。第一种方法基于原始积分梯度，在直线路径上进行积分。该版本称为基于直线路径上积分梯度的可迁移攻击（TAIG-S），其攻击方程定义为：

其中积分梯度是从的标签计算得来的，表示的是控制步长。第二个版本称为基于随机分段线性路径积分梯度的可迁移攻击（TAIG-R）。令是一个随机分段线性路径，是个分段点，其中是初始点，是终止点。从到的线段部分被定义为：

其中。当计算线段的积分梯度时，表示为参考图片，整个路径的积分梯度被定为如下所示：

根据随机分段线性路径计算的积分梯度称为随机路径积分梯度（RIG），并且 RIG 仍然满足完整性公理：

随机路径中的转折点由以下公式所得：

其中和是一个服从均匀分布的随机向量，TAIG-R 的攻击方程式如下所示：

除了将在 TAIG-S 中的被所替，其它的与 TAIG-S 一样。与 PGD 和 BIM 一样，TAIG 可以进行迭代。在 TAIG 中使用符号函数和之间的距离由范数所测量。作者主要从优化的角度解释 TAIG，然后从注意力分布和平滑性的角度解释 TAIG。利用完备性公理，的最小化公式可以写成：

因为是独立于，所以它可以被忽略。对于 ReLU 网络，以下公式可以被证明：

其中的第个分量为：

具体的证明如下所示。

证明：对于 ReLU 神经网络，的个分量被证明如下所示：

考虑如下公式：

使用乘积法则可以得到：

当时，则有；否则有。因此则有如下公式：

在 ReLU 神经网络中可知：

进而则有：

又因为：

所以最后则有：

作者使用微分的定义计算关于的微分如下所示：

其中中除了第个元素为 1，其它元素全是。使用向后差分法可以近似得到：

其中，根据完备性公理，如果一个对抗样本且有对于任意的，，则有，表示的是一个黑色图片。对抗样本的网络输出和黑色图像是一样的，这也暗示着对抗样本有一个高概率去被误分类。表示在和的斜率。和被分别看作是样本和目标对抗样本第个分量的积分梯度。目标积分梯度被设置为目的是对网络输出没有贡献，进而则有：

其中是正定的，TAIG-S 使用的是的符号函数。作者得到以下结论：1）被用作去近似 ReLU 网络中的；2）近似的质量依靠于值，所以和没有必要的值足够近。为了能够保证的最小化，作者选择后向差分而不是前向差分。

实验结果

如下图所示为定性的实验结果，下图显示了来自不同网络的原始图像的积分梯度，从左到右分别来自 ResNet50、InceptionV3 和 DenseNet121 的原始图像和相应的积分梯度。

下图显示了 TAIG-S 和 TAIG-R 攻击前后的积分梯度，第一行是原始图像和攻击前后的 IG。第二行是原始图像和攻击前后的装备。从左到右的图像是原始图像、图像的原始 IG、TAIG-S 攻击后的 IG 和 TAIG-R 攻击后的 IG。结果来自ResNet50。，这表明不同模型对相同图像具有相似的积分梯度，并且 TAIG-S 和 TAIG-R 方法可以显著修改积分梯度。