点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
本文作者:GeorgeLee |  来源:知乎(已授权)
https://zhuanlan.zhihu.com/p/394018343
很荣幸我们的近期工作 Invisible Backdoor Attack with Sample-Specific Triggers 被IEEE International Conference on Computer Vision (ICCV), 2021顺利接收。在这篇文章中,我们提出了一种新的投毒式(poisoning-based)后门攻击(backdoor attack)设计范式。这种攻击突破了很多现有防御方法对后门攻击的潜在假设,因此在保持攻击效果的同时可以绕过它们。论文的Prelimary Version如下链接所示,相关代码也将在近期放出。
https://arxiv.org/abs/2012.03816
一、现有的后门攻击方法简介
顾名思义,后门攻击希望在模型的训练过程中通过某种方式在模型中埋藏后门(backdoor),埋藏好的后门通过攻击者预先设定的触发器(trigger)激发。在后门未被激发时,被攻击的模型具有和正常模型类似的表现;而当模型中埋藏的后门被攻击者指定的触发器激活时,模型的输出变为攻击者预先指定的标签(target label)以达到恶意的目的。后门攻击可以发生在训练过程非完全受控的很多场景中,例如使用第三方数据集、使用第三方平台进行训练、直接调用第三方模型,因此对模型的安全性造成了巨大威胁。其具体攻击流程如下:
现有的后门攻击几乎都使用与样本无关 (sample-agnositc) 的触发器 (trigger)i.e., 不同的被投毒样本 (poisoned samples) 上的触发器是完全相同的,例如下图1所示:
二、Revisiting现有后门防御方法
正因为现有后门攻击的trigger都是sample-agnostic的,防御者很容易可以通过分析不同样本上的相似异常行为进而检测甚至是重建出backdoor trigger,以实现对后门攻击的抵御。目前,大部分的防御方法都是建立在triggers是sample-agnostic这个假设下设计的。例如,Neural Cleanse防御对每个类别生成通用对抗扰动作为该类别的潜在trigger,然后执行异常检测算法以分析出真正的backdoor trigger; 基于显著图(Saliency Map)的防御方法通过计算每个类别样本的公共显著区域作为该类别的潜在trigger,然后执行异常检测算法以分析出真正的backdoor trigger。
三、我们的方法 (Backdoor Attack with Sample-Specific Triggers)
根据上述对现有防御方法的分析,我们提出了一种新的后门攻击范式,即Backdoor Attack with Sample-Specific Triggers,其定义如下:
这种新的攻击范式不满足现有防御方法对后门攻击的潜在假设,因此可以逃逸它们的检测。
具体的,我们从基于DNN的图像隐写 (Image Steganography)获得启发,我们使用一个预训练好的图像隐写网络对所有的poisoned samples隐写进同样的信息,进行数据投毒。由于图像隐写算法本身的特性,每张被投毒样本被植入的trigger完全不同,实现了sample-specific的攻击模式。图像隐写网络的训练和本文所提攻击的Pipeline如下图所示
值得一提的是,图像隐写网络具有普适性,即在数据集A上训练的隐写网络针对数据集B的投毒也能具有很好的效果。也就是说,只要图像大小一致,攻击者可以复用已经训练好的隐写网络进行后门投毒;攻击者也可以提前预训练好各个常用image sizes的隐写网络,以待攻击使用。这种性质极大的降低了我们攻击的计算代价,额外的计算代价几乎可以忽略不计。
当然,我们的攻击针对非数据集的测试样本也能有很强的泛化性,即无论图片是否来源于测试集,通过我们的攻击植入trigger后都能被分为target label
四、实验
我们的攻击有效且隐蔽:
我们的攻击也能bypass大量不同的后门防御(e.g., Neural-Cleanse和STRIP):
-------写在最后
如果对后门学习(后门攻击与后门防御)感兴趣,欢迎refer我们整理的Github资源repo与综述论文:
https://github.com/THUYimingLi/backdoor-learning-resources
https://www.researchgate.net/publication/343006441_Backdoor_Learning_A_Survey
当然, 如果对我们别的相关工作感兴趣,也欢迎大家refer我的homepage:
http://liyiming.tech/
CVPR和ICCV 2021论文和代码下载
后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
继续阅读
阅读原文