type
status
date
slug
summary
tags
category
icon
password
 
第一次隐形攻击,具有可见但自然的触发
 

Abstract

最近的研究表明,DNN可能会被训练时精心设计的后门攻击所破坏。后门攻击通过在少量训练数据中注入后门模式,在受害者模型中安装后门。在测试时,受害者模型在干净的测试数据上表现正常,但在测试示例中出现后门模式时,它始终预测特定(可能不正确)的目标类。虽然现有的后门攻击是有效的,但它们并不是秘密的。对训练数据或标签所做的修改通常是可疑的,可以通过简单的数据过滤或人工检查很容易地检测到。在本文中,我们提出了一种新型的后门攻击,其灵感来自一个重要的自然现象:反射。利用物理反射模型的数学模型,我们提出了反射后门(Refool),将反射作为受害者模型的后门。我们在3个计算机可视化任务和5个数据集上演示了Refool
 

Introduction

Old Work

给出的这个后门攻击的实例比较有意思
notion image
key:
A[21]:位于右下角的黑白方块;
B[9]:中心的小图像;
C[60]:一个恶意像素;
D[9]:固定混合的图像;
E[61]:对抗性噪声加上右下角的黑白方块;
F[3]:固定带和正弦带
缺点:
A C E为三种明显的模式
D为令人不快的混合(学姐的论文被que了wwww)
F是可以的条纹

Intro

后门攻击不会降低模型在正常测试输入上的准确性,但可以控制模型对包含后门模式的任何测试输入进行一致的预测(这符合攻击者的利益)。因此在干净的测试集上不好测试。
*holdout是测试集的意思

Types

Poison-label Attack
尽管毒标签攻击是有效的,但它们经常在训练数据中引入明显错误标记的例子,因此可以通过简单的数据过滤很容易地检测到
 
Clean-label Attack
*找论文:Clean-label backdoor attacks
CL攻击 使用对抗性扰动来伪装后门模式
SLG攻击 获取叠加的正弦信号作为后门触发器
然而,为了使干净标签后门模式有效对抗深度级联卷积的滤波效果,它通常需要更多的扰动,这会显著降低图像质量,尤其是对于高分辨率图像。
 

Backdoor Defense

不大了解,就不过多涉入了
似乎提及到了 去噪技术 混合训练 聚类等技术

Here

在本文中,我们提出了一种新型的后门模式,其灵感来自一种自然现象:反射。反射是一种常见的现象,存在于有眼镜或光滑表面的场景中
在这里,我们利用反射作为后门模式,并表明像反射这样的自然现象可以被对手操纵,对DNN模型进行后门攻击。
 

Reflection Backdoor Attack

*具体在物理层的效果如下,确实是不容易被人发现的效果www不过也不是那么难想,不是吗?
notion image

Definition

差不多的定义

Math Model of Reflection

具有反射的真实场景图像可以是多层的合成
k是卷积核,x是clean image,xR是反射图片,xadv是投毒图片
其中xR和k的卷积输出是反射
这个攻击主要依据相机成像原理和反射定律,物理世界场景中的反射模型分为三类
notion image
 
  • Both layers are in the same depth of field (DOF)
    • 玻璃后面的主要物体(蓝色圆圈)和反射的虚像处于相同的DOF中,即它们大致位于同一焦平面中。在这种情况下,k 减少到强度数α,我们在实验中设置了α~U[0.05,0.4]。
  • Reflection layer is out of focus
    • 可以合理地假设,反射(灰色三角形)和玻璃后面的物体(蓝色圆圈)到相机的距离不同[36],并且玻璃后面的对象通常是聚焦的(图中的类型(II))。第2(a)段)。在这种情况下,观察到的图像xadv是背景图像和模糊反射的相加混合。k在方程内的取值取决于由2D高斯核参数化的相机的点扩散函数,即g(|x−xc|)=exp(−|x−xc|2/(2*σ)2),其中xc是核的中心,我们设置σ~U[1,5]
  • Ghost effect
    • 以上两种类型的反射假设玻璃的厚度很小,因此玻璃的折射效应可以忽略不计。然而,这在实践中是不正确的。因此,还需要考虑玻璃的厚度。如图6所示,如图2(a)(III)所示,由于玻璃是半反射的,因此来自反射物体(深灰色三角形)的光线将从玻璃板反射,产生不止一次反射——即重影效应。在这种情况下,方程内的k可以被建模为双脉冲kernelk(α,δ),其中δ是具有不同效率的α的空间偏移。根据经验,我们设置α~U[0.15,0.35]和δ~U[3,8]

攻击策略

通过在任何输入图像中混合反射模式来实现后门
在攻击策略里提到了攻击流程,候选的待攻击图像,以及对抗性反射图像选择(这个我比较关心)
对抗性反射图像
*说实话,感觉这个迭代对论文的帮助并不大,直觉上更像是一个在叠工作量的内容。不过我也可以学习学习。
1)当反射图像太小时,可能很难将其作为后门触发器;
2)当反射图像的强度太强时,它将变得不那么隐蔽。
提出一个迭代选择过程,
  1. 根据有效性得分list W,选择top-m最有效的反射图像
  1. 按照反射模型随机注入D训练集
  1. 按照投毒的训练集训练一个模型
  1. 根据这个模型在验证集Dval的预测来更新W
有效性得分计算方式如下:
即,利用验证集的图片作为将要进行后门攻击的候选图片进行反射,然后扔进神经网络里面看效果
*对于没有在Radv中选择的反射图像,为了防止收敛过快,将其分数设置为更新后W的中值,以增加在后续迭代中被选择的可能性
后门注入
在产生了有效的反射图像Radv后,通过毒害目标类的一小部分数据将其注入目标数据集(干净标签攻击只需要毒害目标类中的数据)。
给定目标类别中的干净图像,我们从Radv中随机选择一个反射图像,然后使用3个反射模型之一将反射图像融合到干净图像中。
该注入过程被迭代地完成,直到一定比例的目标类图像被反射污染。当使用分类损失(如常用的交叉熵损失)在中毒训练集上训练时,受害者模型将记住反射后门
攻击成功率是通过添加反射后预测为目标类别的测试样本的百分比来衡量的

Experiment

*说实话,之前看论文的实验部分我都是跳过的。不过由于这个部分的的确确是需要写的地方,

Setup

Dataset & DNN
考虑三个图像分类任务
  • 交通标志识别
    • GTSRB、BelgiumTSC和CTSRD
    • 去除了那些高度或宽度小于100像素的低分辨率图像。然后,我们使用随机裁剪和旋转来扩充训练集
  • 人脸识别
    • PubFig
    • 同样进行扩充
  • 图像分类
    • ImageNet随机抽取12类图像的子集
使用DNN:
  • ResNet-34用于交通标志和人脸识别
  • ResNet-34和DenseNet用于图像分类
攻击设置
关于Radv的设置
DNN设置
所有DNN模型都使用随机梯度下降(SGD)优化器进行训练,动量为0.9,权重衰减为5e-4,初始学习率为0.01,每10^5个训练步骤将其除以10。我们使用批量大小32,并为200个epoch训练所有模型。所有图像均归一化为[0,1]

有效性和隐蔽性

我们计算了CL、SIG和Refool攻击制作的原始图像和后门图像之间的均方误差(MSE)和L2距离
这里提到了一个Effect of reflection trigger on network attention.
即反射触发器对神经网络注意力的影响,注意力图是使用梯度加权类激活映射(Grad-CAM)技术计算的,该技术在输入图像中找到主要激活受害者模型输出的关键区域。
我们发现,反射后门只会轻微地将模型的注意力转移到正确的区域,而CL和SIG会显著地将模型注意力完全转移到目标之外或以条纹方式转移,尤其是在交通标志示例中。这从另一个角度表明了我们反思后门的健康性

抵抗先进的后门防御

抵抗微调防御
原因是反射是一种自然而基本的特征,而不是可以通过对干净数据进行微调来轻松擦除的随机模式
*的确,这种自然性对于人类来说是难以分辨的,因此对于主观的防御都还能起到不错的作用
抵抗模型剪枝防御
即去除部分神经元
抵抗neural cleanse(模型净化?)
抵抗白盒触发器移除防御
在我们的实验中,我们采用了最先进的反射去除方法来清除中毒数据。
对于Badnet,我们只需将触发器的值替换为其三个相邻补丁的平均像素值。
对于CL,我们使用非局部均值去噪技术。
对于SIG,我们将−v(i,j)添加到后门图像以删除触发器。拆除索具前后的攻击成功率如表4所示。
Badnets、CL和SIG现有的攻击依赖于固定的后门模式,因此可以通过白盒触发的移除方法轻松移除,即成功率降至<20%。相反,我们的Refools使用从野外随机选择的反射图像,因此在去除反射后仍然可以保持85%的高成功率
WaNet - Imperceptible Warping-based Backdoor Attack.LIRA: Learnable, Imperceptible and Robust Backdoor Attacks.