type
status
date
slug
summary
tags
category
icon
password
!这篇论文和论文相关的内容要好好看看,关于这里的数据隐写的内容,我有一个idea,如果能把数据隐写和密码学中的公私钥结合起来会不会是一个不错的后门攻击/认证方法?
刚刚还考虑了一下是不是因为要训练Encoder和Decoder,如果要隐写有意义的内容的话就没有办法实现后门效果,但后来考虑了一下,如果隐写的内容作为一方的钥匙,后门攻击者作为另一方的钥匙,是不是也能实现差不多的攻击
草,甚至还和我之前做过的VAE有关,这下不得不研究了
 

Intro

(1)全面讨论了当前主流后门防御的成功条件。我们知道,他们的成功都依赖于一个先决条件,即后门触发器是样本不可知的。
(2) 我们探索了一种不可见的攻击范式,其中后门触发器是样本特定的和不可见的。它可以绕过现有的防御,因为它打破了他们的基本假设。
(3) 进行了大量的实验,验证了该方法的有效性

Existing Defense

正因为现有后门攻击的trigger都是sample-agnostic的,防御者很容易可以通过分析不同样本上的相似异常行为进而检测甚至是重建出backdoor trigger,以实现对后门攻击的抵御
目前,大部分的防御方法都是建立在triggers是sample-agnostic(不可知论)这个假设下设计的。例如,Neural Cleanse防御对每个类别生成通用对抗扰动作为该类别的潜在trigger,然后执行异常检测算法以分析出真正的backdoor trigger;
基于显著图(Saliency Map)的防御方法通过计算每个类别样本的公共显著区域作为该类别的潜在trigger,然后执行异常检测算法以分析出真正的backdoor trigger。
(这些可以看看摘要)
  1. 基于剪枝的防御方法(Pruning-based Defenses):这种方法认为只要剪除与触发器(triggers)相关的神经元,就可以抵御后门攻击。
    1. 由于观察到后门相关神经元在良性样本的推理过程中通常处于休眠状态,Liu等人提出修剪这些神经元,以去除DNN中隐藏的后门
      然而,这种方法主要适用于sample-agnostic的后门攻击,即触发器对所有样本都是通用的。对于sample-specific的后门攻击,剪枝操作可能无法有效剔除与触发器相关的神经元,因为这些触发器是与特定样本的特征之间的复杂关系相关联的。
  1. 基于合成触发器的防御方法(Trigger Synthesis based Defenses):
    1. 这种方法尝试通过合成触发器来对抗后门攻击。然而,该方法的前提是需要有一个sample-agnostic的触发器,否则合成的触发器将毫无意义。由于真实的后门攻击通常是针对特定样本的,因此合成触发器无法很好地适应这种情况。
      除了直接消除隐藏的后门外,基于触发合成的防御首先合成后门的触发器,然后通过抑制触发的效果消除隐藏的后门。这个方法与基于重构的防御有诸多相似之处,然而,与基于重构的防御相比,此法获取的触发信息的步骤使移除过程更加高效。
  1. 基于显著性图的防御方法(Saliency Map based Defenses):这种方法通过计算每张图像的显著性图(Saliency Map),然后根据不同图像之间显著性相同的区域来定位触发器。然而,这种方法同样无法有效应对sample-specific的触发器,因为这些触发器可能与特定样本的显著性不相关。此外,显著性图的计算也可能受到噪声、复杂背景或其他因素的干扰,导致定位触发器的准确性下降。
  1. STRIP方法:STRIP方法尝试通过将各种图像模式叠加到可疑图像上,如果生成的样本的预测是一致的,则将被检查的样本视为中毒样本。然而,这种方法仍然依赖于触发器是sample-agnostic的假设,即触发器对所有样本都具有相同的影响。对于sample-specific的触发器,这种方法可能无法有效检测到后门攻击。

SSBA

似乎是基于了数据隐写技术(草,我本来想做这个的)
根据上述对现有防御方法的分析,我们提出了一种新的后门攻击范式,即Backdoor Attack with Sample-Specific Triggers,
这种新的攻击范式不满足现有防御方法对后门攻击的潜在假设,因此可以逃逸它们的检测。
具体的,我们从基于DNN的图像隐写 (Image Steganography)获得启发,我们使用一个预训练好的图像隐写网络对所有的poisoned samples隐写进同样的信息,进行数据投毒。由于图像隐写算法本身的特性,每张被投毒样本被植入的trigger完全不同,实现了sample-specific的攻击模式。

Pipeline

图像隐写网络的训练和本文所提攻击的Pipeline如下图所示
notion image
在攻击阶段,后门攻击者通过注入样本特定的触发器来毒害一些良性训练样本。生成的触发器是不可见的附加噪声,包含目标标签的代表字符串的信息。
在训练阶段,用户采用中毒训练集,以标准的训练流程来训练DNN。因此,将生成从代表字符串到目标标签的映射。在推理阶段,受感染的分类器(即在中毒训练集上训练的DNN)将在良性测试样本上表现正常,而当添加后门触发器时,其预测将更改为目标标签
 

Generator

编解码器网络的训练过程:编码器和解码器同时在良性训练集上进行训练。具体而言,编码器被训练为将字符串嵌入到图像中,同时最小化输入图像和编码图像之间的感知差异,而解码器被训练为从编码图像中重新覆盖隐藏消息。
这里是怎么嵌入的?学习学习
notion image
 
编码器与解码器同时在无害训练集合上进行训练。具体而言,编码器被训练为将字符串嵌入到图像中,同时最小化输入图像和编码图像之间的感知差异,而编码器则被训练为从编码图像中恢复隐藏消息。他们的培训过程如图3所示。
请注意,攻击者还可以使用其他方法,如VAE[17],来进行特定于样本的后门攻击。这将在我们今后的工作中进一步研究(没人做过吗,找一下
VAE - Diederik P Kingma and Max Welling. Auto-encoding varia-tional bayes. InICLR, 2014
值得一提的是,图像隐写网络具有普适性,即在数据集A上训练的隐写网络针对数据集B的投毒也能具有很好的效果。也就是说,只要图像大小一致,攻击者可以复用已经训练好的隐写网络进行后门投毒;攻击者也可以提前预训练好各个常用image sizes的隐写网络,以待攻击使用。这种性质极大的降低了我们攻击的计算代价,额外的计算代价几乎可以忽略不计。
当然,我们的攻击针对非数据集的测试样本也能有很强的泛化性,即无论图片是否来源于测试集,通过我们的攻击植入trigger后都能被分为target label
四、实验
我们的攻击有效且隐蔽:
我们的攻击也能bypass大量不同的后门防御(e.g., Neural-Cleanse和STRIP):
Backdoor Attack in the physical worldNeural Trojans