type
status
date
slug
summary
tags
category
icon
password

Abstract

后门攻击旨在将隐藏后门嵌入深度神经网络(DNN),使受攻击的模型在良性样本上表现良好,而如果隐藏后门被攻击者指定的触发器激活,则其预测将被恶意更改。
*受公钥密码体制的启发,我认为一个可以提供给公共的加密方法是更加优秀的

Scenarios

三种常见情境:
第三方数据集,第三方训练平台,第三方模型(通过API/直接提供训练好的DNN)
 

基于数据投毒的后门攻击

Attacks for Image and Video Classification

#BadNets: (start job)
其训练过程由两个主要部分组成,包括
(1)通过将后门触发器冲压到选定的良性图像上来生成一些中毒图像
(2)将含有中毒和良性样本的中毒训练套装发放给受害者用于训练模型
#Invisible Backdoor Attacks
与良性图像相比,中毒图像应该无法区分,以逃避人类的检查。
提出了混合策略,通过将后门触发器与良性图像混合而不是通过冲压来生成中毒图。同时,即使采用较小幅度的随机噪声作为后门触发器,也可以成功创建后门
→ 隐形后门攻击
  • 通过后门触发幅度来干扰良性图像的像素值,而不是通过用所选择的模式替换相应的像素(改变值而非替换)
  • 采用通用对抗性攻击生成后门触发器,使ℓ2扰动的形式确保了不可见性。
  • 提出将ℓp优化后门触发器时的扰动形式。
  • 提出采用一种常见现象(即反射)作为隐蔽性的触发因素。(这种自然现象的隐形后门攻击好无趣啊)
  • 采用了基于翘曲的触发器,这种触发器对人类检查更为隐蔽。
  • 对损失函数投毒来实现隐形(怎么做到的?crazy
  • 风格转移来对特征空间攻击
  • 在频域中生成了不可见的触发模式
  • 采用了基于DNN的图像隐写术来生成不可见的后门触发器(特定于样本,因此不可见)
(多任务学习(Multi-Task Learning,MTL)是一种机器学习方法,旨在通过同时学习并优化多个相关任务来改善模型的性能。)
#clean-label invisible attacks
上述的攻击方法都造成了源标签和目标标签的不同,可以通过检测训练样本的图像标签关系来检测
利用对抗性扰动或生成模型首先修改目标类中的一些良性图像,然后进行标准的不可见攻击。
  • 采用了普遍扰动而不是给定扰动作为触发模式。
  • 出通过图像缩放攻击来隐藏触发器
  • 通过最小化它们在特征空间中的距离,将先前可见攻击生成的中毒样本的信息注入目标类图像的纹理中
  • 通过在不改变样本的情况下操纵训练样本的顺序来注入隐藏后门
#Optimized Backdoor Attacks
通过优化触发器来达到更好的攻击效果
  • 提出优化触发器,使重要神经元能够达到最大值。之后,假设扰动可以向目标类的决策边界诱导大多数样本
  • 将触发器转变为双层优化问题
#Semantic Backdoor Attacks
大多数后门攻击,即非语义攻击,假设后门触发器独立于良性图像。因此,攻击者需要修改数字空间中的图像,以激活推理过程中隐藏的后门。
同时,样本的语义也可以作为触发器(好水
  • 将攻击者选择的标签分配给所有具有特定特征的图像,可以感染DNN
  • 隐藏的后门可以通过图像中某些对象的组合来激活。
#Sample-Specific Backdoor Attacks
几乎所有后门攻击都是样本不可知的,即所有中毒样本都包含相同的触发模式。这种性质广泛用于后门防御的设计
使用样本特异的攻击可以攻破防御的基本假设(挺有意思)
到先进的基于DNN的图像隐写术的启发,提出了具有不可见触发模式的仅毒样本特定后门攻击
#Physical Backdoor Attacks
在现实生活中的应用更加明显(像带个眼镜什么的
但是效果显然更差
#All-to-all Backdoor Attacks
包括全对一攻击和全对所有攻击。具体来说,所有对一攻击假设所有中毒样本都有相同的目标标签,无论它们的基本真值标签是什么,相反,不同的中毒样本在所有对所有攻击中可能有不同的标签。
#All-to-all Backdoor Attacks
与以前需要访问训练样本的白盒攻击不同,黑盒攻击使用了训练集不可访问的设置。在实践中,由于隐私或版权问题,训练数据集通常不共享,因此黑盒攻击比白盒攻击更现实。
一般来说,黑匣子后门攻击者最初生成了一些替代训练样本。例如,在[51]中,攻击者通过优化从另一个数据集初始化的图像来生成每个类的一些代表性图像,从而使所选类的预测置信度达到最大值。有了替补训练样本,白盒攻击可以选择后门注入。黑盒后门攻击比白盒后门攻击要困难得多

Attacks against Other Fields or Paradigms

目前,大多数现有的针对其他任务或范式的后门攻击仍然是基于中毒的。因此,除了特定任务的要求外,大多数方法都集中在
(1)如何设计触发器
(2)如何定义攻击性
(3)如何绕过潜在的防御。
不同任务和范式之间的巨大差异使上述问题的答案完全不同。例如图像相关任务中的隐蔽性可以定义为像素距离(例如。,ℓpnorm)在中毒样本与其良性版本之间;然而,在自然语言处理(NLP)中,即使改变一个单词或字符,也可能使修改对人类可见,因为它可能会导致语法或拼写错误
  • 讨论了如何攻击基于LSTM的元素分析。具体来说,他们提出了一种类似BadNets的方法,使用情感中立的句子作为触发,并将其随机插入一些良性的训练样本中。
  • 提出了三种不同类型的触发器(即字符级、单词级和句子级触发器),并达到了不错的性能
  • 即使在微调后,情绪分类、毒性检测和垃圾邮件检测也会受到攻击
除了NLP之外,神经网络,3D点云,半/自监督学习,强化学习,模型量化,声学信号,恶意软件检测等都是可能遭受后门攻击的领域
对合作学习(尤其是联邦学习)的后门攻击最受关注
  • 通过放大节点服务器的中毒梯度,提出了针对联合学习的第一次后门攻击
  • 针对联合学习的分布式后门攻击
  • 从理论上验证了,如果一个模型在温和的联合学习条件下容易受到对抗性示例的攻击,那么后门攻击是不可避免的

Backdoor attack for positive purposes

  • 通过所有权验证来阻止模型盗窃:提出通过后门嵌入对DNN进行水印,这可以用来检查模型所有权
  • 在服务器上删除数据时验证(为自己的数据植入后门
  • 防御者注入隐藏的后门,以防止攻击者发现模型中的真正弱点。其动机是,产生的对抗性扰动会使受感染的模型收敛在活板门模式附近,而这很容易被防御者检测到。
  • 用于可解释AI

基于非数据投毒的后门攻击

Weights-oriented Backdoor Attack

在面向权重的后门攻击中,攻击者直接修改模型参数,而不是使用中毒样本进行训练。
  • 在模型之间采用贪婪搜索,并将不同的扰动应用于预先训练的模型的权重
  • 引入了一种面向比特级权重的后门攻击,即目标比特木马(TBT),它翻转存储在存储器中的权重的关键比特。
  • 提出在注入后门的良性模型的模型参数上添加对抗性扰动
  • 将在良性样本上保持准确性的行为公式化为受感染模型的一致性,并对后门攻击中的对抗性权重扰动(AWP)提供了理论解释。
  • 提出了TrojanNet通过秘密权重排列对感染的DNNs中的后门进行编码

Structure-modified Backdoor Attacks

攻击者通过添加包含条件模块和触发器检测器的恶意插件,将恶意条件逻辑嵌入到目标DNN中。

与相关领域的联系

With Adversarial Attacks

(1) 从攻击者的能力来看,对抗性攻击者需要控制推理过程(在一定程度上),而不是模型的训练过程。具体来说,他们需要多次查询模型结果甚至梯度,以便在给定固定目标模型的情况下通过优化生成对抗性变量扰动。相反,后门攻击者需要修改一些训练阶段(例如,数据收集、模型训练),而在推理过程中没有任何额外的要求。
(2) 从被攻击样本的角度来看,后门攻击者已知(即未优化)扰动,而高级攻击者需要根据模型的输出通过优化过程获得扰动。对抗性攻击中的这种优化需要多个查询。因此,对抗性攻击在许多情况下,优化过程需要时间。
(3) 它们的机制也有本质的区别。对抗性源于模型和人类行为的差异。相反,后门攻击者利用DNN的卓越学习能力,在触发模式和目标标签之间建立潜在的连接。
 

With Data poisoning

一般来说,数据中毒有两种类型,包括classical型和advanced型。
前者旨在减少模型的泛化,即让受感染的模型在训练样本上表现良好,而在测试样本上表现不佳。相比之下,高级数据中毒使受感染的模型在测试样本上表现良好,而在一些攻击者指定的目标样本上表现不佳,而这些样本不包含在训练集中。
首先,与经典的数据中毒相比,后门攻击保留了预测良性样本的性能。换句话说,与传统的数据中毒相比,后门攻击具有不同的攻击者目标。
同时,后门攻击也比传统的数据中毒更隐蔽。用户可以通过评估训练模型在本地验证集上的性能来检测经典数据中毒,而这种方法在检测后门攻击方面的好处有限。
其次,后门攻击也不同于高级数据中毒。具体来说,高级数据中毒中没有触发器,它不需要在推理过程中修改目标样本。相应地,高级数据中毒只能对(少数)特定样本进行错误分类,这限制了其在许多情况下的威胁。
 

后门防御

Empirical Backdoor defenses

基于中毒的后门攻击类似于用相应的钥匙锁门。包括
(1)在(受感染的)模型中有一个隐藏的后门,
(2)在(被攻击的)样本中包含触发器
(3)触发器和后门匹配
因此,可以采用三种主要的防御模式,包括
(1)触发后门失配
(2)后门消除
(3)触发消除
来防御现有的攻击。
#Preprocessing-based Defenses
在训练DNN之前引入了一个预处理模块,以改变被攻击样本中包含的触发模式
  • 采用了预先训练的自动编码器作为预处理器。(这个AE有什么用?明天看一下
  • 受触发区域对预测贡献最大的想法的启发,介绍了两阶段的图像预处理方法(即Februus)。在第一阶段,Februs使用GradCAM来识别有影响的区域,然后将其移除并通过中性色框重新放置。之后,Februs采用了基于GAN的修复方法来重建掩模区域,以减轻其不良影响(例如,良性精度下降)。
  • 在预处理阶段使用图像中的主色制作了一个方形的触发拦截器,用于定位和移动后门触发器。
  • 通过风格转移对图像进行再处理。
  • 讨论了具有静态触发模式的现有基于中毒的攻击的性质。他们证明,如果触发器的外观或位置稍微改变,攻击性能可能会急剧下降。建议采用空间变换(如收缩、翻转)进行防御。
#Model Reconstruction based Defenses
与基于预处理的防御不同,基于模型重建的方法旨在通过直接修改可疑模型来消除受感染模型中隐藏的后门
  • 提出用一些局部良性样本重新训练训练的可疑模型(利用DNN的遗忘机制
  • 将再训练公式化为mini-max问题,并采用隐式超梯度来解释内部和外部优化之间的相互依赖性。
  • 观察到后门相关神经元在预测良性样本时通常处于休眠状态,提出修剪这些神经元以去除隐藏的后门。
  • 提出了一种精细修剪方法,该方法首先修剪DNN,然后对修剪后的网络进行微调,以结合修剪和微调防御的好处
  • 使用对抗性权重扰动来放大良性和恶性神经元之间的差异
  • 基于模式连接技术,可以通过一定数量的阴性样本修复感染DNN的隐藏后门
#Trigger Synthesis based Defenses
基于触发器合成?
看不太懂,搁置
#Model Diagnosis based Defenses
这些防御基于预先训练的元分类器来判断可疑模型是否被感染,并拒绝部署被感染的模型。由于良性模型被用于部署,它自然地消除了隐藏的后门。
#Poison Suppression based Defenses
这些防御在训练过程中降低中毒样本的有效性,以防止创建隐藏的后门。
  • 采用有噪声的SGD来学习不同的私有DNN作为防御。通过训练过程中的随机性,随机噪声降低了中毒样本的恶意影响,
  • 在训练过程中采用差分私有随机梯度下降(DPSGD)对个体梯度进行裁剪和扰动。
  • 强大的数据增强方法可以防止隐藏后门的创建
#Training Sample Filtering based Defenses
这些防御措施旨在从训练数据集中过滤中毒样本。在过滤过程之后,在训练过程中只会使用良性样本或纯化的中毒样本,这从源头上消除了后门的创建
  • 证明了中毒样本往往会在特征表示的协方差谱中留下可检测的痕迹
  • 引入了鲁棒协方差估计来放大中毒样本的频谱特征,并在此基础上设计了一种更有效的滤波方法
  • 提出了一种两阶段过滤方法,包括(1)将每类训练样本的激活聚类为两个聚类,以及(2)确定哪个聚类(如果有的话)对应于中毒样本。
  • 根据输入梯度中包含的信号分离中毒样品
  • 采用显著性图来识别触发区域并过滤中毒样本。
  • 揭示了现有攻击的中毒样本具有一些高频伪影,即使它们的触发模式在输入空间中是不可见的。
#Testing Sample Filtering based Defenses
这些防御措施还过滤恶意样本,而过滤发生在推理过程中,而不是训练过程中。部署的模型只能预测未经测试或纯化的攻击样本。这些防御可以防止后门激活,因为它们可以删除触发模式
  • 通过在可疑样本上叠加各种图像模式来过滤受攻击的样本
  • 将滤波视为异常值检测,并在此基础上提出了一种基于隐私的差分滤波方法
  • 基于现有检测的对抗性防御来检测被攻击的样本

Certified Backdoor Defenses

尽管已经提出了多种经验防御,并在对抗一些后门时达到了不错的性能,但几乎所有这些防御都被随后的适应性攻击所绕过。
终止这种“猫捉老鼠的游戏” - 认证后门防御
  • 基于随机平滑技术的后门攻击防御
  • 将分类器的整个训练过程视为基函数,以推广经典的优化平滑来抵御后门攻击。
(学习一下随机平滑是什么
我所感兴趣的密码学方式并没有出现啊,是并不实用吗?

Evaluation Metrics

关于不同的防御策略有不同的指标
常见的一些指标如下:
(1) 精确率 (Precision) 是用于评估分类模型的指标之一。它表示模型在预测为正例的样本中,实际为正例的比例。精确率可以用以下公式表示:
精确率 = 真阳性 (True Positives) / (真阳性 + 假阳性)
其中,真阳性是指模型正确预测为正例的样本数量,假阳性是指模型错误地将负例预测为正例的样本数量。精确率的取值范围在0到1之间,值越接近1表示模型预测的正例中有较少的错误。
(2) 召回率 (Recall),也被称为灵敏度 (Sensitivity) 或真正例率 (True Positive Rate),是另一个用于评估分类模型的指标。它表示模型在所有实际为正例的样本中,成功预测为正例的比例。召回率可以用以下公式表示:
召回率 = 真阳性 / (真阳性 + 假阴性)
其中,真阳性是指模型正确预测为正例的样本数量,假阴性是指模型错误地将正例预测为负例的样本数量。召回率的取值范围在0到1之间,值越接近1表示模型能够更好地捕捉到实际为正例的样本。
(3) F1 分数 (F1-Score) 是精确率和召回率的综合度量,用于综合评估分类模型的性能。F1 分数是精确率和召回率的调和平均值,可以用以下公式计算:
F1 分数 = 2 * (精确率 * 召回率) / (精确率 + 召回率)
F1 分数的取值范围在0到1之间,值越接近1表示模型在精确率和召回率之间取得了较好的平衡。F1 分数在处理不平衡数据集或需要同时考虑精确率和召回率时特别有用。

Outlook

触发器设计

基于中毒的后门攻击的有效性和效率与其触发模式密切相关。然而,大多数现有攻击的触发器都是以启发式(例如,具有普遍扰动的设计)甚至非优化的方式设计的。如何更好地优化触发模式(例如,基于双层优化)仍然是一个重要的悬而未决的问题。此外,在触发器的设计中只考虑了有效性和触发器的隐形性。其他标准,如最小中毒率和触发泛化,也值得进一步探索

语义和物理后门攻击

语义和物理攻击在实际场景中对人工智能系统构成了更严重的威胁,而与其他类型的后门攻击相比,它们的研究远远落后。更深入的研究以更好地理解这些攻击将是在实践中缓解后门威胁的重要步骤。
例如,人们可以探索其他物理现象(例如,特定的照明)是否也可以作为有效的物理触发模式,以及为什么语义触发也是有效的

针对其他任务的攻击

后门攻击的成功很大程度上取决于根据目标任务的特点进行的触发器设计。例如,触发器的视觉不可见性是视觉任务中的关键标准之一
然而,后门触发无关任务的设计可能会大不相同(例如,当攻击NLP相关任务时,将触发隐藏在句子中与将触发隐藏到图像中完全不同)。因此,有必要研究任务指定的后门攻击。目前,现有的后门攻击主要集中在计算机视觉任务上,尤其是图像分类。对其他任务(如推荐系统、语音识别和自然语言处理)的研究还没有得到很好的研究。此外,回归作为另一个重要范式值得更多关注和后门探索

有效和高效的防御

尽管已经提出了许多类型的经验后门防御(如第六节所示),但几乎所有这些都可以被随后的自适应攻击绕过。此外,除了基于预处理的防御外,现有的防御通常都存在较高的计算成本。应该加大设计有效和高效防御的力度(例如,分析现有攻击的弱点以及如何降低防御的计算成本),以保持后门攻击的快速发展。
例如,可以基于可解释AI(XAI)方法来定位触发模式或恶意隐藏功能。此外,如何设计黑盒防御也值得更多的关注,因为这些方法在现实中更实用。此外,认证后门防御很重要,但目前很少研究,值得更多探索

机制探索

后门生成原理和后门触发器的激活机制是后门学习中的圣杯问题。例如,为什么可以创建隐藏的后门,以及当触发器出现时,受感染的模型内部会发生什么,这些都没有在现有的工作中仔细研究过。更深入地理解后门攻击的内在机制可以指导设计更有效的攻击和防御,以及理解DNN的行为。
Blind Backdoors in Deep Learning ModelsAttacks against machine learning