type
status
date
slug
summary
tags
category
icon
password
 
notion image
?咋做到的?

Abstract

在大多数现有的后门攻击方法中,触发注入函数是手动定义的,例如,在图像上放置一小块像素,或在放置模型之前使图像稍微变形。这导致了一种两阶段的方法,具有次优的攻击成功率,并且在人类检查下缺乏完全的隐蔽性
在本文中,我们提出了一种新的隐形后门攻击框架LIRA,它联合学习了最优的隐形触发注入函数和投毒模型。我们把这样一个目标表述为一个非凸的、有约束的优化问题。在这种优化框架下,触发生成器函数将学会用不可察觉的噪声处理输入,以保持干净数据上的模型性能,并最大限度地提高中毒数据上的即时成功率。然后,我们用一个有效的两阶段随机优化过程来解决这个具有挑战性的优化问题。最后,提出的攻击框架在包括MNIST、CIFAR10、GT-SRB和T-ImageNet在内的多个基准数据集中实现了100%的成功率,同时绕过了现有的后门防御方法和人工检查。
 

Method

Problem Formulation

transformation , parameterised by
classifier , parameterised by
在训练后,将干净图像x转换为后门图像 将其错误分类为 ,而对于干净的数据, 的分类与干净分类器一致
同时学习这样一个条件转换函数的主要优点是,针对不同的输入,所组合的触发模式不同,因此在优化攻击的同时,很难检测后门。

Learning to Backdoor

考虑经验风险最小化设置,希望将训练数据上的以下损失函数最小化
目标是学习变换函数 ,同时学习二者的优点:
  • 在特定的分类器上最大化T的后门性能
  • 将T建模为一个条件生成函数,触发模式因图像而已
  • 将选择最佳触发器的任务自动化
因此,将上述任务规范化,处理以下的约束优化问题:
notion image
在上述问题中,一个具有特定参数配置θ的学习分类模型与一个最优的隐形后门转换函数相关联,该函数被训练来欺骗模型。目标是找到成对的最佳中毒分类模型fθ*(ξ*)和最优变换函数Tξ*,使得fθ*能够attacker希望的选择。
当训练分类器时,参数α和β控制来自干净和后门数据的损失信号的混合强度。
在我们的实验中,我们发现如果α大于β,分类器在干净数据上的性能会迅速收敛到香草分类器(啥东西)的最佳性能。
相反,当β大于α时,分类器在后门数据上的性能很快达到最优值。然而,在两种情况下,后门分类器在干净样本和后门样本上仍然收敛到相同的最优性能。由于这些原因,我们在论文的剩余部分假设α=0.5和β=0.5(经典)。
这似乎是一个非凸约束优化(我也看不懂是不是,你说是就是咯),幸运的事,可以发现T的目的是愚弄f。考虑到f的决策边界在部分特殊的点(这里指的是参数空间)。
在T和f都是神经网络的随机优化算法中,更新T相当于将“更难”的投毒数据点注入训练集中来训练分类器。这些新的后门样本导致分类器的决策边界略有改变,以确保分类器在后门数据上工作良好。同时,这也可能恶化f在在干净数据上的性能。
这种对抗性游戏(f and T)类似于生成对抗性网络GAN的训练。与训练GANs类似,我们可以在更新对抗性数据的同时更新干净和对抗性数据。然而也类似于GANs,这种快速交替更新方案(更新T同时造成f的更新)可能会导致更新进入更长的收敛或导致训练过程陷入糟糕的局部极小值(例如,当后门攻击损失迅速变为零时,它会导致分类器在干净数据上的缓慢或饱和更新,因为分类器很难证明干净数据损失),尤其是当它比另一个更强的时候。
为了稳定这个训练过程,我们首先建议在一定次数的迭代后更新用于训练的当前后门数据k。具体来说,我们在收集当前转换函数的更新轨迹时,更新了当前转换函数生成的干净数据和中毒数据,如图2所示。
notion image
  • 在第一阶段,同时训练f和T
  • 在第二阶段,使用一个训练好的T对f进行微调
更新轨迹随后用于在固定次数的it操作k之后更新。在那之后,我们将这个试验形式重复多次。在这种新的训练方案下,我们发现分类器仍然可以采取大量的步骤来在干净的数据和后门上收敛到良好的性能;
例如,在MNIST上,中毒分类器可以在几个时期后达到香草分类器的最佳干净数据性能,而在其他数据集上,它无法转换为与相应的香草分类器一样的良好干净数据性能。这可以通过以下事实来解释:即使训练普通分类器(即,仅进行干净数据训练)也需要更长的时期才能达到最佳性能;例如2到3个时期以在MNIST上达到最佳性能但在其他数据集上达到数百个时期。因此,我们建议使用两阶段训练方案:在第一阶段,我们使用所提出的交替方案进行训练,以进行固定数量的试验;然后在第二阶段,我们只使用学习变换生成的干净数据和后门数据对分类器进行微调。在第一阶段,详细的训练过程如算法1所示
(说实话,我虽然没明白什么记录轨迹,k什么的,但这个伪算法看起来就是正常的优化迭代)
notion image

隐形触发器生成器

受对抗性示例的启发,我们将变换建模为输入上的扰动
生成函数ξ取一个输入,并在同一输入空间上生成一个人工感知的噪声,这保证了后门攻击的隐蔽性。我们可以在更复杂的U-Net架构中设计这样的生成器函数作为自动编码器。然而,通过用所提出的训练算法训练生成函数和分类器,我们观察到简单的auto-coder和U-Net之间没有显著的性能差异。(这俩都是啥)
给定所提出的生成函数,ε控制触发生成函数的健康度。在实际设置中,如果ε小于0.01,则通常在灰度MNIST数据集上,清洁图像和扰动图像之间也不存在明显差异。这个变换函数的公式形式化地形成了我们基于扰动的后门攻击方法。注意,在这个变换函数下,距离ℓ∞-是图像像素空间上的范数。
 

实验

 
Reflection Backdoor: A Natural Backdoor Attack onDeep Neural NetworksTargeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning