type
status
date
slug
summary
tags
category
icon
password

介绍

第一篇可以在train from scratch(意思是没有预训练模型)的情况下work的hidden trigger backdoor attack。
之前的hidden trigger backdoor attack,如Hidden Trigger Backdoor Attacks(AAAI2020),需要用到模型的特征空间,因此不支持train from scratch。
sleeper agent通过使用surrogate model,以及gradient matching、data selection等,实现了在train from scratch的情况下植入后门。
此外,本文用到的train时perturbation,inference时patch,有一定的启发意义。

算法

notion image
算法核心为以下四部分:
Gradient matching:梯度匹配,核心中的核心,实现了Ladv与Ltrain的联系。
Data selection:选择攻击效果最好的数据(图像)进行毒化。
Adaptive retraining:周期性地对代理模型(surrogate model)进行重新训练,以改进生成扰动(perturbation)的质量和效果。
Black-box:黑盒模型,即攻击者对真正受攻击的模型(victim model)一无所知。

问题定义

在引入surrogate model的情况下,问题定义如下:
notion image
(1)(推理阶段)x+patch尽量被模型分类为yt;
(2)(训练阶段)找到能使得xi+δ尽量被分为yi的模型参数θ
直接计算上述Bilevel Optimization存在困难,因此引入Gradient matching。

优化算法

本文使用了一种梯度对齐的方法来进行后门攻击。对于作者指定的代理网络和某一张被攻击图片,一个梯度是加上 trigger 后在目标类上的损失对于代理网络参数求得的梯度,另一个梯度是加上扰动后在原类别上的损失对于代理网络参数求得的梯度(扰动是我们需要知道的,也就是被优化项)。
首先定义adversarial objective:
notion image
Ds表示源类别分布,p是攻击者在测试时使用的触发误分类的补丁,yt是预期的目标标签。
alignment objective:
notion image
其中
notion image
training gradient involving the nonzero perturbations(扰动)
notion image
estimate the expectation of Ladv by calculating the average adversarial loss over K training points from the source class
通过优化A,就能解决Bilevel Optimization。(对于扰动不敏感,但对于加入的触发器敏感?说实话,这个idea我需要看一下论文才能更清楚)
在Gradient matching之外,作者还使用了Poison Selection(即Data selection)和Model Retraining,大幅提高了攻击成功率。
notion image
测试的内容比较标准和格式化

实验

1.Baseline Evaluations

灰盒条件下(surrogate model与victim model结构相同,数值不同),不同模型的表现:
notion image
中毒率的影响:
notion image
集成策略对效果提升明显:
notion image
黑盒测试:
notion image
ImageNet测试:
notion image

2.Comparison to Other Methods

与两大著名"clean-label" attack的比较。(Clean-Label Backdoor即Poison frogs!)
notion image

3.Defenses

与主流防御方法的对抗。在面对Spectral Signatures、Activation Clustering与DPSGD时,表现尚有提升空间
notion image

4.Evaluations Under Hard l∞-norm Constraints

不同约束下的攻击效果。
notion image

5.Ablation Studies

对patch-location、retraining、data selection以及retraining的参数T进行了消融实验,证明了各部分的不可或缺性。
notion image
Clean-Label Backdoor Attacks on Video Recognition ModelsTrojanZoo