type
status
date
slug
summary
tags
category
icon
password
介绍
第一篇可以在train from scratch(意思是没有预训练模型)的情况下work的hidden trigger backdoor attack。
之前的hidden trigger backdoor attack,如Hidden Trigger Backdoor Attacks(AAAI2020),需要用到模型的特征空间,因此不支持train from scratch。
sleeper agent通过使用surrogate model,以及gradient matching、data selection等,实现了在train from scratch的情况下植入后门。
此外,本文用到的train时perturbation,inference时patch,有一定的启发意义。
算法
算法核心为以下四部分:
Gradient matching:梯度匹配,核心中的核心,实现了Ladv与Ltrain的联系。
Data selection:选择攻击效果最好的数据(图像)进行毒化。
Adaptive retraining:周期性地对代理模型(surrogate model)进行重新训练,以改进生成扰动(perturbation)的质量和效果。
Black-box:黑盒模型,即攻击者对真正受攻击的模型(victim model)一无所知。
问题定义
在引入surrogate model的情况下,问题定义如下:
(1)(推理阶段)x+patch尽量被模型分类为yt;
(2)(训练阶段)找到能使得xi+δ尽量被分为yi的模型参数θ
直接计算上述Bilevel Optimization存在困难,因此引入Gradient matching。
优化算法
本文使用了一种梯度对齐的方法来进行后门攻击。对于作者指定的代理网络和某一张被攻击图片,一个梯度是加上 trigger 后在目标类上的损失对于代理网络参数求得的梯度,另一个梯度是加上扰动后在原类别上的损失对于代理网络参数求得的梯度(扰动是我们需要知道的,也就是被优化项)。
首先定义adversarial objective:
Ds表示源类别分布,p是攻击者在测试时使用的触发误分类的补丁,yt是预期的目标标签。
alignment objective:
其中
training gradient involving the nonzero perturbations(扰动)
estimate the expectation of Ladv by calculating the average adversarial loss over K training points from the source class
通过优化A,就能解决Bilevel Optimization。(对于扰动不敏感,但对于加入的触发器敏感?说实话,这个idea我需要看一下论文才能更清楚)
在Gradient matching之外,作者还使用了Poison Selection(即Data selection)和Model Retraining,大幅提高了攻击成功率。
测试的内容比较标准和格式化
实验
1.Baseline Evaluations
灰盒条件下(surrogate model与victim model结构相同,数值不同),不同模型的表现:
中毒率的影响:
集成策略对效果提升明显:
黑盒测试:
ImageNet测试:
2.Comparison to Other Methods
与两大著名"clean-label" attack的比较。(Clean-Label Backdoor即Poison frogs!)
3.Defenses
与主流防御方法的对抗。在面对Spectral Signatures、Activation Clustering与DPSGD时,表现尚有提升空间。
4.Evaluations Under Hard l∞-norm Constraints
不同约束下的攻击效果。
5.Ablation Studies
对patch-location、retraining、data selection以及retraining的参数T进行了消融实验,证明了各部分的不可或缺性。
- Author:faii
- URL:https://www.faii.top/article/69f65fe0-be70-4209-8c34-dd2e3a874679
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts