type
status
date
slug
summary
tags
category
icon
password
first training-controlled sample-specific attack
有开源代码诶:
 

简单总结

一种新的后门攻击方法
以前的工作生成的触发器都是与输入无关的,这是一个全新的工作,打开了触发器与输入相关的大门。
场景:外包场景,攻击者持有数据和模型的设计
使用数据集:MNIST、CIFAR-10和GTSRB
触发器特点:强制生成的触发器对不同的输入具有多样性和不可重用性
模型特点:设计一个专门生成触发器的生成器(自动编码器结构),设计一个由多个任务合成的loss,需要保证多样性和不可重用性。
攻击方法:模型在使用SGD更新参数过程中,对每一个batch中的每一个输入的干净样本根据概率大小,选择使用该样本计算分类loss,或是选择该样本添加对应触发器计算攻击loss,或是选择该样本添加随机抽取别的样本的触发器计算分类loss,将一个batch内的所有样本对应的loss加起来,并加上保证触发器差异的一个正则化项,进而训练得到带后门的模型。 这里使用了一些Trick来实现模型的特点,不过我比较关注触发器的设计
 

AE network

看懂了这里的三种模式,AE使用的损失函数还算简单?没太看懂
notion image
notion image
notion image
notion image
 
BackdoorBox: A Python Toolbox for Backdoor LearningBadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain