type
status
date
slug
summary
tags
category
icon
password
还是要看一下这篇后门攻击的开山之作
Abstract
基于深度学习的技术在各种识别和分类任务上都取得了最先进的性能。然而,这些网络的训练成本通常很高,需要在许多GPU上进行数周的计算;因此,许多用户将培训过程外包给云,或者依赖于预先训练好的模型,然后针对特定任务进行微调。
在本文中,外包训练引入了新的安全风险:对手可以创建一个恶意训练的网络(后门神经网络),该网络在用户的训练和验证样本上具有最先进的性能,但在特定攻击者选择的输入上表现不佳。我们首先在一个玩具示例中通过创建后门手写数字分类器来探索BadNets的属性。接下来,我们通过创建一个识别st的美国路标分类器,在一个更现实的场景中演示后门
Introduction
Outsourcing the training procedure和Transfer learning是两个降低训练神经网络的成本
为这两种场景都带来了新的安全问题
Backdoor攻击对于DNN是可行的。但是对于外包训练中,模型架构是决定的,因此通过其他方法将后门触发器的识别器集成到预先指定的体系结构中
因此,使用基于数据投毒的方法来恶意训练是一个可能的方法
Background & Threat Model
神经网络
公式推导见笔记
外包训练
用户给训练者提供F的描述,并在保持的验证数据集上测试准确性。
攻击者在训练时返回后门模型θadv
θ特点如下:
- 不降低验证集的分类精度
- 提供与诚实训练模型预测不同的输入
攻击者可以任意修改训练模式(如数据投毒,改变训练算法,甚至直接调整神经网络参数)
迁移学习
为某个源任务训练的DNN可以通过细化而不是完全重新训练网络的权重,或者只替换和重新训练其最后几层,来转移到相关的目标任务
用户从已经被攻击(预训练)的模型进行学习
MNIST Digit Recognition Attack
这里主要记录我复现BadNets中对MNIST数据集的后门攻击的过程
论文中的攻击分为单目标攻击和all-to-all攻击
*事实上使用不改变神经网络结构的前提,将其修改为一个检测后门+两个不同神经网络的功能
攻击策略
在Dtrain中选取子集,将这些图像的后门攻击添加到训练数据集中,在进行重新训练
在某些攻击情况下,我们必须更改训练参数,包括步长和小批量大小,才能获得收敛
攻击效果
看了好久才看明白论文里figure4这个图测的是什么
不过这里没放一个攻击成功率的图吗?很奇怪
这里他复现出的图就比较合理,关于这里的Target Labels是分类后的预测标签,这里的True Label就是原本的标签。
可以参考他的复现。找到的pytorch的复现很奇怪w
- Author:faii
- URL:https://www.faii.top/article/d13c49ff-72d1-44b2-8afa-2535814332a8
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts