type
status
date
slug
summary
tags
category
icon
password
第一篇预处理的后门攻击防御论文

Abstract

在许多情况下,使用IP供应商已经培训过的神经网络知识产权(IP)更实用。由于我们不知道训练过程,神经IP中可能存在安全威胁:IP供应商(攻击者)可能会在神经IP中嵌入隐藏的恶意功能,即神经网络木马。
我们证明了这是一种有效的攻击,并提供了三种缓解技术:输入异常检测、重新训练和输入预处理。所有的技术都被证明是有效的。输入异常检测方法能够检测到99.8%的特洛伊木马触发器,尽管误报率为12.2%。重新训练的方法能够防止94.1%的特洛伊木马触发器触发
 

Intro

我们将恶意IP供应商称为攻击者,将购买神经IP的系统设计者称为防御者。
输入异常检测:
利用目前现有的常规异常检测方法(如SVM,决策树DT)
重新训练:
输入预处理:
在输入预处理方法中,我们在输入和神经IP之间放置了一个输入预处理器,因此神经IP的输入就是预处理器的输出。预处理器的目的是在不影响神经IP正常功能的情况下,防止非法输入触发特洛伊木马。为此,我们在输入预处理器中选择了自动编码器。
自动编码器是一个输入和输出尺寸相同的神经网络。只有合法数据用于训练自动编码器,自动编码器可以从训练数据中自动提取和学习特征。自动编码器的功能如下:
  • 如果输入与训练数据来自相同的分布,则输入和输出之间的差异很小,并且神经IP将正确使用所构建的输入。
  • 否则,重建的输入将遭受更大的失真,并且神经IP可能无法将其识别为特洛伊木马触发器。
注意,在这种方法中,神经IP被视为黑匣子,而不是重新训练方法,在重新训练方法中,设计者需要知道神经IP的权重,并需要重新配置神经IP。(这是一个AE的优势)
 

Background

Neural Networks

给了一个神经网络的介绍,拿一个感知器当实例
其中 是一个2x2的参数矩阵,全连接到隐藏层, 是一个2x1的参数向量,连接到输出
激活函数,使用均方误差作为误差函数

Poisoning Attack

使用双层优化方式可以对SVM进行数据投毒来找到使模型ACC最大下降的样本(不过这个应该不在我的研究范围内

Exploratory Attack

探索性攻击?我还以为是类似启发性搜索的内容
这里还提到了FGSM,实际上就是黑盒攻击(没有权重的攻击)
提到了对抗训练和蒸馏
在对抗性训练过程中,使用对抗性样本作为训练样本,以提高训练网络的鲁棒性。蒸馏是指从输入中提取网络的梯度,并在梯度太陡的地方对其进行平滑,从而使攻击者更难构建对抗性样本的训练策略。
 

Neural Trojans

动机

从IP供应商获得神经网络IP块。
神经网络的训练器可以在训练过程中将额外的功能结合到神经网络中。(如DNN水印)。因此,假设IP设计者在神经网络中嵌入了恶意功能,我们假设恶意功能(即网络木马)嵌入了神经网络的权重中。
 

Defense Mechanisms

这里实际上将后门的检测转换为了异常检测

输入异常检测 Input Anomaly Detection

如果没有分类器将输入标记为正,则该输入被确定为异常(即非法)(有点抽象

重训练

如果神经IP是一个软IP,即防御者可以对神经IP进行更改,防御者可以利用这种能力重新训练神经IP,即从神经IP设计者给出的权重开始继续训练神经IP。
是一个比较理想的方法,但是对防御者的要求较高

输入预处理

例如,神经IP设计者可以使用各种硬件模糊技术来锁定神经IP,或者对权重进行硬编码,使得它们不能被修改。在其他一些情况下,辩护人可能不需要知道每个合法样本的标签,即他需要依靠神经IP进行分类。
使用自动编码器进行数据预处理
自动编码器,又称复制器神经网络,是一个具有相同数量的输入和输出神经元的神经网络,具有瓶颈结构。
只有合法数据才能用于训练自动编码器。因此,在测试阶段,应该预计,如果输入来自合法分布,自动编码器的输出应该接近输入,因此神经IP应该能够像原始输入一样正确地对重建图像进行分类;如果输入不是来自非法分布,则重建的图像应该与原始输入有很大偏差,因此不应该能够触发特洛伊木马。(结合之前学习的VAE,大概能明白他想要做什么,是一个数据重建的效果)
*TODO 对AE的进一步学习
 
事实上我觉得这个预处理相当受限啊,准备看一下代码具体是怎么实现的。不是很鲁棒的样子。
Invisible Backdoor Attack with Sample-Specific TriggersPoison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks