type
status
date
slug
summary
tags
category
icon
password
Barreno 等人对机器学习的安全问题进行了初步调查 [61][66]。他们将针对机器学习系统的攻击分为三个轴:
  1. 影响:攻击是否会毒化训练数据;
  1. 安全违规:一个对抗样本是属于假阳性还是假阴性;
  1. 特异性:攻击针对特定实例还是广泛类别。

分类

威胁模型

  • 对抗性伪造(Adversarial Falsification)
    • 假阳性攻击会生成一个负样本,该样本被错误分类为正样本(I 类错误)。在恶意软件检测任务中,良性软件被归类为恶意软件就是假阳性。在图像分类任务中,假阳性可能是人类无法识别的对抗图像、而深度神经网络将其预测为具有高置信度分数的类别。图 2 展示了一个图像分类的误报例子。
    • 假阴性攻击生成一个正样本,该样本被错误分类为负样本(II 类错误)。在恶意软件检测任务中,假阴性可能是恶意软件(通常被视为阳性)无法被训练模型识别的情况。假阴性攻击也称为机器学习逃逸(machine learning evasion)。这种错误在大多数对抗图像中都有体现,人类可以识别图像,但神经网络无法识别它。
  • 攻击者的知识(Adversary's Knowledge)
    • 白盒攻击假设对手知道与训练的神经网络模型相关的一切,包括训练数据、模型架构、超参数、层数、激活函数、模型权重。许多对抗样本是通过计算模型梯度得到的。由于深度神经网络往往只需要没有人造特征的原始输入数据,并且部署端到端结构,因此与机器学习中的对抗样本相比,特征选择不是必需的。
    • 黑盒攻击假设对手无法访问经训练的神经网络模型。攻击者只是一个标准用户,只知道模型的输出(标签或置信度分数)。这种假设对于攻击在线机器学习服务很常见(例如,AWSGoogle Cloud AIBigMLClarifaiMicrosoft AzureIBM BluemixFace++ 上面的机器学习)。
  • 对抗特异性(Adversarial Specificity)
    • 有目标攻击(Targeted attacks)将深度神经网络误导到特定的类别。有目标攻击通常发生在多分类问题中。例如,对手通过欺骗图像分类器以将所有对抗样本预测为一个类别。在人脸识别/生物识别系统中,攻击者试图将人脸伪装成授权用户(顶替)[67]。有目标攻击通常会最大化目标对抗类的概率。
    • 无目标攻击(Non-targeted attacks)不会让神经网络输出特定的类别。除了原始输出之外,对抗类输出可以是任意的。例如,攻击者在人脸识别系统中将某人的脸错误识别为其他任意人脸以逃避检测(躲避)[67]。与有目标攻击相比,无目标攻击更容易实施,因为它有更多的选项和空间来重定向输出。无目标对抗样本通常以两种方式生成:1)进行多次目标攻击,并从结果中选择扰动最小的攻击;2) 最小化正确类别的概率。
  • 攻击频率(Attack Frequency)
    • 单次攻击(One-time attacks)只需要优化一次对抗样本。
    • 迭代攻击(Iterative attacks)需要多次更新对抗样本。

扰动

小的扰动是对抗样本的基本前提。对抗样本被设计得接近原始样本,且人类难以察觉,但与人类相比,它可以使深度学习模型的表现有所下降。我们分析了扰动的三个方面:扰动范围、扰动限制和扰动测量。
  • 扰动范围(Perturbation Scope)
    • 个体攻击(Individual attacks)会为每个干净的输入产生不同的扰动。
    • 通用攻击(Universal attacks)只会根据整个数据集生成通用的扰动。这种扰动可以应用于所有干净的输入数据。
  • 扰动限制(Perturbation Limitation)
    • 优化扰动(Optimized Perturbation)将扰动定为优化问题的目标。这些方法旨在使扰动最小化,使人类无法识别。
    • 恒定扰动(Constraint Perturbation)将扰动定为优化问题的约束。这些方法只要求扰动足够小。
  • 扰动测量(Perturbation Measurement)
    • ℓp 通过 p 范数距离测量扰动的大小:

生成对抗样本的方法

对抗样本防御方法

 

对抗样本应用

 
*后面有时间可以看一下这三个部分的论文
数据投毒DeHiREC: Detecting Hidden Voice Recordersvia ADC Electromagnetic Radiation