type
status
date
slug
summary
tags
category
icon
password
对分类器的高层次攻击可以分为以下三种类型:
- 对抗性输入:这是专门设计的输入,旨在确保被误分类,以躲避检测。对抗性输入包含专门用来躲避防病毒程序的恶意文档和试图逃避垃圾邮件过滤器的电子邮件。
包括对抗样本,0day输入等攻击,使用迁移学习,异常检测,对抗训练进行防御
- 数据中毒攻击:这涉及到向分类器输入对抗性训练数据。我们观察到的最常见的攻击类型是模型偏斜,攻击者以这种方式污染训练数据,使得分类器在归类好数据和坏数据的时候向自己的偏好倾斜。我们在实践中观察到的第二种攻击是反馈武器化(feedback weaponization),它试图滥用反馈机制来操纵系统将好的内容误分类为滥用类(例如,竞争者的内容或者报复性攻击的一部分)。
- 模型窃取技术:用来通过黑盒探测「窃取」(即复制)模型或恢复训练数据身份。例如,这可以用来窃取股市预测模型和垃圾邮件过滤模型,以便使用它们或者能够针对这些模型进行更有效的优化。
包括模型重建,成员泄漏的风险,
- Author:faii
- URL:https://www.faii.top/article/c1895f5b-ccd7-41d4-84ab-d1e123a991bc
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts