type
status
date
slug
summary
tags
category
icon
password

Abstract

联邦学习作为一种使用分布式训练数据集构建机器学习模型的新兴技术,可有效解决不同数据用户之间因联合建模而导致的本地数据隐私泄露问题,从而被广泛应用于多个领域并得到迅速发展。然而,现有的联邦学习系统已被证实在数据收集阶段、训练阶段和推理阶段都存在潜在威胁,危及数据的隐私性和系统的鲁棒性。本文从安全威胁和隐私威胁两类潜在威胁入手,围绕机密性、完整性和可用性(CIA 三元组)给出了联邦学习场景中安全属性的详细定义,并对联邦学习中各类攻击方式和防御手段进行了系统全面综述。
首先,本文对横向、纵向联邦学习过程,以及潜在威胁分别进行了概述,并从对抗性攻击和非对抗性攻击两个角度,分析了投毒攻击、对抗样本攻击和推理攻击等常见攻击的基本概念、实施阶段和现有方案。进一步地,依据不同的攻击方式,将防御手段划分为鲁棒性提升方法和隐私性增强技术两类:鲁棒性提升方法主要防御系统遭受的对抗性攻击,包括有数据消毒、鲁棒性聚合、异常检测、对抗训练、知识蒸馏、剪枝和其他方法等,隐私性增强技术主要防御系统遭受的非对抗性攻击,包括有同态加密、安全多方计算、差分隐私和区块链等。最后,本文给出了联邦学习中鲁棒性和隐私性方面的未来研究方向。
 

Introduction

NON-IID非独立同分布
虽然联邦学习能一定程度解决本地数据的隐私问题,但在模型参数共享、模型聚合时又会给攻击者带来新的可乘之机,如联邦学习的梯度会泄露用户数据或学习过程的隐私信息,攻击者会对训练数据或局部模型进行投毒,或在输入样本中加入恶意扰动,从而危害系统的安全性。

FL的威胁

 
notion image

联邦学习

联邦学习是一种以分布式方式训练模型的机器学习技术,其主要思想是确保参与方的数据保留在本地,而将训练的模型进一步上传和聚合到服务器。
联邦学习从不同数据分布方式可分为横向联邦学习(Horizontal Federated Learning,HFL)、纵向联邦学习(Vertical Federated Learning , VFL )和迁移联邦学习 (Federated Transfer Learning,FTL)三种类型。
依照传统机器学习过程的划分,联邦学习则可以分为三个阶段:数据收集阶段、训练阶段和推理阶段。
  • 数据收集:本地的数据收集、用户之间数据格式的协商等准备过程。
  • 模型训练:利用这些数据集执行机器学习训练算法,挖掘数据的潜在价值,迭代训练一定轮次后直至收敛的过程。
  • 推理阶段:把训练好的模型部署在具体的应用场景中,输入真实样本进行预测的过程。

潜在威胁

根据对安全属性的不同影响,本文将联邦学习中存在的潜在威胁划分为两大类,即安全威胁隐私威胁
  • 安全威胁会破坏联邦学习中的完整性和可用性,对联邦学习造成安全威胁的攻击称为对抗性攻击,其主要目的是干扰联邦学习训练或推理过程,影响联邦学习训练时的收敛速度或推理结果。
  • 隐私威胁会破坏联邦学习中的机密性,对联邦学习造成隐私威胁的攻击称为非对抗性攻击,其主要目的是试图从联邦学习各个阶段获取隐私信息或其它好处,但不会破坏模型训练和推理过程。

FL中的对抗攻击

*插一句,关于密码学在后门攻击中的应用,我觉得是有趣的,把数字签名,公钥体系等方法塞进后门里面挺有意思

投毒攻击

按攻击方式划分
  • 数据投毒:攻击者破坏训练数据集的完整性,通过渗入恶意数据以降低数据集质量或有目的的毒害数据。
  • 模型投毒:攻击者破坏训练过程完整性,通过完全控制部分用户的训练阶段,对上传的局部模型进行篡改,实现对全局模型的操纵。
按攻击目标划分
  • 拜占庭攻击(非定向):攻击者试图破坏训练可用性和模型可用性,使其无法收敛或无法在主要训练任务中达到最优性能,并且不针对任何特定的用户或数据样本。
  • 后门攻击(定向):攻击者试图使模型在某些目标任务上实现特定表现,同时保持模型在主要任务上的良好性能
    • 数据投毒和模型投毒都可能实现后门攻击,主要是模型投毒,如模型替换(收敛性很强的恶意模型) 分布式后门攻击(减少发现可能)

对抗样本攻击

机器学习中的对抗样本攻击是指在推理阶段中,刻意地给输入样本增加轻微的恶意扰动,使得分类器以极高概率对样本进行错误分类,从而导致模型输出错误的预测结果
按照攻击者拥有的信息,对抗攻击可以分为白盒攻击和黑盒攻击。在白盒攻击中,攻击者能够获得机器学习算法以及模型参数,并根据这些已知信息去制作对抗样本。在黑盒攻击中,攻击者不知道机器学习的算法和参数信息,通过与系统的交互过程来生成对抗样本。

搭便车攻击

搭便车攻击是指部分用户不参与协作或者不具备足够的条件,而试图从集体性质的服务和公共产品中获得优势。(有点DOS的感觉)
 
女巫攻击:女巫攻击(SybilAttack)指在允许成员自由加入和退出的系统中,单个攻击者通过多个合谋的身份加入系统,从而巧妙地分配攻击
针对通信攻击:在联邦学习中,需要在大量参与设备和服务器之间来回交换更新后的梯度,频繁的通信和传输的数据量都会产生大量的通信开销;其次,大量异构设备有限的网络带宽,会增加成员掉队的情况,进一步导致通信时间增长;此外,攻击者可能通过破坏通信信道来影响联邦学习系统的稳定性和鲁棒性。

FL中的非对抗攻击

模型提取攻击

机器学习中的模型提取攻击是指攻击者尝试反复发送数据以获取响应结果,从模型的API接口中恢复出原始模型参数或功能,甚至构造出与原始模型几乎等效的模型
破坏了模型的机密性

推理攻击

按照攻击目的不同,推理攻击可分为成员推理攻击和属性推理攻击,其中成员推理攻击目的是推断训练数据集中是否包含特定的个人数据记录,属性推理攻击目的是推断训练数据集的某些属性。

基于GAN的攻击

FL中的防御

notion image

鲁棒性增强

数据消毒(DataSanitization)是指对有害的、异常的数据进行清理,是针对数据投毒攻击的防御通用方法[65],在机器学习中较为常用。
鲁棒性聚合(RobustAggregation)
异常检测:经典异常检测
对抗训练:在模型训练的过程中加入微弱扰动
知识蒸馏(KnowledgeDistillation)作为模型压缩技术之一,就是将大模型相关知识逐步传递到小模型中,并从大模型学到的知识中学习有用信息来指导小模型训练,使小模型具备和大模型相当的性能。是将大模型压缩为小模型的方法
剪枝(Pruning)技术也是一种模型压缩技术,可以在用户的计算能力和通信带宽相对较低的情况下,将联邦学习模型的大小进行修剪,降低模型复杂度和提高精度。

隐私性增强

基于同态加密的隐私性增强
无需访问数据本身即可对数据进行处理的概率加密技术,即对经过同态加密的数据进行运算后再解密得到的结果与直接对明文进行运算得到的结果一致。
基于安全多方计算的隐私性增强
指无可信第三方参与下,多个参与方之间安全地计算一个模型或函数问题
基于差分隐私的隐私性增强
差分隐私(Differentialprivacy,DP)旨在传输的梯度信息中加入随机噪声,将其查询操作的实际结果隐藏起来或模糊化直至无法区分,从而实现对隐私数据的保护。
基于区块链的隐私性增强
Not bug but features Protecting World Leaders Against Deep Fakes