type
status
date
slug
summary
tags
category
icon
password
攻击模型¶
Replay attack¶
在这种攻击中,攻击者远程控制高质量设备来播放真实用户预先收集或合成的语音。在欺骗扬声器之后,对手可能会发起一些恶意行为(例如,查询敏感信息)
Mimic attack¶
在这种攻击中,攻击者靠近智能扬声器(例如,在会议室),智能扬声器具有音频扬声器识别(SR)功能。攻击者可能会模仿真实用户的声音,或使用对抗音频来欺骗SR。
研究目标¶
对于重放攻击(活跃度检测):我们希望提出活跃度检测方法,以区分(推断)语音是否由,真实的人类或音频硬件。语音的传输(传播)依赖于其原始资源。因此,科学问题是:给定一个语音样本,我们能确定它是由真实的人类还是硬件生成的吗?输入是一个语音wav文件,输出是二进制结果:(人工/硬件)
对于模拟攻击(用户身份验证):在这种攻击中,我们假设攻击者可以欺骗智能扬声器的说话人识别(SR)。然后,目标是验证用户。因此,科学问题是:如果没有说话人识别技术,我们能否提取有用的特征来验证用户。为了说明回放和模拟之间的区别,让我介绍一些现有的防御方法
现有防御方法¶
现有防御方法主要针对重放攻击,而非模拟攻击
基于加速器的方法¶
该方法要求用户佩戴内置在玻璃或耳机中的加速器。然后,当用户说话时,加速器会收集到她的皮肤振动。然而,当扬声器播放声音时,没有振动。
然而,如果攻击者戴上油门,用扬声器播放声音,轻轻说出一些语音命令(模拟攻击),这种防御方法将毫无用处
基于超声波的方法¶
在这种方法中,我们发送超声波来感知人类的运动或口腔运动。当用户靠近智能音箱时,我们会感觉到她的嘴巴运动,否则,我们会感知到它的位置。在游戏攻击场景中,语音是由硬件设备生成的,很难再现用户的嘴巴动作或身体动作。
然而,如果攻击者进入家中,她可以假装说话,并使用另一个设备播放真实用户的声音。在这种情况下,仍然有口腔运动或身体运动。
研究动机¶
从不同频道的语音频谱进行域打印¶
在这种情况下,我们将真实语音和欺骗语音频谱之间的差异应用于恶意检测和用户身份验证。例如,在论文[1]中,作者使用两个扬声器麦克风,采集2通道语音样本,并计算频域差以提取特征。如上图所示,他们发现不同的人有不同的特征。因此,他们可以进行活体检测和语音认证。
限制:此功能与用户和智能手机之间的距离不一致。用户需要使用智能手机保持特定姿势
分析一个通道中的频谱¶
在论文[2]中,作者发现,当我们收集不同用户/扬声器生成的语音样本时,频谱看起来非常不同。他们定义了一些特征,并进行了活体检测。
限制:该系统可以在用户和智能音箱之间保持较长距离的情况下工作。然而,准确性不高,我们无法实现实际的用户身份验证
改进¶
在这项研究中,我们利用了一个事实,即流行的智能扬声器有多个麦克风。例如,Amazon Echo上有七个麦克风。通过利用麦克风阵列和现场打印的思想,我们希望提出一种新的系统,可以实现活动检测和用户身份验证。
- Author:faii
- URL:https://www.faii.top/article/ea1ca04f-b274-4152-8a58-8cbcb7e868ba
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts