type
status
date
slug
summary
tags
category
icon
password
/ps: 这篇论文发表于2019年,作者来自UCB和USC,是deepfake detection领域一篇比较经典的论文,目前被引数达到550左右,
介绍
背景
Deepfake这个词是“深度学习”和“假冒”两个词的组合。一般来说,Deepfake指的是由人工智能生成的、现实生活中不存在的人或物体,它们看上去是真实的。Deepfake的最常见形式是人类图像与视频的生成。例如,在购物时虚拟地穿上衣服,对演员进行换脸等。
Deepfake在兴起的同时时,也因其不道德和恶意方面的应用而臭名昭著。 2017年底,名为“deepfakes”的Reddit用户将名人的面孔用于色情视频转换生成,并将其发布到网络上。这迅速传遍各媒体和网络,此后大量新的Deepfake视频开始出现。2018年,BuzzFeed发布了Barak Obama的deepfake演讲,它也是使用Reddit用户的软件(FakeApp)制作,这引起了人们对身份盗用,假冒以及错误信息在社交媒体上传播的担忧。
在这些事件之后,这一相关的deepfake制作和检测研究在学术界引起了人们的关注
Deepfake
这些所谓的人工智能合成媒体(Deepfake)分为三类:
- Face-swap,即将视频中的人脸自动替换为另一个人的人脸。这类技术已被用于将著名演员插入各种从未出现过的电影片段,并被用于创作非自愿的色情作品。
- Lip-sync,其中源视频被修改以使口腔区域与任意音频记录一致。例如,Jordan Peele制作了一个特别令人印象深刻的媒体例子,其中奥巴马总统的视频被修改为“特朗普总统是一个彻底的失败者”;
- puppet-master,一名表演者坐在摄像机前,攻击者按照表演者的表演内容,为目标人物制作动画(头部动作、眼睛动作、面部表情)
早期的deepfake是具有明显缺陷的,比如其中描绘的个人眨眼的频率存在明显问题等,因此早期的detector可以根据这些面部特征进行判断。然而,随着CNN与GAN的技术发展,简单的面部特征反常现象变得越来越罕见,deepfake生成的内容更加真实,造成许多detector失准。
(图1:早期deepfake生成视频-人物在说话时没有眨眼动作)
此外,一些detector的设计基于生成过程中引入的一些反常像素。这些基于像素的技术也会受到如附加噪声,重新压缩,调整大小等技术的干扰。
方法
假设当一个人说话时,他们有不同的(但可能不是唯一的)面部表情和动作。
给定单个视频作为输入,首先跟踪面部和头部的运动,然后提取特定动作单元的存在和强度。通过基于SVM的分类器,将一个个体与其他个体以及真人模仿者和deepfake模仿者区分开来。
面部跟踪与测量
使用开源的面部行为分析工具包OpenFace2来提取视频中的面部和头部运动。该库提供给定视频中每个帧的二维和三维面部标记位置、头部姿势、眼睛凝视和面部动作单位。
这里给出提取特征的一个例子如图2。
(图2:面部跟踪与测量示意图)
对于OpenFace而言,面部肌肉的动作可以用面部动作单位AU编码,如AU01:内眉抬起程度,AU06:脸颊抬起程度,AU15:压唇程度等。这里图2给出的是来自250帧剪辑片段中的五个等距帧,显示了对OpenFace的跟踪结果。下半部分为此视频剪辑上测量的一个动作单元AU01(眉毛抬起)的程度。
不同的人在说话时会表现出相对不同的面部和头部运动模式。而Deepfake假视频往往会破坏这些模式,因为假视频中的这些模式的表达由模仿算法控制,可能导致嘴巴与脸部的其他部分不自然的分离。基于这个原理,本文提出了一个高度个人化的软生物识别指标(包含16个面部动作特征)。
这16个AU增加了以下四个特征:
(1)头部绕x轴旋转;
(2)头部绕z轴旋转;
(3)嘴角之间的三维水平距离;
(4)下唇和上唇之间的三维垂直距离。
第一对特征是一般的头部运动。第二对特征是嘴伸(AU27)和唇吸(AU28)这两个特征。本文使用Pearson相关性来测量这些特征之间的线性度,以表征个人的运动特征。在总共20个面部/头部特征的情况下,本文计算了所有20个特征之间的Pearson相关性,在所有10秒重叠的视频片段中产生20C2=(20×19)/2=190对特征
数据集
(图三)
本文的数据集由原始视频,嘴唇同步Deepfake假视频、喜剧模仿视频、换脸Deepfake和木偶大师deepfake(代表三种deepfake应用)组成,图三是一个数据集样本的示例帧
建模
本文首先提供了一个特征可视化示例,通过测量希拉里·克林顿(棕色),巴拉克·奥巴马(浅灰色带框),伯尼·桑德斯(绿色),唐纳德·特朗普(橙色),伊丽莎白·沃伦(蓝色)的190-D特征的二维可视化),随机人物(粉色),以及奥巴马的Deepfake假视频(深灰色带框)等人物的面部特征并生成特征向量如图4
(图4:奥巴马,川建国,Elizabeth等名人的面部特征,其中粉色是随机的普通人,还是存在一定区分度的)
可以注意到,这样的可视化效果可以使用支持向量机SVM来进行分类决策。本文在进行SVM训练时也进行了一系列预设置如下:
使用从FaceForensics原始视频数据集中提取的随机人物的10%的视频片段,来优化控制高斯核宽度和异常值百分比的SVM超参数γ和Γ。具体来说,本文对γ和Γ进行了网格搜索,并选择了在名人和这些随机人之间产生最高区分的超参数。
这些超参数针对每个名人数据集进行了调整。SVM是在从重叠的10秒剪辑中提取的20个特征上训练的。在测试过程中,SVM符号决策函数的输入被用作新的10秒剪辑的分类分数(负分数对应于假视频,正分数对应于真实视频,分数的大小对应于距决策边界的距离,可以用作置信度的度量)
实验与结果
对喜剧模仿假视频(黑色方块),随机人物假视频(白色方块),嘴唇同步Deepfake假视频(黑色圆圈),换脸Deepfake假视频(白色圆圈)和木偶大师Deepfake假视频(黑色菱形)的识别准确度如下:
鲁棒性
如前所述,许多取证技术在像再压缩这样的简单预处理面前失败了,因此本文对于这个检测技术的鲁棒性进行了测试,每个原始和伪视频片段都以H.264量化质量20进行初始保存。然后以40的较低质量重新压缩每个片段。
经过预处理之后,检测器的效果(AUC)几乎没有变化,因为分析并不依赖于个别像素点,所以对简单的预处理是稳健的。
讨论
本文提出的方法与现有的基于像素的检测方法相比,可以更好地抵御图像压缩的影响。不过我们也发现,使用面部特征方法的适用性容易受到人们说话的不同背景的影响(直面镜头正式讲话,与不看镜头的现场采访),因此,可能的改进方法为在各种多样化环境中收集更大、更多样化的视频集,或者构建几位名人基于特定环境下的讲话模型。
除了这种背景环境效应之外,当演讲人始终远离镜头时,动作单元的可靠性可能会受到严重影响。为了解决这些局限性,建议通过语言分析来增强模型性能,更好地捕获所说内容与说法方式之间的相关性。
评价
作者认为一个人说话的时候面部表情和头部运动会展现出独特的模式,称之为soft biometric models ,但是deepfakes和face-reenactment生成的假脸不会有这种特定的模式,因为他们的表情被控制了。
虽然说文章中给出的例子存在一定特异性,但是考虑到在可以预先获得名人数据集进行训练的应用前提下,这样的trick也就可以接受了。而本文的重点是开创了人物面部特征学习来防御deepfake的新思路,从此可以和目前已经很成熟的面部识别领域相交叉,这样的insight是很有趣的。
- Author:faii
- URL:https://www.faii.top/article/7370c1d6-71d7-445e-a19a-173f6dac166f
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts