新加坡的一项新研究提出了一种新方法,可以检测智能手机视频会议工具另一端的人是否使用DeepFaceLive等方法冒充他人。
这种名为SFake 的新方法放弃了大多数系统所采用的被动方法,并使用户的手机振动(使用与智能手机中常见的相同的“振动”机制),并巧妙地模糊用户的脸部。
尽管实时深度伪造系统能够以各种方式复制运动模糊,但只要训练数据或至少预训练数据中包含模糊镜头,它们就无法对这种意外模糊做出足够快速的反应,并继续输出非模糊的脸部部分,从而揭示深度伪造电话会议的存在。
在研究人员自行整理的数据集上进行的测试结果(因为不存在具有主动相机抖动特征的数据集)发现,SFake 的表现优于基于视频的深度伪造检测方法,即使在面临具有挑战性的情况时也是如此,例如当视频会议中的另一个人用手握住相机而不是使用静态手机支架时发生的自然手部运动。
基于视频的 Deepfake 检测需求日益增长
最近,基于视频的深度伪造检测研究有所增加。在数年成功的基于语音的深度伪造盗窃之后,今年早些时候,一名财务工作者被骗将 2500 万美元转给了一名在深度伪造的视频电话会议中冒充首席财务官的欺诈者。
虽然这种系统需要高水平的硬件访问,但许多智能手机用户已经习惯了金融和其他类型的验证服务,这些服务要求我们记录我们的面部特征以进行基于面部的身份验证(事实上,这甚至是LinkedIn 验证过程的一部分)。
因此,随着此类犯罪不断成为头条新闻,此类方法似乎将越来越多地在视频会议系统中得到实施。
大多数解决实时视频会议深度伪造问题的解决方案都假设了一种非常静态的场景,即通话者使用固定的网络摄像头,不会发生任何移动或过度的环境或照明变化。智能手机通话不会出现这种“固定”的情况。
相反,SFake 使用多种检测方法来补偿手持智能手机视频会议中大量的视觉变量,并且似乎是第一个通过使用智能手机内置的标准振动设备来解决该问题的研究项目。
这篇论文的标题是《撼动假货:通过主动探测实时检测 Deepfake 视频》,来自新加坡南洋理工大学的两名研究人员。
方法
SFake 被设计为一种基于云的服务,其中本地应用程序会将数据发送到远程 API 服务进行处理,然后返回结果。
然而,它仅占用 450mb 的空间,并且经过优化的方法使其可以在设备本身上完全处理深度伪造检测,以防网络连接导致发送的图像过度压缩,从而影响诊断过程。
以这种方式运行“所有本地”意味着系统可以直接访问用户的摄像头源,而不会出现视频会议中常见的编解码器干扰。
平均分析时间需要四秒的视频样本,在此期间,要求用户保持静止,并且 SFake 会以随机间隔发送“探测器”以引起相机振动,而 DeepFaceLive 等系统无法及时响应。
(需要再次强调的是,任何未在训练数据集中包含模糊内容的攻击者都不太可能生成一个即使在更有利的情况下也能生成模糊的模型,并且 DeepFaceLive 不能仅仅将此功能“添加”到在缺乏策划的数据集上训练的模型中)
系统选择脸部的特定区域作为潜在的深度伪造内容区域,不包括眼睛和眉毛(因为该区域的眨眼和其他面部运动超出了模糊检测的范围,并且不是理想的指标)。
正如我们在上面的概念图中所看到的,在选择恰当且不可预测的振动模式、确定最佳焦距并执行面部识别(包括通过Dlib组件进行标志检测,该组件估计标准的 68 个面部标志)之后,SFake 从输入面部中获取梯度并集中在这些梯度的选定区域上。
方差序列是通过依次分析所研究的短片中的每一帧来获得的,直到达到平均或“理想”序列,其余部分则忽略。
这提供了提取的特征,可以基于训练有素的数据库(其中,更暂时)用作深度伪造内容概率的量化器。
该系统要求图像分辨率为 1920×1080 像素,并且镜头至少需要 2 倍变焦。论文指出,Microsoft Teams、Skype、Zoom 和腾讯会议都支持此类分辨率(甚至更高的分辨率)。
大多数智能手机都有前置摄像头和自拍摄像头,但通常只有其中一个具有 SFake 所需的变焦功能;因此,该应用程序要求通信者使用两个摄像头中满足这些要求的那个。
此处的目标是将用户脸部的正确比例纳入系统将要分析的视频流中。本文观察到,女性使用移动设备的平均距离为 34.7 厘米,男性为 38.2 厘米(据《验光学杂志》报道),SFake 在这些距离下运行良好。
由于手持视频的稳定性是一个问题,而且手部运动导致的模糊会妨碍 SFake 的功能,因此研究人员尝试了几种方法来弥补。其中最成功的方法是计算估计地标的中心点并将其用作“锚点”——实际上是一种算法稳定技术。通过这种方法,准确率达到了 92%。
数据和测试
由于不存在适合此目的的数据集,研究人员开发了自己的数据集:
“[我们] 使用 8 个不同品牌的智能手机记录 15 位不同性别和年龄的参与者,以建立我们自己的数据集。我们将智能手机放在距离参与者 20 厘米的手机支架上,然后放大两倍,对准参与者的脸部以涵盖其所有面部特征,同时以不同的模式振动智能手机。
“对于前置摄像头无法变焦的手机,我们用后置摄像头代替。我们录制了 150 个长视频,每个视频时长 20 秒。默认情况下,我们假设检测周期为 4 秒。我们通过随机化开始时间,从一个长视频中剪辑出 10 个时长为 4 秒的片段。因此,我们总共获得了 1500 个真实片段,每个片段时长为 4 秒。”
虽然DeepFaceLive(GitHub 链接)是该研究的中心目标,因为它是目前使用最广泛的开源实时深度伪造系统,但研究人员还采用了另外四种方法来训练其基础检测模型:Hififace;FS-GANV2;RemakerAI;和MobileFaceSwap —— 考虑到目标环境,最后一种方法是特别合适的选择。
1500 个伪造视频以及等量的真实未经修改的视频用于训练。
SFake 针对多种不同的分类器进行了测试,包括SBI、FaceAF、CnnDetect、LRNet、DefakeHop变体以及免费的在线深度伪造检测服务Deepaware。对于每种深度伪造方法,都训练了 1500 个假视频和 1500 个真实视频。
对于基础测试分类器,使用了具有ReLU 激活函数的简单两层神经网络。随机选择了 1000 个真实视频和 1000 个虚假视频(尽管虚假视频全部是 DeepFaceLive 的示例)。
使用受试者工作特征曲线下面积(AUC/AUROC )和准确度(ACC)作为指标。
为了进行训练和推理,我们使用了 NVIDIA RTX 3060,并在 Ubuntu 下运行测试。测试视频是使用小米 Redmi 10x、小米 Redmi K50、OPPO Find x6、华为 Nova9、小米 14 Ultra、荣耀 20、Google Pixel 6a 和华为 P60 录制的。
为了符合现有的检测方法,测试使用PyTorch实现,初步测试结果如下表所示:
以下是作者的评论:
“在所有情况下,SFake 的检测准确率都超过 95%。在五种 Deepfake 算法中,除了 Hififace,SFake 在其他 Deepfake 算法中的表现优于其他六种检测方法。由于我们的分类器是使用 DeepFaceLive 生成的假图像进行训练的,因此在检测 DeepFaceLive 时,其准确率最高,达到 98.8%。
“当面对 RemakerAI 生成的假脸时,其他检测方法表现不佳。我们推测这可能是因为从互联网下载视频时会自动压缩,导致图像细节丢失,从而降低检测精度。然而,这并不影响 SFake 的检测,它在对抗 RemakerAI 的检测中达到了 96.8% 的准确率。”
作者进一步指出,SFake 是将 2 倍变焦应用于拍摄镜头的场景中性能最强的系统,因为这会夸大运动,并且是一项极具挑战性的前景。即使在这种情况下,SFake 也能够分别在 2.5 倍和 3 倍放大倍数下实现 84% 和 83% 的识别准确率。
结论
今年深度伪造检测领域主要由那些仅仅激起频率分析领域古老方法的论文所主导(这远不能免受深度伪造领域创新的影响),而利用实时深度伪造系统的弱点来对付自身的项目则是一个令人耳目一新的成果。
2022 年底,另一个系统使用显示器亮度变化作为检测器钩子;同年,我自己对 DeepFaceLive 无法处理硬 90 度侧面视图的演示引起了一些社区的兴趣。
DeepFaceLive 是此类项目的正确目标,因为它几乎肯定是视频会议欺诈方面犯罪分子关注的焦点。
然而,我最近看到一些轶事证据表明,目前在 VFX 社区中非常流行的LivePortrait系统处理个人资料视图比 DeepFaceLive 要好得多;如果它能被纳入这项研究中,那将会很有趣。
原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/li-yong-zhi-neng-shou-ji-de-zhen-dong-gong-neng-jian-ce-shi