鉴别人脸深度伪造，人民中科、中科院自动化所联合提出基于身份空间约束的检测方法

机器之心专栏

人民中科、中科院自动化所国家模式识别实验室

来自人民中科与中科院自动化所国家模式识别实验室的研究团队，提出了一种基于身份空间约束的伪造人脸检测新方法，该方法具有较好的泛化性与兼容性。

随着深度学习等技术的发展，机器自动生成内容的水平不断提高；其中深度伪造（Deepfakes）更是内容生产中的热门技术，在短视频、直播、视频会议、游戏、广告、军事等领域已得到了广泛应用。但具备高度欺骗性的深度伪造技术也引发了诸多争议，它进一步混淆了数字世界与真实世界边界，带来了相应的风险和挑战。

深度伪造技术的兴起主要基于图像和音频合成技术的发展，是运用深度学习模型和数据等各种资源，合成具有特定内容音视频的技术；其中利用深度伪造技术生成逼近实拍的人脸图像的技术又被称为伪造人脸或假脸合成技术。以伪造人脸为例，又可分为多种，如凭空合成整幅假脸、交换两个人脸的身份、修改人脸的属性特点（年龄、性别、肤色等）以及改变人脸的表情、嘴型。比如《速度与激情 7》拍摄时演员保罗沃克不幸意外身亡，剧组就采用了人脸交换技术模拟出他的脸，完成了电影后半部分的拍摄。

图 1 《速度与激情 7》中保罗沃克的脸由 CGI 技术合成

基于训练样本的深度学习，能结合脸型、语音、微表情、笔迹等生物特征进行综合学习，随着样本数据增多，机器对目标的模拟就越真实。随着技术的成熟，伪造的门槛和成本不断降低，大部分人不需要多少技术知识，只要按照步骤上传照片，即可瞬间完成人脸伪造，生成短视频、广告乃至新闻，这固然是文化、消费等产业的创意利器，但也不可避免的造成了虚假信息的爆发式增长。尤其是一些不法分子正在利用该技术合成欺诈勒索视频、制造虚假新闻、侵害他人肖像、伪造有害言论。

面对深度伪造技术存在的风险，各国纷纷出台相关政策并推出检测手段进行防范。为维护国家安全、社会秩序和公共利益，近日国家网信办和公安部也指导各地网信部门、公安机关依法约谈了 11 家企业，并要求加强对涉深度伪造技术应用的评估。深度伪造是技术发展到一定阶段的产物，对深度伪造的检测，是一场涉及人工智能的攻防竞赛。为保证个人、社会、国家乃至整个互联网的信息安全，公众需要有足够能力予以识别和区分；为此，提供可商业化的深度伪造鉴别能力迫在眉睫。

为此，人民中科与中科院自动化所国家模式识别实验室的研究团队构建了目前世界上规模最大的 CG 图像识别数据集，并提出了一种基于身份空间约束的伪造人脸检测新方法。

一、基本思想

目前现有的人脸交换检测器简单使用基于 CNN 的分类器将人脸图像映射到真伪标签上，在已知的操作方法上获得了极好的精度。然而，他们无法识别由未知的面部交换模型产生的假面部图像。如图 2 所示，用 DeepFakes 训练的检测器在数据集中获得了较高的高精度(1-a)；但在检测 Celeb-Df v2 数据集中另一个不同的人脸交换模型伪造的图像时失败了(1-b)。结果表明，该检测器严重过度拟合与特定操作方法密切相关的鉴别特征，导致泛化能力较差。为了应对新型伪造技术的出现，鉴别方将不得不重新收集数据和训练鉴别模型。并且随着合成技术的多样化发展，这样更新迭代的难度会不断提升而作用却会越来越小。这种优化迭代上的困难导致了常规的度量学习方法应用到人脸交换检测领域时通常无法取得理想的效果。

图 2 篡改定位，这两种检测器在 DeepFakes 上进行了训练。a)基于 CNN 的分类器（ResNet50）只能检测已知的伪造；b）DISC 能够检测 Celeb-Df 中未知的伪造。

研究团队从实际应用出发，通过大量的科学观察和实验发现，公众人物或特定人物在实际的人脸交换检测任务中，他们的身份总是已知的，或者每个人至少有一个真实的面部图像。既然卷积神经网络单凭待测图像进行分类的泛化性能不佳，而参考人脸图像又包含了相应身份人物的先验信息，这些信息利用起来可为伪造人脸图像鉴别模型提供重要判定依据。该思想对实际应用较为简单、合理，有助于克服泛化问题。

二、方法介绍

如图 3 所示，基于身份空间约束的换脸鉴别框架主要包含两个部分：身份语义编码器和主干网络，前者被用于构建空间约束金字塔来引导主干网络更好地捕捉与身份信息关联度更紧密区域的鉴伪线索，后者被限制将注意力集中在与身份相关的区域上，对主干网络的具体类型和结构并没有严苛的限制。

图 3 基于身份空间约束的换脸鉴别框架整体结构。

身份语义编码器（ISE）

身份语义编码器 (ISE) 的目的是提取查询图像和参考图像的多尺度身份特征图，从而生成相应的身份空间约束。具体来说，ISE 是用参数经过预先训练的人脸识别网络中提取的卷积块来构建的，如图底部分支所示。然后，ISE 在鉴别训练中被冻结，并施加身份空间约束来使得鉴别模型更加关注身份特征关联性更显著的区域，减少对不良线索的过拟合。从而构建空间约束金字塔，这使得空间约束尽量保留身份语义编码器原有的特征表示映射。

基于身份空间约束的换脸检测框架

在生成空间约束金字塔后，研究者们在若干特定尺度上将身份空间约束引入到主干网络中，构建整个换脸检测框架。该框架对主干网络的具体类型和结构并没有严苛的限制，只要能大致划分出若干个尺度不同的结构模组即可。因为绝大多数卷积网络分类器的结构都能满足这个要求（例如 ResNet-50 和 HRNet-48），所以该框架具备很好的可扩展性。

该框架并没有改变主干网络的结构设计，除了最后的全连接层输出通道数外，所有结构模组和分类层都保持不变。这意味着主干网络的计算开销和容量也没有变动。

三、实验结果

为了进一步测试所提框架的泛化性能，并探讨引入身份语义编码器施加身份空间约束的作用和其对不同主干网络结构的兼容性，表 1 列出了全部交叉测试的 AUC 百分数。从中可以得出以下几点结论：

（1）利用参考人图像引入身份空间约束维持了针对已知伪造人脸合成模型的检测能力。所有数据集上的同源测试 AUC 百分数（用斜体数字标出）均达到了 99%，这充分说明了引入身份空间约束降低主干网络对与具体造假模型关系紧密的鉴伪线索的依赖不会损害主干网络原本优异的检测性能。

（2）利用参考人脸图像引入身份空间约束极大提升了主干网络针对未知伪造人脸合成模型的检测性能。例如引入空间约束后，在 FaceShifter(SFT) 上训练的以 ResNet-50 为主干网络的检测框架 AUC 百分数提升了 43.64%-53.97%；若主干网络换为 HRNet-48，则上述提升值为 37.68%-60.53%。其他所有交叉测试的现象均类似。它们的结果均远远优于相同训练和测试条件下主干网络独立鉴伪的表现，充分说明了该方法的有效性。

表 1 引入身份空间约束和不同主干网络结构在交叉测试中的性能（AUC%）：

四、总结

综上所述，利用参考人脸图像引入身份空间约束辅助普通卷积网络分类器提升针对未知伪造人脸合成模型的泛化能力的方法具备充分的合理性、实用性和创新性：

检测框架说明了利用额外辅助信息的重要性，提供了全新的伪造人脸图像鉴别的思路。鉴别方除了挖掘待测图像的伪造线索外，可以更加充分地利用其它信息资源。
使用参考人脸图像的鉴别思路在实际应用中是可行的。实际应用的伪造人脸图像鉴别任务绝大多数情况针对的是重要著名人士，对于鉴别方而言获取相应人物的真实人脸图像并不困难。除此之外该框架相比于其他鉴别模型无额外的数据要求。
检测框架提升了针对未知伪造人脸图像合成模型的泛化能力，性能超过其他检测方法。大量交叉测试结果表明，引入身份空间约束的做法可以让原本泛化性能严重不足的主干网络在结构模组不变且训练和测试条件相同的条件下获得显著提升。

论文相关信息：

https://ieeexplore.ieee.org/document/9484396

J. Jiang, B. Wang, B. Li and W. Hu, "Practical Face Swapping Detection Based on Identity Spatial Constraints," 2021 IEEE International Joint Conference on Biometrics (IJCB), 2021, pp. 1-8, doi: 10.1109/IJCB52358.2021.9484396.

部分主要参考文献：

[1] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in Neural Information Processing Systems, vol. 27, 2014, pp. 2672–2680. [Online].Available:https://proceedings.neurips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf

[2] G. E. Hinton and R. R. Salakhutdinov, “Reducing the dimensionality of data with neural networks,” Science, vol. 313, no. 5786, pp. 504–507, 2006. [Online]. Available: https://- science.sciencemag.org/content/313/5786/504

[3] P. Isola, J. Zhu, T. Zhou, and A. A. Efros, “Image-to-image translation with conditional adversarial networks,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 5967–5976.

[4] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770–778.

[5] K. Sun, B. Xiao, D. Liu, and J. Wang, “Deep high-resolution representation learning for human pose estimation,” in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 5686–5696.

[6] A. Rössler, D. Cozzolino, L. Verdoliva, C. Riess, J. Thies, and M. Niessner, “FaceForensics++: Learning to detect manipulated facial images,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 1–11.

[7] L. Li, J. Bao, H. Yang, D. Chen, and F. Wen, “Advancing high fidelity identity swapping for forgery detection,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 5073–5082.

与吴恩达共话ML未来发展，2021亚马逊云科技中国峰会可「玩」可「学」

2021亚马逊云科技中国峰会「第二站」将于9月9日-9月14日全程在线上举办。对于AI开发者来说，9月14日举办的「人工智能和机器学习峰会」最值得关注。

当天上午，亚马逊云科技人工智能与机器学习副总裁Swami Sivasubramanian 博士与 AI 领域著名学者、Landing AI 创始人吴恩达（Andrew Ng ）博士展开一场「炉边谈话」。

不仅如此，「人工智能和机器学习峰会」还设置了四大分论坛，分别为「机器学习科学」、「机器学习的影响」、「无需依赖专业知识的机器学习实践」和「机器学习如何落地」，从技术原理、实际场景中的应用落地以及对行业领域的影响等多个方面详细阐述了机器学习的发展。

点击阅读原文，立即报名。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

继续阅读

阅读原文

关键词

方法

信息

人脸图像

数据

性能