基于 AI 的 VR 儿童数字人

来源
：ACM MMSys 2202

主讲人
：Syed Zohaib Hassan

内容整理
：王彦竣

本演讲介绍了一个基于人工智能驱动的，旨在模拟受虐待儿童的 VR 儿童数字人 (Child Avatar) 。通过该数字人培训警察与儿童保护组织 (CPS) 的人员如何采访并调查受虐儿童。

研究背景
基于AI的儿童数字人

视觉模块
语言模块
听觉模块
整合
系统表现

用户实验
总结

研究背景

对儿童的性虐待和身体虐待普遍存在于我们社会中，这种虐待影响了大约 3 亿儿童的生活。虽然虐待很少导致死亡，它往往会导致长期的心理和身体健康问题。因此，儿童保护组织和警察需要有效识别和预防虐待。而儿童虐待案件中，儿童不仅是受害者，往往也是唯一的证人。因此，为了获得对所指控罪行的可靠和详细的描述，调查机构必须对受虐儿童正确进行高质量的面谈。

国际上普遍认可的实践方法是在采访中询问开放式问题（例如，“那个之后发生了什么”，孩子没有得到可能影响他答案的线索），同时避免提出暗示或引导问题。遵循最佳实践指南是获取法庭所接受的，可靠和详细的案件解释的唯一方法。它降低了错误报告的风险，这可能会导致无辜的人被指控和定罪。因此，CPS 和警察人员的面谈技巧极大地影响法院对受虐待儿童的审判结果。

目前主流的培训面谈基于线下或线上的培训活动，例如观看视频，阅读材料和进行测验。之后进行一些模拟面谈训练，尽管这些方法对于传授调查性采访技巧有一定的效果，但这些方法在儿童反馈的生成上过于僵化，缺乏泛化性，并且在交互过程中需要人工输入，这使得它们变得昂贵且难以操作。

在本研究中，作者提出了一个人工智能驱动的儿童谈话数字人，其可以动态处理问题并且可以为面试官提供更高的真实感。此外，通过消除系统中的人工输入，可以节省培训或雇用操作员/演员的成本，降低了培训的成本。本系统的组件采用来自不同人工智能领域件例如对话模型、数字孪生的生成，并在 VR 环境中集成并呈现。

基于AI的儿童数字人

下图展示了本数字人系统的整体架构概述，其中后端的语言模块是一个在 Rasa 上开发的对话模型，前端的视觉组件基于 Unity 进行开发并部署在 Oculus Quest 设备中，听觉组件则基于 IBM Watson 云服务。

视觉模块

儿童数字人系统使用 Unity 游戏引擎进行开发，并使用 VR 设备 Oculus Quest 2 显示结果孩子头像是使用开源项目：Unity Multipurpose Avatar (UMA) 开发的，其可以对角色的模型与纹理组合自定义。随后，使用 Unity 中的 Salsa Suit 将声音与数字人匹配，生成与声音同步的眼睛、头部和嘴唇运动。除了面部动作，也会添加手部与头部的动作来创建一个说话的整体姿态。

语言模块

在后端使用 Rasa，一个开源框架来开发并部署对话模型，实现自动化地基于文本对话。本研究制作了一个包含 200 份符合标准的培训访谈记录的数据集。这个数据集包含一个 5-7 岁儿童和在模拟面试环境中面试学员（CPS 和警察）。其中儿童由专业演员模仿。基于该数据集，使用 Rasa 开发对话模型，证明所提出的解决方案的有效性。

听觉模块

听觉模块的要求是声音与儿童的声音类似。基于此，本研究选择使用 IBM Watson 服务进行文本转语音 (TTS) 和语音转文本 (STT) 合成。Watson TTS 和 STT 服务连通了语言后端与视觉前端。用户与前端进行交流，并发送到 IBM STT API 转化为文字并转发到后端。在后端，对话模型处理此用户的文字并生成适当的回复。然后将该文字回复发送到 IBM TTS API，该API将生成的音频响应发送给前端客户。

整合

本系统使用 Ngrok 服务使后端可通过互联网访问，通过隧道使本地服务器连接互联网。使 VR 前端使用 HTTP Post 方法访问 Rasa REST API 。通过生成每个服务的密钥和端点 URLs 对 HTTP Rest API 进行访问，该 API 用于 IBM Watson STT 和 TTS 服务。

系统表现

本研究经过对系统各模块的 CPU、GPU占用率以及使用延迟进行客观测试，证明了该系统可以运行在平均配置的 PC 上，虽然该系统的延迟有几秒的延迟，但在现实采访孩子的场景中，该量级的延迟被认为是正常的。

用户实验

该作者设计了交互性用户研究，来评估用户对这套系统的使用体验与该系统的有效性。通过用户对该儿童数字人进行面谈，围绕三个调查问题 (RQ) 对系统进行评估：

RQ1: 专业人员使用该系统的体验怎么样？
RQ2: 这样的系统能否提升面试官知识和技能？
RQ3: 这种系统最重要的方面是什么？

本实验选择了11个专业人员作为受试者。他们通过VR眼镜与该数字人进行互动，该数字人通过 STT 和 TTS 系统与受试者交流。

下图展现了受试者进行两次VR面试后，对于整体体验、响应能力、流畅度三个方面的评分。可见整体上用户体验在使用该系统后有改进。

下图展现了该系统的学习效果，从四个方面对学习效果：沟通、自我效能、学习体验、教学效益进行 10 分制的评分。结果证明，专家认可该虚拟数字人对采访技巧的提升效果。

下图展现了系统重要方面的实验结果，专家们认为交互性和真实性和沉浸感是此类系统应该着重关注的方面。

除了作为受试者参与实验，这些专家对该系统也提出了许多建议与意见，如该系统无法在面谈时进行笔录、该交谈系统有很大提升空间、该数字人所表达的情感非常有限、该系统体验不够沉浸等等。

总结

该研究提出了基于 VR 的儿童面试培训系统。经过对于系统性能进行客观评估，表明该数字人系统可以在平均设备上流畅运行。之后作者使用交互式用户研究进行主观评估，通过专家用户的使用反馈，证明了该系统可以帮助专业人员学习更好的沟通技巧，用于采访受虐儿童。基于该项研究的成果，后续的研究可以从体验的真实性，面谈数据的扩充等等方面对系统进行优化。

附上演讲视频：

继续阅读

阅读原文