一上台就紧张？这个模型帮你生成演讲「替身」，肢体语言比总统候选人还丰富

机器之心报道

参与：杜伟、魔王

只输入语音便能生成人体姿势。瑞典皇家理工学院的研究者做到了！

你能看出上图中的人物姿势是仅基于一段语音生成的吗？

基于语音生成上半身动作甚至全身姿势，并实现速度、对称度等高级的姿势控制，瑞典皇家理工学院的一项研究做到了。

该研究提出的方法不仅能够基于语音合成对应的姿势，还可以为同样的语音生成不同的姿势：

上面这两组姿势竟然表达的是同一段话？

仅仅这样还不够，该方法还提供高级的风格控制，比如速度：

左右方姿势的对称度：

说话时姿势动作的半径范围，动作幅度的大小尽在掌控：

甚至还能控制一侧手臂的高度位置：

此外，该方法还可以生成全身的姿势动态，包括站姿的变化和脚步的移动：

具体效果参见视频：

Demo 展示的效果征服了一批 reddit 网友。他们表示，如果能将这个技术用在游戏（如《无人深空》）或 VR 产业，那么无需昂贵的人体动作捕捉就能生成逼真的高质量动作，这可以大大降低游戏的开发成本，也能让对话情境下的 VR 人物更加逼真。

那么，如此逼真的姿势动作是如何生成的呢？我们来看这项研究的具体细节。

只用语音生成人物姿势

逼真姿势的自动合成有望改变动画、替身和交际智能体领域。在离线应用中，新工具可以将动画师的角色转变为导演，他只需为期望的动画效果提供高级输入即可。之后，学得的网络将这些指令转换为适当的身体姿势序列。在交互场景中，实时生成自然动画的系统是塑造可信和关联角色的关键所在。

瑞典皇家理工学院的研究者通过对 MoGlow 这一基于深度学习的动作合成方法进行改进，提出了一种新的生成模型，该模型可实现当前最优的语音驱动姿势生成。

得益于该方法的概率属性，在给定相同输入语音信号的情况下，该模型可以生成多个不同且合理的姿势，实现动作的自然变化。

论文主页：https://diglib.eg.org/handle/10.1111/cgf13946
项目地址：https://github.com/simonalexanderson/StyleGestures

研究者还展示了该模型对输出风格施加指引性控制的能力，如姿势高度、速度、对称度和空间活动范围。这类控制可用来传达期望角色的个性或情绪。研究者在未对数据做任何手动标注的情况下，实现了以上功能。

在实验部分，用户研究表明，该方法生成的上半身姿势动作自然，并且与输入语音非常匹配。该方法的评分高于先前所有的此类系统和基线方法，并且接近原始记录动作的评分。

研究者进一步发现，该方法可以在不损失动作的感知自然度的情况下，准确地控制姿势风格。

最后，研究者展示了该方法同样适用于行走和站立等全身姿态的动作合成。

接下来，我们来看该模型的实现原理和具体效果。

实现原理

该研究提出的概率生成模型基于近期关于归一化流的工作构建，尤其是 MoGlow [HAB19]。该模型可在大型非结构化运动数据集上进行训练，且数据无需手动标注。

与直接基于语音合成动作的方法不同，该模型的训练过程中将语音作为输入，建模动作的条件概率分布。这样就可以基于概率分布采样新的姿势，从而每一次都可以生成不同却合理的姿势。这与人类行为一致，并且可以为虚拟智能体和动画行业提供不错的应用优势。

该方法的优势包括：

数据集无需手动标注；
具备不确定性（因而可以得到无限种类的姿势变体）；
能够输出全身姿势。

具体而言，在实现语音驱动姿势合成的过程中，研究者使用了归一化流（normalising flow）。完整的动作生成流程如下图 1 所示：

该模型的思路是在使用归一化流的姿势序列

稳定自回归模型中，学习姿势 X 的多维下一步（next-step）分布。归一化流这一通用技术在表示大量连续值分布 p(x) 时能够同时实现高效推理（概率计算）以及高效的分布采样。

整体转换和中间结果表示如下：

此外，归一化流的核心难题是设计出一个灵活、可逆、可微分且具有快速计算雅克比行列式（Jacobian determinant）的 f_n 变换参数族。2018 年，Diederik P. Kingma 等研究者提出了 Glow 方法，在生成面部图像上实现了显著的效果。之后，又出现了改进版 MoGlow。

MoGlow 专注于零算法延迟的运动控制，并不非常适合语音驱动姿势合成任务。与语音同时出现的人体姿势可以分割为准备、执行（stroke）和撤回三个阶段。

基于此，该研究令时间实例 t 时的控制输入 c_t 同时包含当前语音特征 a_t 以及周围语音特征

的视窗（window），从而将足够的未来信息考虑在内。完整的动作生成流程如上图 1 所示。

实现效果如何？

在所有实验中，评分者需要观看和聆听人体姿势的 18 秒视频片段（如下图所示），并根据给定的评分标准进行打分（5 分制）。

人体相似性和适当性评估

下图 3 和表 1 展示了人体相似性、适当性、风格控制人体相似性和全身姿势人体相似性的平均得分：

风格控制评估

下图 4 展示了风格控制对系统生成动作的影响，其中每一行表示不同的风格控制系统（分别是 M-H、MG-V、MG-R 和 MG-S）。

全身姿势评估

评估结果如上图 3 中最右侧图，全身 GT 平均得分为 4.005，FB-C 平均得分为 3.764，FB-U 平均得分为 3.421。

全身姿态的人体相似性评估结果。

缺陷

这项研究在 reddit 上引起了广泛关注和讨论。除了对模型效果表示赞叹以外，也有网友发现了其中需要改进的地方。

例如，有网友指出：「这个模型可以恰当地对节奏和语音强度做出反应，但它似乎并不怎么关注真实的语音信息内容。」

对此，作者之一 Gustav Eje Henter 表示同意：

你说的对！这个模型仅倾听语音（没有文本输入），但并不包含任何人类语言模型。我认为，使用这类模型生成具备语义意义的姿势（尤其还要与语音节奏保持一致）仍是一个未解难题。

该网友还提出了数据问题：「要想使模型达到合理的效果，可能需要大规模数据集。」

对于，Henter 也表示认同：

数据是目前的主要瓶颈。该模型基于同一个人的大约四小时的姿势和语音数据。我们很难找到足够的高质量语音和动作平行数据。一些研究者使用 TED 演讲，但是从此类视频中提取的姿势动作看起来不具备说服力，不够自然。（好的运动数据需要运动捕捉设置和仔细的数据处理。）因此，该研究目前使用的是较小型的高质量数据集。

参考链接：

https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/

https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/fxuytg1/

7 月 14 日 20:00，我们将进行 ICML 2020 线上分享的第一期。我们邀请到了普林斯顿大学在读博士生 DiJia Su 为我们分享他们今年被接收的最新论文：《ConQUR: Mitigating Delusional Bias in Deep Q-learning》。

识别图中二维码，添加机器之心小助手邀请备注「ICML」，邀请进群。

继续阅读

阅读原文

关键词

模型

研究者

数据集

该方法

该研究