国产神级AI登场！高启强化身罗翔，蔡徐坤变Rap之王，还跟Sora联动

17个演示视频+技术解读，揭秘阿里如何让任何人开口说话。

作者 | 香草

编辑 | 心缘

开局一张图，后期可以全靠AI了！

智东西2月29日报道，继视频生成模型Sora横空出世、语音克隆创企ElevenLabs用AI为Sora演示视频配音相继爆火全网后，国产AI模型又在视频生成领域整了个大事！

只用输入一张图+一段音频，就能让照片里的人物动起来并开口说话：比如让张国荣翻唱陈奕迅的歌，让高启强用罗翔的声音讲普法课，把蔡徐坤变成“Rap之王”，还跟Sora生成的超逼真东京街头散步女子视频玩起了联动。

这是阿里通义实验室团队亮出的新绝活——肖像视频生成框架EMO（Emote Portrait Alive）。

用单张照片+任意语速的人声音频，EMO就能根据音频时长，生成对应时长的视频，并保持角色身份的一致性，让照片里的人物开口说话唱歌，语言涵盖普通话、粤语、日语、韩语、英语等，而且表情自然、声画同步，头部姿势也很灵活，细节处理细致到连头发丝都会随之晃动。

别的不说，对AI视频解说、AI动漫制作、短视频制作、让逝去人物复活等应用场景而言，这可是妥妥的生产力工具！

效果多以假乱真呢？比如输入一张高启强的照片和厚大法考讲解音频，这位黑帮大佬就能立马化身罗翔，摇头晃脑地为你讲起法来。

让蔡徐坤唱姆爷的快嘴Rap，EMO也能轻松拿捏，嘴型匹配度强到离谱。

虽然细看之下，人物表情还做不到百分百自然，但能实现这么流畅、表现力逼真的图片转动态视频效果，已经是相当强的AI进化。这让会动会说话的照片，不再是哈利波特魔法世界的专属。

这么强的音频驱动视频效果，是怎么做到的？

目前该项目还未开源代码，我们仅能从项目简介和论文中一探究竟。

项目主页：

https://humanaigc.github.io/emote-portrait-alive/

论文地址：

https://arxiv.org/abs/2402.17485

01.

AI“复活”赫本、张国荣

中英日韩语都能拿捏

EMO支持不同语言的歌曲输入，能直观地识别音频中的音调变化，从而生成动态的、表情丰富的肖像。

你可以让奥黛丽·赫本演唱一曲英国歌手艾德·希兰的《Perfect》，随着歌曲旋律，她会做出挑眉、皱眉等细微的表情变化。

第二条唱歌的演示视频由一个绘画模型ChilloutMix绘制的女孩来示范，她生动地表演了一首陶喆的《Melody》，音频来自艺人宁艺卓翻唱的版本。在唱到一些高音部分时，她甚至还会做出皱鼻子等发力的表情。

除了普通话，粤语歌也能轻松对上口型。下面这条演示视频是张国荣翻唱陈奕迅的《无条件》，音频来源于网络，也是由AI生成的。

二次元风格的人像也能动起来。比如，你可以让动画《进击的巨人》中的角色Ymir Fritz亲自演唱动画片尾曲《衝撃》。与真人和三维人物相比，她的表情管理更沉稳一些。

在翻唱Kpop歌曲《SOLO》时，这位AI生成的女孩十分投入，脸上的轮廓线条也会随着口型变化而变化。

唱到动情处，AI生成的蒙娜丽莎还会闭上双眼，仿佛沉浸在音乐中。

如果想听Rap，小李子可以用还没发福的脸为你演绎埃米纳姆的《GODZILLA》。虽然中间偶尔会出现“翻白眼”等瑕疵，但总体拟合程度还是很高的。

在谈话任务上，EMO同样能为角色注入逼真的动作和神态。

例如这条蒙娜丽莎讲话的视频，开头一清嗓子，那个神韵就立马拿捏住了。虽然蒙娜丽莎没有眉毛，但EMO还是让她的眉骨部位随着语调做出不同表情，连双下巴都灵动了起来。

下面这条Ymir Fritz说话视频中的音频来自游戏《尼尔：机械纪元》。AI生成二次元头像，再输进EMO让其开口说话，如果稳定性再高一些，或许能直接形成工作流，用在游戏或动画制作中。

EMO扩大了不同文化背景下人物塑造的可能性，例如你可以看到高启强讲法，也可以看到经典电影角色小丑表演《蝙蝠侠：黑暗骑士》中的台词。

同一段采访剪辑，可以由赫本本人来重现，也能由AI生成的《底特律：成为人类》游戏角色克洛伊（Chloe）来展示。

由于微信文章仅能上传10个视频，部分视频示例只能以动图形式来简要呈现视觉效果，感兴趣的读者朋友可以去项目主页观看完整版。

EMO还让Sora生成视频中的女子直接化身OpenAI CTO米拉·穆拉蒂。

最后一个演示视频，EMO让一个AI生成的女生表演了不同语气的几句话，她展现出丰富的表情：撇嘴无奈、挑眉震惊，还有尴尬而不失礼貌的微笑。不过最后在做一些较为夸张的表情时，其面部出现一些失真。

总的来看，EMO框架实现了面部表情、头部姿势的丰富性和自然性，虽然有时也会出现翻白眼、口型对不准等失误，但瑕不掩瑜，整体效果十分惊艳。

02.

EMO技术解读：基于稳定扩散模型

两种注意力机制交叉执行

EMO框架提供了一种新颖的方法，采用直接从音频到视频的合成方式，不需要复杂的3D模型或面部标记，即可生成富有表现力的视频。

▲EMO工作流程（图源：论文）

为了建立一个新的说话头像框架，作者提出一种利用扩散模型生成能力的方法，该方法消除了中间表示或复杂预处理，简化了创建具有高度视觉和情感保真度的肖像视频的过程。

EMO采用稳定扩散（Stable Diffusion，SD）模型作为基础框架，它的优势在于既能降低计算成本，又能保持较高的视觉保真度。

EMO框架主要分为两个阶段，整体工作流程如下图所示：

▲EMO整体框架（图源：论文）

第一个阶段名为帧编码（Frames Encoding），利用ReferenceNet从参考图像和运动帧中提取特征，旨在保持视频中角色的一致性。

第二个阶段是扩散处理（Diffusion Process），云训练的音频编码器处理音频嵌入，面部区域掩码与多帧噪声相结合，用来控制面部图像的生成，随后利用主干网络（Backbone Network）进行去噪。

主干网络具有与SD 1.5类似的UNet结构，其中交叉执行了两种形式的注意力机制：参考注意力（Reference-Attention）和音频注意力（Audio-Attention）。这两种机制在潜在编码和语音特征之间交叉执行，分别用于保持人物身份和调节人物动作。此外，时序模块（Temporal Modules）用于操控时间维度和调整运动速度。

参考注意层中，ReferenceNet具有与主干网络相同的结构，用于从输入图像中提取详细特征。目标角色的图像被输入ReferenceNet，以提取自注意层输出的参考特征图。由于ReferenceNet主要用于处理单个图像，因此不含主干网络中的时间层。

语音中的发音和语调是生成肖像运动的主要驱动信号。在音频注意层，从输入音频中提取出的特征通过预训练的语音识别模型Wav2vec进行连接，得到每一帧的音频表示嵌入。为了计算运动受未来/过去音频片段的影响，例如说话前的张嘴和吸气，作者通过串联附近帧的特征来定义每个生成帧的语音特征。

大多数模型都会在预训练的文本到图像架构中插入时序混合层，以促进对连续视频帧之间时间关系的理解和编码。受文生视频框架AnimateDiff架构概念的启发，EMO将自关注时序层应用于帧内特征。具体来说，EMO将输入特征图重构，在时序维度上进行自我关注，以有效捕捉视频的动态内容，时序层被插入主干网络的每个分辨率层。

在视频时长方面，受一些方法采用前一个片段结尾的帧作为后续生成初始帧的启发，EMO采用了前一个生成片段的最后n个帧，称之为“运动帧”（Motion frames），将其输入参考网络，以预提取多分辨率运动特征图。在主干网络的去噪过程中，EMO会将时序层输入与预提取的运动特征图进行合并，从而有效确保不同片段之间的一致性。

值得注意的是，虽然主干网络可能会反复多次对噪声帧进行去噪处理，但目标图像和运动帧只需连接一次并输入参考网络。因此，提取的特征会在整个过程中重复使用，确保推理过程中的计算时间不会大幅增加。

为了训练模型，作者构建了一个庞大而多样化的音视频数据集，收集了超过250小时的视频素材和超过1.5亿张图像，涵盖多种语言的演讲、电影、影视剪辑及歌唱表演，此外还补充了大型户外高分辨率视听数据集HDTF和高质量的视频人脸数据集VFHQ的内容。

在与同类型方法DreamTalk、SadTalker、Wav2Lip等的比较中，EMO在FID、FVD、E-FID等3个指标上表现最佳，它们分别衡量视频质量、单帧质量和面部表情生动度。

▲EMO与其他肖像视频生成方法的定量比较（图源：论文）

不足方面，作者称一是与不依赖于扩散模型的方法相比，EMO更耗时；其次，由于模型训练过程中没有使用任何明确的控制信号来控制角色的运动，可能会导致无意中生成其他身体部位，从而在视频中产生伪影。

03.

4个月连发6个项目

阿里全方位布局AI视频

近期，阿里持续围攻AI视频赛道，短短4个月内连发至少6个新项目。比起Sora等主攻视频生成长度和质量的模型，阿里团队的项目似乎更注重于算法在不同视频生成形式上的具体应用。今年1月，通义千问上线了“全民舞王”，凭借“兵马俑跳科目三”出圈了一把。

1、I2VGen-XL：图像+文字生成高质量视频

该算法发布于2023年11月8日，利用静态图像作为关键指导形式来确保输入数据的对齐，代码和模型已开源。I2VGen-XL由两个阶段组成，一是基础阶段，通过使用两个分层编码器保证连贯的语义并保留输入图像的内容；二是细化阶段，通过合并额外的简短文本来增强视频的细节，并将分辨率提高到1280x720。

项目主页：

https://i2vgen-xl.github.io/

2、AnimateAnyone：一张图让任何角色跳舞

AnimateAnyone发布于2023年11月29日，能够通过角色照片生成受姿势序列控制的动画视频，“全民舞王”功能背后用到的技术正是这一算法。

据论文介绍，AnimateAnyone也是基于SD基础模型，同时引入了ReferenceNet来保持细节特征的一致性，Pose Guider来控制角色的动作，以及Temporal-Attention来保证视频帧之间的平滑过渡。

项目主页：

https://humanaigc.github.io/animate-anyone/

3、DreaMoving：一张图让角色在任意地点跳舞

DreaMoving发布于2023年12月9日，是一个基于SD的可控视频生成框架，用于生成高质量的定制人物视频。它在AnimateAnyone的基础上，增加了对文本输入的支持，通过输入一张图像和一段描述文字，能够生成目标人物穿着不同衣物在不同背景上跳舞的视频。

项目主页：

https://dreamoving.github.io/dreamoving/

4、DreamTalk：EMO前身？跨风格生成说话肖像

2023年12月16日，阿里与清华大学、华中科技大学等联合发布了DreamTalk，与EMO一样针对富有表现力的头像生成。DreamTalk由三个关键组件组成：降噪网络、风格感知唇部专家和风格预测器，分别用于合成一致的由音频驱动的面部运动、指导唇部同步和说话风格，以及直接从音频预测目标表情。

相较于DreamTalk给出的演示，可以看出在2个多月的时间内，EMO在技术上实现了巨大的突破。

项目主页：

https://dreamtalk-project.github.io/

5、TF-T2V：使用无文本视频扩大文本到视频生成

2023年12月26日，阿里发布了TF-T2V，它可以直接使用无文本视频学习，扩展了现有的视频生成技术，其背后的基本原理是将文本解码过程与时间建模过程分开。代码和模型已公开。

项目主页：

https://tf-t2v.github.io

6、Motionshop：使用3D模型替换视频角色

Motionshop发布于今年1月16日，是一个用3D模型替换视频中角色的框架。该框架由两部分组成，分别是用于提取修复背景视频序列的视频处理管道，以及用于生成头像视频序列的姿势估计和渲染管道。据称，通过并行两条管线并使用高性能光线追踪渲染器TIDE，整个过程可以在几分钟内完成。

项目主页：

https://aigc3d.github.io/motionshop/

04.

结语：AI视频赛道涌现更多新玩法

在AI视频这个赛道上，阿里另辟蹊径，从新玩法、新形式上开发了不少有趣的项目，这也给国内其他玩家提供了一条新思路：不一定非要死磕AI生成的视频时长或分辨率等参数，从应用的角度出发也能让人眼前一亮。

目前，这些项目大多还处于“期货”阶段，暂未开放代码或试用入口。不过可以预见到的是，EMO等项目一旦落地产品，在影视、游戏、社交媒体等行业都大有可为。

它可以用于创建角色动画和虚拟演员，为游戏角色创建动态表情和动作，降低成本并提高创作灵活性；或者像“兵马俑跳科目三”一样刷屏短视频平台，为创作者提供新形态的创作方式。

任何技术都有两面性，EMO、Sora等AI视频生成算法也带来关于隐私、版权和伦理的新讨论。如果眼见不再为实，我们该如何分辨真实和虚拟？AI电信诈骗、AI造谣等都是可能存在的风险。

未来我们期待看到更多像“全民舞王”一样好玩的应用落地，让AI视频赛道百花齐放。随着这类音频驱动图像的AI工具走向普及，内容创作和娱乐产业将迎来全新可能。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

科普视频

AI技术更迭已成智能终端产业最大变量之一，AI PC成为AI惠及个人的最佳载体。联想集团发布系列主题视频，勾勒出未来AI PC的创新图景，推动PC走上有更多可能的未来。

继续阅读

阅读原文