夕小瑶科技说 原创

作者 | Zicy

3月26号,腾讯放了个大招,开源了Audio2Video大模型AniPortrait,话不多说,先看效果!
不得不说,从肌肉运动到连贯程度,效果都是相当惊艳的。可以预见,以后的视频网站的鬼畜区又有新工具了

下面我们先来看看,这个模型究竟是个啥东西?

Audio2Video大模型的较量

早在2月27号的时候,阿里就宣布要开源自己的图生视频大模型:EMO,还把论文挂到了Arxiv上面
https://arxiv.org/abs/2402.17485
EMO的效果也是相当的炸裂,你只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。
但现在,EMO的“开源”仓库是这样的
只有一个Readme文件,这波开源属于是开了个寂寞。有网友调侃道
好好好,没有人比你更懂开源。
阿里本来是靠EMO赚足了噱头,但这回让腾讯抢先一步,EMO可能是真要emo了。

AniPortrait是什么

总地来说,框架分为两个阶段。首先,从音频中提取3D面部网格和头部姿态,然后将这两个元素投影到2D的面部标志序列中。在第二阶段,再利用扩散模型将2D的面部标志序列转换为人像视频。想了解更详细技术参数的小伙伴可以参考原始论文:
论文链接

https://arxiv.org/abs/2403.17694
我们主要来看一看模型的惊艳效果,AniPortrait的主要功能有三个:
1、音频驱动的动画合成:用户可以提供一个音频文件和一张参考的肖像图片,AniPortrait将根据音频中的语音和声音的节奏来动态地生成说话或表情变化的肖像动画,比如文章开头和下面这个动画。
2、面部再现:如用户可以提供一段视频,实现在新的肖像上复现视频中人物的面部表情和动作。这项技术可以用于创造逼真的虚拟角色动画,使其复现真人的表情和动作。
3、头部姿势控制:用户可以指定头部姿势,或者选择预设的姿势配置,来控制生成动画中的头部动作,使动画效果更加自然和多样化。
B站鬼畜区的UP主狂喜!

开源界没有永远的领头羊

总地来说,因为AniPortrait目前还没有给出定量的性能指标,所以我们无法把它和EMO做一个具体的比较,但从demo上看性能应该相差不大。
在这场AI领域的较量中,一个靠着AniPortrait技术大放异彩,一个则是拿着EMO的论文在圈内掀起了波澜。不过,阿里巴巴的EMO虽然声势浩大,但在开源这场比赛中,却让腾讯的AniPortrait抢先一步,不仅抢得先机,还顺便在技术社区里种下了自己的旗帜。
在这个技术迭代飞速的时代,能让技术脱颖而出的,绝不仅仅是技术本身,更是那份大大方方、毫不保留的开源精神。开源界,没有永远的领头羊,只有永远的追赶者。
继续阅读
阅读原文