大家好,我是 Jack。
今天继续聊聊科技圈发生的那些事。

一、EMO

emo 是网络流行用语,表达“丧”“忧郁”“伤感”,一切的情绪不稳定皆可“emo”。
但咱们今天要聊的可不是这个emo,而是阿里最新推出的基于音频驱动的肖像视频生成框架,EMO(Emote Portrait Alive)。仅需上传一张图片和一段音频,EMO 可创造出表情生动的 AI 视频,最长可达约1分30秒。
我们先看下效果。
小李子 rap 才艺秀,嘴形完全 hold 住。
哥哥张国荣,一首陈奕迅的《无条件》,也不在话下。
该技术分为三步:一是帧编码的初始阶段,利用 ReferenceNet 从参考图像和运动帧中提特征;二是扩散过程阶段,预训练的音频编码器处理音频嵌入,面部区域掩模与多帧噪声集成以控制面部图像的生成;三是使用主干网络促进去噪操作。
EMO 公布论文的同时,也创建了 github repo,目前已有 3.9k 的人 star 了。
项目地址:
https://github.com/HumanAIGC/EMO
这里不得不提的是,GitHub 上目前仍是空空如也,引发了不少人的不满。
从公司的角度,可能觉得至少要有一年的技术领先才有信心开源,毕竟公司也要挣钱。像 OpenAI 发布 ChatGPT3.5 的时候,4 的研发早就开始了。
同时,EMO 这个项目也有被滥用的风险,毕竟是人脸相关。
但是怎么说呢,论文不是非要开源,可在 Github 建项目又空仓,确实很难评,开放个 API 接口也行啊。并且还不是个例,而是全部都空仓。
目前该 repo 并不在阿里官方的 GitHub 目录下,也没有任何地方显示该 repo 与阿里官方直接相关。虽然 HumanAIGC  介绍页显示 Alibaba TongYi XR,但也无从考证起真实性。
对于这几波“开源”,你怎么看?

二、VSP-LLM

火爆全网的反黑大剧《狂飙》,可能为了过审删改了一些剧情,导致有几集中演员的嘴型和台词完全对不上。
有懂唇语的硬核剧迷,为了看到原版剧情,直接开始翻译。
事实上,人工唇读学习很难,那么AI唇读能不能助观众一臂之力呢?最近新开源了一个项目 VSP-LLM,通过观察视频中人的嘴型来理解和翻译说话内容,也就是识别唇语。
VSP-LLM 结合了视觉语音处理和大语言模型(LLMs)的新型框架。这个框架的目的是利用 LLMs 的强大上下文理解能力,来提高视觉语音识别和翻译的准确性和效率,效果还是不错的。
项目地址:
https://github.com/sally-sh/vsp-llm

三、退税

最后说个和每个人息息相关的事:退税。3 月 1 日起,2023 年度个税综合所得汇算开始了,一年一度“多退少补”的日子又到了。
我登录个人所得税 APP 发现,个税汇算前 5 天已约满。不过,3 月 21 日至 6 月 30 日,纳税人无需预约,可以随时办理。
有人熬夜蹲点退税,成果丰硕,退到了 3 万 1 千多元!
有人一顿操作猛如虎,最后只退三块钱。
当然,人类的悲欢并不相通,有人是要补税的。
这个“国家级”的大项目你参与了吗?是退税还是补税呢?
好了,今天的内容就是这么多,我是 Jack,我们下期见!
·················END·················
继续阅读
阅读原文