阿里的开源，这两天被喷惨了…

大家好，我是 Jack。

今天继续聊聊科技圈发生的那些事。

一、EMO

emo 是网络流行用语，表达“丧”“忧郁”“伤感”，一切的情绪不稳定皆可“emo”。

但咱们今天要聊的可不是这个emo，而是阿里最新推出的基于音频驱动的肖像视频生成框架，EMO（Emote Portrait Alive）。仅需上传一张图片和一段音频，EMO 可创造出表情生动的 AI 视频，最长可达约1分30秒。

我们先看下效果。

小李子 rap 才艺秀，嘴形完全 hold 住。

哥哥张国荣，一首陈奕迅的《无条件》，也不在话下。

该技术分为三步：一是帧编码的初始阶段，利用 ReferenceNet 从参考图像和运动帧中提特征；二是扩散过程阶段，预训练的音频编码器处理音频嵌入，面部区域掩模与多帧噪声集成以控制面部图像的生成；三是使用主干网络促进去噪操作。

EMO 公布论文的同时，也创建了 github repo，目前已有 3.9k 的人 star 了。

项目地址：

https://github.com/HumanAIGC/EMO

这里不得不提的是，GitHub 上目前仍是空空如也，引发了不少人的不满。

从公司的角度，可能觉得至少要有一年的技术领先才有信心开源，毕竟公司也要挣钱。像 OpenAI 发布 ChatGPT3.5 的时候，4 的研发早就开始了。

同时，EMO 这个项目也有被滥用的风险，毕竟是人脸相关。

但是怎么说呢，论文不是非要开源，可在 Github 建项目又空仓，确实很难评，开放个 API 接口也行啊。并且还不是个例，而是全部都空仓。

目前该 repo 并不在阿里官方的 GitHub 目录下，也没有任何地方显示该 repo 与阿里官方直接相关。虽然 HumanAIGC 介绍页显示 Alibaba TongYi XR，但也无从考证起真实性。

对于这几波“开源”，你怎么看？

火爆全网的反黑大剧《狂飙》，可能为了过审删改了一些剧情，导致有几集中演员的嘴型和台词完全对不上。

有懂唇语的硬核剧迷，为了看到原版剧情，直接开始翻译。

事实上，人工唇读学习很难，那么AI唇读能不能助观众一臂之力呢？最近新开源了一个项目 VSP-LLM，通过观察视频中人的嘴型来理解和翻译说话内容，也就是识别唇语。

VSP-LLM 结合了视觉语音处理和大语言模型（LLMs）的新型框架。这个框架的目的是利用 LLMs 的强大上下文理解能力，来提高视觉语音识别和翻译的准确性和效率，效果还是不错的。

项目地址：

https://github.com/sally-sh/vsp-llm

最后说个和每个人息息相关的事:退税。3 月 1 日起，2023 年度个税综合所得汇算开始了，一年一度“多退少补”的日子又到了。

我登录个人所得税 APP 发现，个税汇算前 5 天已约满。不过，3 月 21 日至 6 月 30 日，纳税人无需预约，可以随时办理。

有人熬夜蹲点退税，成果丰硕，退到了 3 万 1 千多元！

有人一顿操作猛如虎，最后只退三块钱。

当然，人类的悲欢并不相通，有人是要补税的。

这个“国家级”的大项目你参与了吗？是退税还是补税呢？

好了，今天的内容就是这么多，我是 Jack，我们下期见！

·················END·················

继续阅读