丰色 发自 凹非寺

量子位 | 公众号 QbitAI
这两天,霉霉说中文的视频着实火了。
在各个平台的点赞数量be like:
而真相,才不是霉霉学会了中文,纯纯是AI在“捣鬼”!
对比原片,AI不仅完成了语言翻译,连声线也完美模仿、口型相当逼真,实在是让人叹为观止。
吓得网友都喊妈了:


另一个霉霉说中文的视频(cr: Gorden_Sun)效果也很不错:
还有赫敏、憨豆以及蔡明通通都来了个“开口跪”:

有网友直接称这才是“没有译制片腔调的翻译”,表示真人配音都达不到这样的高度
嗯哼,甚至比真人配音还要省事“一万倍”:
如果你也想做,只需要上传你的视频、再选择要翻译的语言——就这么简单的两步,就可以了!
瞧瞧,连外国网友们也玩得不亦乐乎。

更令人称赞的是,这个火到国内外的🐂🍺神器,是国内诞生的产品,背后公司来自深圳
(注:除了黑色礼服的霉霉视频,其余均源自于@johnhuu教英语)

一键视频翻译AI火了

此工具名称为HeyGen
目前处于Beta测试阶段,在官网直接上传一段原视频即可。
其中:
文件支持3种类型:mp4、quicktime和webm;
文件大小最高支持1GB,时长不低于30s,不高于5分钟;
分辨率则需介于360x360到4096x4096之间。
为保证效果,HeyGen对视频内容本身也有两点要求:
1、尽量无背景音乐或噪音;
2、尽量避免多人
上传以后,就可以选择你要翻译的语言了。
目前支持输出包含中英文等在内的15种语言(输入语言支持18种)
除此之外,别的什么也不需要咱做。
当然,这个工具本身是付费的且不便宜(每月至少48美刀),免费试用只提供2分钟的视频翻译时长,且需要排队。
鉴于效果确实非常惊人,网友们也十分好奇HeyGen背后的技术。
结果也扒出来了:
基本是在开源方案基础上整合出来的(开源方案没有这么直接的一键效果)
具体而言,根据推特博主@Gorden_Sun的总结:
文本翻译用的是GPT;
语音转文字用的是whisper;
声音克隆+生成新音频用的是so-vits-svc;
最后的口型匹配用的是GeneFace++。

背后公司来自深圳,7个月收入超百万

让人眼前一亮的是,HeyGen的背后是一家来自深圳的AI公司。
名叫诗云(surreal)科技,主营AIGC,成立时间为2020年11月。
从官网看其产品除了视频翻译,也有数字头像生成、AI脚本生成等服务。
其联合创始人兼CEO为徐卓(Joshua Xu),他硕士毕业于CMU计算机专业,本科毕业于同济大学,此前在Snapchat工作了六年,是该司前100号员工。
另一位联创兼CPO为梁望,硕士毕业于CMU人机交互专业,本科也来自同济大学,曾任字节跳动北美设计Lead。
除了他俩,其他核心成员也均来自国内外互联网大厂。
据介绍,公司目前已获两轮百万美元融资
CEO在今年4月就发文透露:
HeyGen在7个月内实现了100万美元的ARR(年度经常性收入)。
而有推特网友(@MacroWang007)统计发现,就在今年9月,HeyGen还迎来了一波用户量的爆炸式增长(+91.77%)
前途可谓不可估量,接下来他们还即将推出商业版的视频翻译服务。
不过,值得注意的是,从推特官网的介绍来看,HeyGen目前的base似乎改到了美国加州,目前在招聘的两个岗位工作地点也是在那边。

最后,再聚焦到HeyGen工具本身。
网友对其潜力无比赞不绝口,有的担心这会让假消息更加泛滥。
也有人表示:又一部分人可能要面临失业了。
不过,它的不足之处也还是有的,比如有网友指出感情有些缺乏、翻译质量一般等等。
且看未来如何改进。
试玩地址: https://labs.heygen.com/video-translate
参考链接:

[1]
https://twitter.com/Gorden_Sun/status/1716075577117929841
[2]https://twitter.com/Gorden_Sun/status/1716271766891573692
[3]https://weibo.com/3725773862/NoAIfp93p
[4]https://twitter.com/HeyGen_Official
「量子位2023人工智能年度评选」开始啦!
今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 
MEET 2024大会已启动!点此了解详情
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~ 
继续阅读
阅读原文