我最喜欢就是那些你根本没听过,就像什么法国的混凝土公司,他们有 1500 人员工,完全不在乎 AI,只是想把工作做得更好。Synthesia 就是那个合适他们的工具。

Synthesia CEO Victor Riparbelli 在一次接受采访时说道。
他说描述的的确是不少 AI 创业公司想要的完美顾客 —— 有钱、有规模、有稳定需求,而他的公司 Synthesia 也真有不少这样的客户。
Synthesia 的愿景很好理解,就是要做出最「拟真」的生成式 AI 数字人(AI Avatar),但其商业化定位就有点「曲折」。
在成立后的前三年里,Synthesia 都在搭建配音对嘴型类 AI 工具,跟去年让泰勒·斯威夫特「讲中文」的 HeyGen 有点类似。
他们的产品挺不错,也带来了挺好的收益,但也让创始团队发现这很难做大,「我们就只能卡在做一家特效服务公司。很难想象能怎样创造更大影响力」。
Synthesia 意识到,他们要服务的不是那些视频内容创作者,而是完全没有任何条件和内部资源去做视频,但又有需要的企业。
到了现在,这家成立于 2017 年,获得英伟达投资的英国 AI 公司,去年 6 月估值已达到 10 亿美元,10 月已经拥有超过 5 万个企业用户,甚至连「财富 100」里的公司都有 47% 是它的付费企业用户。
近日,Synthesia 发布了新一代数字人技术 Expressive Avatars,主打可能生成相对更能表达情绪的数字人。
会做 PPT 就能做视频
当我打开 Synthesia 的视频编辑界面时,不禁感叹「这不就是 PPT 吗?」
这让我想起 Riparbelli 说过,他们的客户是那些「想做内容,但完全不知道要怎样起步去做的人。他们不知道怎样用摄影机,也没法获得内部预算支持」。
在这认知基础上,Synthesia 选择了打工人其中一个最熟悉(也憎恨)的软件 PPT 来做交互参考也真够贴心。
在一套模版下有很多不同情景「页」选择
左边每页都都代表一个场景,可以非常 PPT 地去修改场景中的文字、背景、配乐等设计,然后可以在内置的数字人库里选择合适的数字人角色(暂时只有两个数字人角色支持 Expressive Avatars 模式)和声音。
甚至,连视频的「台词」,也安排在一般 PPT 用来写备注的页面正下方,的确相当「直觉」。
如此同时,写下的台词也会成为视频的「时间轴」,用户可以直接插入演绎上的指令,譬如停顿、 用「标记(Marker)」增加动效,或者为特定单词指定发音(Diction)。
在正式生成影片前,用户可在软件中快速播放预览,快速过一次台词、背景音乐和其他视觉元素是否满意。为了保持足够高效,「数字演员」则会保持静止,只有在正式生成后才会「动起来」。
正式生成影片后,用户也还是可以随时编辑影片,重新生成,甚至也可以邀请伙伴加入一起编辑。
和前几代的数字人服务相比,Expressive Avatars 会在讲台词时同时「理解」台词蕴含的情绪,尝试以一种合适的情绪来「表演」。
我们生成的测试视频,数字人虽然表情多,但仍然可看出不自然
为了做到这个效果,Synthesia 实时生成中会涉及两种模型:1. 大语言模型帮助数字人理解脚本所意指的情绪;2. 深度扩散模型则负责根据理解生成影像。
不过,现在 Synthesia 的模型在理解该用什么情绪来表演上还是有限制。在 MIT Review 记者用它来朗读自己的文章时,数字人就以一种很欢快的方式演出了一句反讽评论。
Riparbelli 在线上沟通会上表示,公司在今年下半年还会推出另一个重要更新,将数字人生成推向更拟人的效果。
自发「严苛」,才能服务大公司
大公司愿意花钱,但也极度保守。
Synthesia 在交互上的简单直接,正好与其合规和审核机制的不断叠加相反。
Synthesia 的原则很「基本」 —— 在未获得明确同意前,不会生成任何人的数字化身 —— 这也是现在大部分网上 deepfake 做不到的。
训练数据方面,Synthesia 从 2020 年开始就聘请职业演员来创造高质量的人像数据,并创造了 225 个数字人角色供给用户选择。
为了训练出这代新的模型,Synthesia 去年请了大概 1000 名职业演员来提供数据。
之前,Synthesia 和演员的合作模式是该演员数字人角色每次被调用,前者都会向对应演员支付版权费用。现在,双方的合作改成了「限时一笔买卖」,单次支付费用来使用其肖像三年,三年后双方再商讨是否续约。
MIT Review 记者 Melissa Heikkilä 在 Synthesia 体验录制创造 AI 数字人
如果续约,Synthesia 会和演员重新签约,并录制新的数据,删除旧的;如果不续约,数据会直接被删除。
Synthesia 声称自己并不会出售这些数据,但表示会在一些学术研究项目上有部分展示。
对于更大的合作企业客户而言,Synthesia 也支持企业派人来订造专门的数字人角色。
大客户有独占服务,也得走更复杂的签约流程:和销售团队沟通,签好法规上的协议,进行安全审计 —— 以 Synthesia 的销售团队的话来说,类似于「银行业的流程」。
在生成内容上,Synthesia 也在构建一个越来越成熟的审核机制。
普通用户生成的内容只能是基于事实,而企业用户则可以生成包含有「意见」的内容。一切可疑或真假难辨的内容,都会直接被转到人工审核,而政治新闻类内容则一律不支持。
MIT Review 记者在测试文本时用到了政治新闻相关内容,结果被拒绝了
当然,生成后也都要走审核。其内部审核人员从最开始的 3 人已经增加到 30 人,占了整个团队人数 10%。此外,公司也专门聘请了一位工程师搭建基于 AI 的审核系统。
创始人 Riparbelli 开玩笑说,如果能放开这些审核机制那就是非常强有力的「增长策略」:
我们觉得,将这些技术推向社会最好的方式还是一开始「过度严格」点。

所幸在于,对于企业而言,这种限制带来的麻烦也不会太多。
现在,大部分企业用户都是用 Synthesia 的数字人来做内部培训视频,或者是市场营销介绍视频,「敏感信息」没那么刚需。
这些企业在寻找的,是在为未来和年轻员工和消费者沟通的方式。鉴于现在年轻人都习惯了从视频获取信息,所以到未来,「无聊」的入职说明、培训文档、年终汇报都可以采用数字人视频演绎的形式:
我们现在所做的更像是 PPT,而不是好莱坞的活。
继续阅读
阅读原文