「成本也大降,制作1分钟视频只需要2美元」
撰文:何昕晔
编辑:吴洋洋
郭德纲用英文说相声、蔡明用英文讲脱口秀、Taylor Swift用中文分享创作灵感……最近,各类“名人说外语”的视频在哔哩哔哩、YouTube等平台上火了。这些视频并不是在原内容的基础上做简单翻译,而是用上了HeyGen——一款生成式AI应用。

生成这样的视频不再需要会写代码、P图,只要会按按钮就行。
经过这项技术的加持,视频中的说话者就像是立刻掌握了第二语言,从语气、音调,到嘴形、面部表情,都让人看不出破绽。在HeyGen网站主页的「视频翻译」板块,只需输入一段时长30秒到5分钟的视频,选择目标翻译语言,就可以让说话者使用另一语言表达相同内容。目前,新用户登陆可免费获得1积分,即可以体验转换1分钟的视频。而可以选择的语言包括英语、西班牙语、德语、波兰语、法语、意大利语、葡萄牙语和印地语等40多种。
HeyGen背后是中国团队
HeyGen的背后,是一家来自中国的公司「诗云科技」。这家公司的两位创始人徐卓(Joshua Xu)和梁望(Wayne Liang)都来自中国,两人拥有相似的学历背景,本科和研究生分别毕业于同济大学和卡内基梅隆大学。2020年,他们在深圳创立了诗云科技,公司名称来自于刘慈欣的小说《诗云》。
创立之初,诗云科技就有着「宏大」的愿景——革新人类内容创作的模式。更具体地说,两位创始人希望打破语言障碍,让全世界都能接触到同一内容,而不仅仅是10%会说英语的人。同时,他们用AI生成来取代相机,彻底重塑视觉叙事的方式。
2022年7月,诗云科技推出了HeyGen(前身为Movio),主要提供制作数字人(Avatar)服务。目前,HeyGen网站主页有「创建数字人」和「创建视频」两个功能。
你可以提交照片制作自己的数字分身。
如果你想要创立自己的数字分身,有两种主要的实现方式。第一种是选择Photo Avater,直接上传一张个人照片,就可以生成会说话的分身。但是,仅用一张静态照片生成的动态视频质量并不是很高。如果你想训练更高质量的分身,需要上传一段2分钟的个人视频,确认授权并等待5到10分钟后,即可得到品质更高的数字分身。
当然,如果你并不想定制自己的分身,网站的数字人库里有超过100种形象可供选择。配音既可以克隆自己的声音,也可以直接选择素材库里的声音,HeyGen提供300多种语音选择。
不想制作自己的分身,也可以从数据库里选择一个数字人。
确定好人物形象之后,就可以进入视频制作环节。网站提供了200多个视频模板,你可以上传已有脚本,直接生成视频。如果还没有准备好文字,在输入相关的提示之后,HeyGen也可以直接帮你生成,使用方法和ChatGPT类似。
有300多种风格的语音可以克隆。
在HeyGen Labs板块中,还有很多有意思的AI小应用。除了开头提到的视频翻译,这个应用库中还提供换脸、文字生成图片、亚马逊商品链接一键转换为广告视频等有趣功能。此外,库里还提供ChatGPT专属插件,可以通过文字指令生成图片。
价格方面,目前HeyGen提供了免费版、创作者版、商务版和企业版4个选项。免费版可以制作1分钟视频,创作者版每个月可以生成15至120分钟视频,价格为29美元/月至239美元/月不等,平均2美元/分钟。商务版的制作价格为3美元/分钟。
像搭乐高一样构建视频
HeyGen的目标市场是有视频制作需求的企业,帮助它们以非常低的成本制作视频,而不用雇用演员和购买昂贵的录制设备。
HeyGen没有训练自己的基础模型,在其产品结构中,提供翻译服务的AI是GPT-4,口型同步技术来自于模型wav2lip-2,而语音克隆来自于模型ElevenLabs。在这之上,HeyGen提供了整合式的交互界面。
首先,HeyGen把制作视频的流程大大简化了。正因它有40多种语言、100多种形象、300多种语音可选择,用户可以像搭乐高一样构建自己的数字人和视频。此外,该应用还提供了300多个可定制的模板,适用于广告、电子商务、讲解视频、社交媒体等多种场景,进一步降低了用户使用门槛。
并且,HeyGen已经完成与网络服务集成平台Zapier的连接,从而使用户可以在完成数字人或视频制作后直接导入到5000多个应用程序中去,比如一些项目管理软件、CRM系统或社交媒体平台——意味着从制作到发布是无缝衔接的
不想构思画面可以直接找个模版套。
能够制作数字人的技术公司有很多,但能够为这项技术找到够大的市场,并用体验友好的产品满足用户的公司却不多。
此前,另一出圈的AIGC应用「妙鸭」的产品负责人张月光强调过付费对于AIGC应用的重要性,称「这类产品第一天不收钱,就可能收不到钱」。HeyGen的创始人对于付费有着相似观点,他们一开始就明确「要找到一种最小可行性产品(Minimum Viable Product,MVP)并让用户为它付费,如果用户不愿意付款,就说明这个方案不可行」。
添加模板、选择头像、添加文本、添加图形和背景音乐后,接下来视频就会自动生成。
公司创始人徐卓称,2023年4月,HeyGen上线7个月后,公司年度经常性收入(ARR)达到百万美元,诗云科技整体已实现盈利。此前,公司共获得过两轮融资:2021年3月,获得红杉中国种子基金和真格基金的天使轮投资,价值约数百万美元;2021年8月,获得数百万美元Pre-A轮融资,由IDG资本领投。
徐卓在美国社交媒体公司Snapchat有过6年工作经历,梁望曾在美国K歌应用Smule工作,之后担任字节跳动美国公司的设计主管。两位创始人都有着丰富的互联网产品经验,他们十分重视产品的用户价值。徐卓在分享盈利经验时称,产品市场契合度(Product/Market Fit,PMF)具有十分重要的意义,面对新技术,需要区分演示价值和用户价值。有很多技术看起来非常酷,但是在用户中并没有长期价值存在,即技术的内在价值可能与产品的市场契合度相距甚远,因此要避免一厢情愿的想法。
做个视频Up主越来越容易?
创业之初,为了验证产品是否符合市场需求,两位创始人先在自由职业外包平台Fiverr上提供数字人服务,确认了市场需求确实存在,且了解到用户使用此功能的预期价格为3美元/分钟。通过这种方法,两位创始人以最低成本验证了其产品的市场契合度。
HeyGen面向全球市场,团队目前有约30名员工,分布在三大洲的4个国家中的6个城市。
目前,数字人领域竞争激烈。大公司正在积极布局,Meta推出的虚拟数字人服务Avatar,其用户目前已经创建了超10亿个数字人形象。2017年创立的Synthesis AI也主推数字人产品,目前估值已升至10亿美元,成为独角兽公司。
当制作一分钟视频的成本降到只需要2美元,视频业的命运也将改变。
公司档案
创立时间
2020年12月
创始人
徐卓(Joshua Xu)
梁望(Wayne Liang)
核心产品:
·HeyGen:AI 视频生成器,素材库可提供40多种语言、100多种形象、300多种语音。
·基础模型:翻译来自ChatGPT-4、口型同步来自wav2lip-2,语音克隆来自ElevenLabs。
融资历程
天使轮:2021年3月,融资数百万美元,投资者包括红杉中国种子基金和真格基金;
Pre-A轮:2021年8月,融资数百万美元,IDG资本领投。
-END-
若想了解更多当日资讯,请点击阅读往期智能晚报

若想了解头条新闻,请点击阅读往期

我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。 
和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。
在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。
与记者交流,可添加微信(请备注公司名称和姓名):
何昕晔 微信号: Hello_xyine
吴洋洋 微信号: qitianjiuye
喜欢就关注我们吧,记得设为星标」
继续阅读
阅读原文