机器之能报道
编辑:吴昕
这段《小红帽》故事中的所有音频都是 AI 生成的,你能听出来吗?
作品出自一个非常酷的语音生成工具 Audiobox Maker,你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。
有了它,仅用几分钟的时间,机器之心也随意生成了关于五月天假唱热搜的对话:

透过 Audiobox Maker ,即使是小白用户也可以设计、生成不同人物(比如小红帽、大灰狼和外婆)的声音文件,同时添加不同声效,通过拖曳、排列组合各种文件(就像搭乐高),自编自导一出故事。
我们使用 Audiobox Maker 制作关于五月天假唱对话的语音作品示例,生成了两个对话人物的音频,还有背景声效,通过拖曳不同模块进行编辑
学者说,2023 年是语音之年( Year of Sound Waves )。
确实,从电影、游戏、播客到有声读物,声音的魅力和地位可谓举重轻重。然而,制作高质量的音频却不是一件容易的事,特别是对无数业余爱好者来说。


为了改变现状,无论是 OpenAI、谷歌、微软、Meta 、亚马逊还是一众初创公司,都在语音生成方面投入了大量资金。

6 月,Meta 曾推出全新的语音生成 AI 模型—— VoiceBox,能从文本直接生成高质量语音,不需要任何语音样本作为训练数据。

由于当时对基于 AI 的深度伪造的担忧日益加剧,Meta 并未向公众开放 Voicebox。

意外的是,本周一,Meta 发布了一个新的交互式网站,支持大众免费体验 「 Voicebox 的接班人」、最新的音频生成器 AudioBox。
Audiobox Maker 只是 AudioBox 的一个体验内容。
为了展示 Audiobox 的生成功能,Meta 发布了一系列交互演示。
事实上,你可以将 Audiobox 看作一个汇聚了六个 AI 工具的「模型系列」,包括克隆声音、文本到声音、文本到音效(比如掌声、狗叫、汽车喇叭、雷声)、在指定地方添加音效或删除指定部分等。
为了展示 Audiobox 的多功能性,网站提供了六种不同的 Audiobox 功能的演示和体验。
机器之心也立刻体验了一把几个 AI 功能,非常有意思。不过,遗憾的是目前并不支持中文。
最让人印象深刻的工具—— 
从文本直接生成各种音效


虽然 Audiobox 建立在 Voicebox 框架之上,但它可以生成更多种类的声音,特别是不同环境的声效。


只需给模型一个文本提示即可,例如「一条流淌的河流和鸟儿的鸣叫」:
结果如下:
Meta 声称,与之前最先进的产品相比,Audiobox 将 FAD (Frechet Audio Distance 的缩写,FAD 值越小越好)降低了  50% ,在质量和保真度方面堪与真实音频相媲美。
换一个声效提示试试—— The sound of the brook accompanied the laughter of the young woman ,感觉后半段有点恐怖了:
克隆自己的声音。

先录制一段自己的声音,想听听克隆声音朗读葡萄牙著名诗人卡蒙斯的诗的感觉,结果发现,目前并不支持葡萄牙语,只好更换为叶芝的诗歌 When you are old。
很快,就生成了两个音频供选择。说实话,本人很难分辨哪个更好,因为都很像。
Audiobox 使用了一种定制求解器,Meta 声称,这种求解器使生成过程比以前的模型快 25 倍以上,而不会损失性能。
不想用克隆的声音?没问题,同样是朗读 When you are old ,你还可以直接通过文本提示,利用 AI 生成最适合的声音:

输入提示,an old english man with a deep yet soft voice. He speaks with a slightly flat tone and his emotions are enthusiastic. The audio is high quality and it sounds like it was recorded by the sea。
值得注意的是,用户还可以结合语音输入与文本样式提示,生成任何环境(例如,海边)或任何情绪(例如,悲伤而缓慢地说话)下的语音。
Meta 声称,Audiobox 是第一个支持该双输入(声音样本和文本描述提示)的语音生成大模型,最大限度提高了每个用例结果的可控性。
比如,我们想让朗读 When you are old 的声音变得更成熟一些,想象背景里还有淅淅沥沥的雨声和远处的雷声(是不是更有意境?
我们用自己的声音录制了样本,再加上文本提示:
A middle-aged person speaking with a relaxed, friendly voice. Background includes rain sound and distant thunder.
效果如下:

Audiobox 还支持声音填充功能,根据文本描述将指定音频的一部分替换为新声音
我们试着将刚才生成的一段女人笑声伴随河流声的部分音频(紫色部分)更换为一阵狗吠,还有沉重的脚步声。
效果还不错:
除了上述功能,用户还可擦除指定部分的音频。
必须说明的是,可能出于伦理安全方面的谨慎,系统约束过多。几乎每次输入都会碰到系统显示无法处理的情况,要修改甚至放弃原来的表述,才可能成功,因此很难顺利按照自己既定的脚本,完成音频生成。
与 Voicebox 相比,Audiobox 的生成质量更优通过「结合使用语音输入和自然语言文本提示」生成语音和声音效果,最大限度提高结果的可控性

另外,和 Voicebox 不同,
所有这些音频生成、编辑等功能,都「建立在共享的自监督模型 Audiobox SSL 之上。

换句话说,通过统一语音和音景的生成和编辑功能,Audiobox  进一步推进了音频的生成 AI 的进步。


在安全性上,使用 Audiobox 创建的任何音频都带有自动水印,可以准确地追溯到其来源。
该技术目前不能用于任何赚钱/商业目的,奇怪的是也不能被美国人口最多两个州的居民使用。但随着 AI 的快速发展,预计这种情况会改变,在不久的将来会有商业版本,即使不是来自 Meta,也会来自其他人。
如果你有兴趣,这里有传送门:https://audiobox.metademolab.com/
© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
继续阅读
阅读原文