试了试Meta的最新语音生成器，逼真得有点毛骨悚然

机器之能报道

编辑：吴昕

这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？

作品出自一个非常酷的语音生成工具 Audiobox Maker，你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。

有了它，仅用几分钟的时间，机器之心也随意生成了关于五月天假唱热搜的对话：

透过 Audiobox Maker ，即使是小白用户也可以设计、生成不同人物（比如小红帽、大灰狼和外婆）的声音文件，同时添加不同声效，通过拖曳、排列组合各种文件（就像搭乐高），自编自导一出故事。

我们使用 Audiobox Maker 制作关于五月天假唱对话的语音作品示例，生成了两个对话人物的音频，还有背景声效，通过拖曳不同模块进行编辑。

有学者说，2023 年是语音之年（ Year of Sound Waves ）。

确实，从电影、游戏、播客到有声读物，声音的魅力和地位可谓举重轻重。然而，制作高质量的音频却不是一件容易的事，特别是对无数业余爱好者来说。

为了改变现状，无论是 OpenAI、谷歌、微软、Meta 、亚马逊还是一众初创公司，都在语音生成方面投入了大量资金。

6 月，Meta 曾推出全新的语音生成 AI 模型—— VoiceBox，能从文本直接生成高质量语音，不需要任何语音样本作为训练数据。

由于当时对基于 AI 的深度伪造的担忧日益加剧，Meta 并未向公众开放 Voicebox。

意外的是，本周一，Meta 发布了一个新的交互式网站，支持大众免费体验「 Voicebox 的接班人」、最新的音频生成器 AudioBox。

Audiobox Maker 只是 AudioBox 的一个体验内容。

为了展示 Audiobox 的生成功能，Meta 发布了一系列交互演示。

事实上，你可以将 Audiobox 看作一个汇聚了六个 AI 工具的「模型系列」，包括克隆声音、文本到声音、文本到音效（比如掌声、狗叫、汽车喇叭、雷声）、在指定地方添加音效或删除指定部分等。

为了展示 Audiobox 的多功能性，网站提供了六种不同的 Audiobox 功能的演示和体验。

机器之心也立刻体验了一把几个 AI 功能，非常有意思。不过，遗憾的是目前并不支持中文。

最让人印象深刻的工具——

从文本直接生成各种音效

。

虽然 Audiobox 建立在 Voicebox 框架之上，但它可以生成更多种类的声音，特别是不同环境的声效。

只需给模型一个文本提示即可，例如「一条流淌的河流和鸟儿的鸣叫」：

结果如下：

Meta 声称，与之前最先进的产品相比，Audiobox 将 FAD （Frechet Audio Distance 的缩写，FAD 值越小越好）降低了 50% ，在质量和保真度方面堪与真实音频相媲美。

换一个声效提示试试—— The sound of the brook accompanied the laughter of the young woman ，感觉后半段有点恐怖了：

克隆自己的声音。

先录制一段自己的声音，想听听克隆声音朗读葡萄牙著名诗人卡蒙斯的诗的感觉，结果发现，目前并不支持葡萄牙语，只好更换为叶芝的诗歌 When you are old。

很快，就生成了两个音频供选择。说实话，本人很难分辨哪个更好，因为都很像。

Audiobox 使用了一种定制求解器，Meta 声称，这种求解器使生成过程比以前的模型快 25 倍以上，而不会损失性能。

不想用克隆的声音？没问题，同样是朗读 When you are old ，你还可以直接通过文本提示，利用 AI 生成最适合的声音：

输入提示，an old english man with a deep yet soft voice. He speaks with a slightly flat tone and his emotions are enthusiastic. The audio is high quality and it sounds like it was recorded by the sea。

值得注意的是，用户还可以结合语音输入与文本样式提示，生成任何环境（例如，海边）或任何情绪（例如，悲伤而缓慢地说话）下的语音。

Meta 声称，Audiobox 是第一个支持该双输入（声音样本和文本描述提示）的语音生成大模型，最大限度提高了每个用例结果的可控性。

比如，我们想让朗读 When you are old 的声音变得更成熟一些，想象背景里还有淅淅沥沥的雨声和远处的雷声（是不是更有意境？）

我们用自己的声音录制了样本，再加上文本提示：

A middle-aged person speaking with a relaxed, friendly voice. Background includes rain sound and distant thunder.

效果如下：

Audiobox 还支持声音填充功能，根据文本描述将指定音频的一部分替换为新声音。

我们试着将刚才生成的一段女人笑声伴随河流声的部分音频（紫色部分）更换为一阵狗吠，还有沉重的脚步声。

效果还不错：

除了上述功能，用户还可擦除指定部分的音频。

必须说明的是，可能出于伦理安全方面的谨慎，系统约束过多。几乎每次输入都会碰到系统显示无法处理的情况，要修改甚至放弃原来的表述，才可能成功，因此很难顺利按照自己既定的脚本，完成音频生成。

与 Voicebox 相比，Audiobox 的生成质量更优。通过「结合使用语音输入和自然语言文本提示」生成语音和声音效果，最大限度提高结果的可控性。

另外，和 Voicebox 不同，所有这些音频生成、编辑等功能，都「建立在共享的自监督模型 Audiobox SSL 之上。」

换句话说，通过统一语音和音景的生成和编辑功能，Audiobox 进一步推进了音频的生成 AI 的进步。

在安全性上，使用 Audiobox 创建的任何音频都带有自动水印，可以准确地追溯到其来源。

该技术目前不能用于任何赚钱/商业目的，奇怪的是也不能被美国人口最多两个州的居民使用。但随着 AI 的快速发展，预计这种情况会改变，在不久的将来会有商业版本，即使不是来自 Meta，也会来自其他人。

如果你有兴趣，这里有传送门：https://audiobox.metademolab.com/

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

继续阅读

阅读原文