语音合成之王ElevenLabs搅局音乐界，新模型创作水准堪驰援《歌手》

机器之能报道

编辑：Cardinal

一个简单提示，二十几个词，就能生成一首三分时长的歌曲，其水准足以打榜。

很多人制作视频时，喜欢强强联合——用 Suno、Udio 生成背景音乐，ElevenLabs 负责旁白。前者是逼真的 AI 音乐创作工具，ElevenLabs 则是目前最著名、最好的 AI 声音生成平台之一。

但现在，格局要生变了。

最近，ElevenLabs 又推出一款新型 AI 音乐生成器，进军音乐界。听闻音频之王也要「通吃」音乐之王，很多人的反应都在演我：

ElevenLabs 在 X 上展示了新模型创作的一些曲目—— 只需 20 几个单词提示就能将你的想法转化为一首歌，「所有歌曲都是从单个文本提示生成的，无需编辑。」

这些官方发布的示例作品至少有 2 分钟时长，有的接近 3 分钟，歌手声音听起来很自然，歌曲风格包括爵士乐、流行音乐、回响贝斯（ dubstep ）和乡村音乐等，歌词也是系统生成。

音乐模型目前处于早期预览阶段，只有 ElevenLabs 工作人员可以访问。如果示例中的时长（比如三分钟）就是新模型默认的生成长度，这将会是一个巨大进步——这比 Udio 的 30 秒或 Suno 的 1 分钟要长得多，也意味着一个简单提示就能生成一首完整歌曲，不再需要后续扩展。

这是六首由新音乐模型创作的歌曲：

1、歌名：It Started to Sing ( Jazz Version ) （ 2 分 59 秒）

提示：A jazz pop top charts song with emotional vocals, catchy chorus, and trumpet solos

提示：这是一首登上流行音乐榜单榜首的爵士流行乐，歌手歌唱动人，副歌朗朗上口，还有醒目的小号独奏。

2、歌名：Broke my Heart （ 2 分 50 秒）

提示: Smooth Contemporary R&B with subtle Electronic elements, featuring a pulsing 104 BPM drum machine beat, filtered synths, lush electric piano, and soaring strings, with an intimate mood.

提示：这是一段具有当代 R&B 风格的歌曲，节奏平稳流畅同时又巧妙地融入了一些电子元素。音乐以 104 BPM 的鼓点为基础，鼓点有力而富有律动感。歌曲中使用了滤波合成器营造氛围，电子钢琴旋律优美动听，弦乐恢弘大气，整体氛围温馨亲密。

3、歌名: My Love （ 3 分 01 秒）

提示：Indie Rock with 90s influences, featuring a combination of clean and distorted guitars, driving drum beats, and a prominent bassline, with a moderate tempo around 120 BPM, and a mix of introspective and uplifting moods, evoking a sense of nostalgia and hope。

提示：这是一首融合了独立摇滚和 90 年代风格的歌曲，音乐中清音吉他和失真吉他相互交织，鼓点强劲有力，推动着歌曲的节奏，同时低音贝斯也非常突出。歌曲节奏适中，约在 120 BPM 左右。整首歌的情绪时而沉思内省，时而振奋人心，唤起了一种怀旧和充满希望的感觉。

网友听完后的感叹

4、这是员工分享的一个作品，歌名：never stopping to learn。

一句非常简单的提示：rap about never stopping to learn（这是一段有关学无止境的说唱），就生成了这首 3 分 10 秒长的歌曲。

ElevenLabs 员工还放出了另外两首作品，一个是说唱，一个是回响贝斯（ Dubstep ）曲风。不过，时长都只有 1 分多钟。

英国音乐制作人 Beardyman 转发了上面这首 dubstep ，称「三年内几乎不可能以商业音乐为生。」

AI 音乐是今年迄今为止增长最快的合成内容领域之一，第一首 Suno 歌曲的收听量突破了一百万次，Udio 也推出了非常逼真的 AI 音乐创作工具。著名的科技媒体 tomsguide 评价认为，这些迄今为止共享的样本表明，ElevenLabs 新模型的创作质量在多种歌曲流派上都超过了另一个炙手可热的音乐生成器 Udio 。

比 suno、udio 要好得多，有网友表示：

「这是我听过的最令人印象深刻的 AI 生成的音乐：其他 AI 音乐生成工具听起来相当机器人和人工。这感觉就像是一个真正的飞跃。」

更便宜、更富有表现力的声音，这就是我们想要的。

ElevenLabs 以其自然的合成声音和令人印象深刻的准确语音克隆而闻名，进军音乐生成之前，他们也在布局 AI 音效——允许用户通过相对简单的提示创建一些复杂、多层次声音效果。例如动物叫声、噼啪作响的篝火声、海浪、雷暴、风铃伴随老式的火车汽笛声。接下来涉足音乐工具，似乎也在逻辑之中：

声音正成为生成 AI 的一个快速增长领域，因为它为视觉创作提供了纯文本无法企及的新的体验维度，而克隆、合成语音只是声音的一部分，连同音乐工具、声效甚至自定义噪音一起就能比较完整地为创作者、观众，提供一种全新、也更身临其境的叙事和体验方式。

参考链接

https://twitter.com/elevenlabsio/status/1788628171044053386

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

继续阅读

阅读原文