🟡 11Labs AI音效深度评测：AI短片告别默片时代?

😀 我拿到 llElevenLabs 的 AI音效（sound effect）内测资格啦！

Sora 的文字转视频在不断的掀起 AI 圈的风波, 大家都在期待这 OpenAI Sora 的发布, Sora 放出的每个 demo, 都能得到超高的转发量!

AI 从文字到图片再到视频, 仿佛在宣誓着 AI 完全时代马上就要到来! 与此同时有一个元素在最近也越来越出圈, 那就是"音效"!

https://player.bilibili.com/player.html?aid=1151575440&bvid=BV1uZ421Y77V&cid=1468661973&p=1&high_quality=1&autoplay=0

2 月 18 号 ElevenLabs 发布半自动 AI 音效的效果视频，让 Sora 宇宙出现了“声音”
2 月 27 日 Pika（AI 视频制作平台）推出声音唇部同步功能 Lip Sync
3 月 10 日 Pika 集成 AI 音效功能

https://player.bilibili.com/player.html?aid=1051540048&bvid=BV1eH4y157Pa&cid=1468662147&p=1&high_quality=1&autoplay=0

正当我想“氪金”来体验 Pika 的 Sound effects，试试看“赛博煎培根 🥓”的感觉时，11ElevenLabs 向我抛来了一个惊喜（内侧名额），它也更新了一个功能，叫“Sound effects”。

同名，加上之前 Pika 的唇形同步就是 11labs 支持的，很难不让人联想到内侧拿到的“Sound effects”就是 Pika 背后的支持技术

我第一时间想到的就是把最近新出的 Sora 视频全配上音效，搭配 Apple Vision Pro 体验体验大片。

Sora 3 月份最新视频效果:

"A dragon made of bubbles, perfectly rendered 8k."

一条由气泡制成的龙，完美渲染 8k

https://player.bilibili.com/player.html?aid=1001613338&bvid=BV18x4y1Q7M8&cid=1468661963&p=1&high_quality=1&autoplay=0

"A dragon made of bubbles, perfectly rendered 8k."

一只透明的景观乌龟在沙滩爬行

https://player.bilibili.com/player.html?aid=1401690844&bvid=BV1Ur421J7gL&cid=1468661970&p=1&high_quality=1&autoplay=0

“an alien blending in naturally with new york city, paranoia thriller style, 35mm film”

一个与纽约市自然融合的外星人，偏执惊悚风格，35 毫米电影

https://player.bilibili.com/player.html?aid=1851698528&bvid=BV16W421c7RN&cid=1468662035&p=1&high_quality=1&autoplay=0

是不是很震撼, Sora 由提示词生成的视频画面真实, 看不出 AI 的痕迹, 但是画面中的内容却是脑洞大开的存在!

但是音效的缺失, 还是让人感觉视频中缺少了什么!

上手体验

接下来就让我来带大家来抢先预览一下 AI 音效的魔力！

上面就是 ElevenLabs Sound Effects 打开的之后界面, 没有使用方法的提示, 只有一个输入提示词的框, 看样子是根据提示词生成音效!

与 ElevenLabs 不同的是: Pika 想先输入视频/图片，生成对应的描述来生成音效，或者在生成视频的过程中，用“同一个提示词”生成音效

既然这样, 我要给着 Sora 新发出的"梦幻泡泡喷火龙:"视频来量身定制的音效

ElevenLabs 音效深度测试

首先，我按照最简单的方式复用了目前 Sora 视频的 Prompt

🤠 A dragon made of bubbles, perfectly rendered 8k.

https://player.bilibili.com/player.html?aid=1301710453&bvid=BV1tu4m1g7BY&cid=1468662155&p=1&high_quality=1&autoplay=0

在等待了几秒之后, 生成了 5 个音效, 虽然这 5 个音效都跟泡泡有关, 但是想要放到视频中也不是那么合适，而且时间也太短了，部分片段只有 1 秒

所以 11labs 是不是会跟 Midjourney v5 之前的 Prompt 风格类似，我需要尽可能用代表音效的单词来表达我想要的？

我在提示词框中输入这段简短的描述, 尝试增加提示语长度看看会不会增加音效长度

http://player.bilibili.com/player.html?aid=1501555636&bvid=BV1fS421w7J2&cid=1468662153&p=1

这次音频变长到了 3 秒，而且在声音更加清晰，但依然不是我想要的效果

在我尝试了 5 次之后, 我决定调整提示词的方向, 让我的提示词尽可能的去描述我想要的音效, 而不是描述视频画面,。

这个思路写出的提示词, 果然效果好了很多! (写文章的时候, 再次看到提示词框中的提示, describe your sound effect 恍然大悟!)

https://player.bilibili.com/player.html?aid=1901672117&bvid=BV1Dm411d7cF&cid=1468661975&p=1&high_quality=1&autoplay=0

这次还能带上水泡破裂 💥 和水滴的声音，看来离成功不远

根据这个逻辑, 我直接手搓一个 GPTs 用来帮我更好的生成音效的描述:

https://player.bilibili.com/player.html?aid=1801631222&bvid=BV1vt421L7GN&cid=1468662039&p=1&high_quality=1&autoplay=0

在保留核心内容并去掉“没有意义”的物体单词后，音效有效变长还复现了准确的吹泡泡的感觉。

https://player.bilibili.com/player.html?aid=1001613338&bvid=BV18x4y1Q7M8&cid=1468661963&p=1&high_quality=1&autoplay=0

ElevenLabs + Sora！

按照这个思路类推，我们还可以在一段提示语中放入不同画面的描述音效，来达到一口气生成一整个视频音效

Gentle rustling sand, subtle shell movement, soft sea breeze, rolling wave whispers, distant bird calls.
轻柔的沙沙声，微妙的贝壳运动，柔和的海风，翻滚的海浪低语，远处的鸟叫声。

https://player.bilibili.com/player.html?aid=1351631404&bvid=BV1T6421c7ZJ&cid=1468661969&p=1&high_quality=1&autoplay=0

实际还是分开画面来做比较方便调整！这一段 20s 视频就分了 5 个不同的音效合成

城市背景噪音：汽车喇叭声、人群噪音、地铁隆隆声、行人脚步声。
无声的脚步声，橡胶摩擦声。
电子嗡嗡声、低频嗡嗡声、衣服沙沙声。
心跳加速，紧张气氛。
警笛声、消防车喇叭声、直升机轰鸣声。

通过声音来给这个视频重新演绎！

https://player.bilibili.com/player.html?aid=1101687647&bvid=BV1Dw4m1d7Av&cid=1468662142&p=1&high_quality=1&autoplay=0

写在最后

AI 视频正在不断补全它的拼图碎片，从图生视频，到文生视频，文生音乐，文生音效。

我相信，跟很多我们之前看到的 AI 产品一样，它们会以极快的速度优化，整合，成为 AI 视频工作流的一部分

到时候，便是真正意义上的“一键”生成 AI 视频！

💡 有关 11labs 安装或者使用上的问题，欢迎您在底部评论区留言，一起交流~