跳到主要内容

🟡 11Labs AI音效深度评测:AI短片告别默片时代?

😀 我拿到 llElevenLabs 的 AI音效(sound effect) 内测资格啦!

Sora 的文字转视频在不断的掀起 AI 圈的风波, 大家都在期待这 OpenAI Sora 的发布, Sora 放出的每个 demo, 都能得到超高的转发量!

AI 从文字到图片再到视频, 仿佛在宣誓着 AI 完全时代马上就要到来! 与此同时有一个元素在最近也越来越出圈, 那就是"音效"!

https://player.bilibili.com/player.html?aid=1151575440&bvid=BV1uZ421Y77V&cid=1468661973&p=1&high_quality=1&autoplay=0

  • 2 月 18 号 ElevenLabs 发布半自动 AI 音效的效果视频,让 Sora 宇宙出现了“声音”
  • 2 月 27 日 Pika(AI 视频制作平台)推出声音唇部同步功能 Lip Sync
  • 3 月 10 日 Pika 集成 AI 音效功能

https://player.bilibili.com/player.html?aid=1051540048&bvid=BV1eH4y157Pa&cid=1468662147&p=1&high_quality=1&autoplay=0

正当我想“氪金”来体验 Pika 的 Sound effects,试试看“赛博煎培根 🥓”的感觉时,11ElevenLabs 向我抛来了一个惊喜(内侧名额),它也更新了一个功能,叫“Sound effects”。

同名,加上之前 Pika 的唇形同步就是 11labs 支持的,很难不让人联想到内侧拿到的“Sound effects”就是 Pika 背后的支持技术

我第一时间想到的就是把最近新出的 Sora 视频全配上音效,搭配 Apple Vision Pro 体验体验大片。

Sora 3 月份 最新视频效果:

  • "A dragon made of bubbles, perfectly rendered 8k."

一条由气泡制成的龙,完美渲染 8k

https://player.bilibili.com/player.html?aid=1001613338&bvid=BV18x4y1Q7M8&cid=1468661963&p=1&high_quality=1&autoplay=0

  • "A dragon made of bubbles, perfectly rendered 8k."

一只透明的景观乌龟在沙滩爬行

https://player.bilibili.com/player.html?aid=1401690844&bvid=BV1Ur421J7gL&cid=1468661970&p=1&high_quality=1&autoplay=0

  • “an alien blending in naturally with new york city, paranoia thriller style, 35mm film”

一个与纽约市自然融合的外星人,偏执惊悚风格,35 毫米电影

https://player.bilibili.com/player.html?aid=1851698528&bvid=BV16W421c7RN&cid=1468662035&p=1&high_quality=1&autoplay=0

是不是很震撼, Sora 由提示词生成的视频画面真实, 看不出 AI 的痕迹, 但是画面中的内容却是脑洞大开的存在!

但是音效的缺失, 还是让人感觉视频中缺少了什么!

上手体验

接下来就让我来带大家来抢先预览一下 AI 音效的魔力!

上面就是 ElevenLabs Sound Effects 打开的之后界面, 没有使用方法的提示, 只有一个输入提示词的框, 看样子是根据提示词生成音效!

与 ElevenLabs 不同的是: Pika 想先输入视频/图片,生成对应的描述来生成音效,或者在生成视频的过程中,用“同一个提示词”生成音效

既然这样, 我要给着 Sora 新发出的"梦幻泡泡喷火龙:"视频来量身定制的音效

ElevenLabs 音效深度测试

  1. 首先,我按照最简单的方式复用了目前 Sora 视频的 Prompt

🤠 A dragon made of bubbles, perfectly rendered 8k.

https://player.bilibili.com/player.html?aid=1301710453&bvid=BV1tu4m1g7BY&cid=1468662155&p=1&high_quality=1&autoplay=0

在等待了几秒之后, 生成了 5 个音效, 虽然这 5 个音效都跟泡泡有关, 但是想要放到视频中也不是那么合适,而且时间也太短了,部分片段只有 1 秒

所以 11labs 是不是会跟 Midjourney v5 之前的 Prompt 风格类似,我需要尽可能用代表音效的单词来表达我想要的?

我在提示词框中输入这段简短的描述, 尝试增加提示语长度看看会不会增加音效长度

http://player.bilibili.com/player.html?aid=1501555636&bvid=BV1fS421w7J2&cid=1468662153&p=1

这次音频变长到了 3 秒,而且在声音更加清晰,但依然不是我想要的效果

在我尝试了 5 次之后, 我决定调整提示词的方向, 让我的提示词尽可能的去描述我想要的音效, 而不是描述视频画面,。

这个思路写出的提示词, 果然效果好了很多! (写文章的时候, 再次看到提示词框中的提示, describe your sound effect 恍然大悟!)

https://player.bilibili.com/player.html?aid=1901672117&bvid=BV1Dm411d7cF&cid=1468661975&p=1&high_quality=1&autoplay=0

这次还能带上水泡破裂 💥 和水滴的声音,看来离成功不远

根据这个逻辑, 我直接手搓一个 GPTs 用来帮我更好的生成音效的描述:

https://player.bilibili.com/player.html?aid=1801631222&bvid=BV1vt421L7GN&cid=1468662039&p=1&high_quality=1&autoplay=0

在保留核心内容并去掉“没有意义”的物体单词后,音效有效变长还复现了准确的吹泡泡的感觉。

https://player.bilibili.com/player.html?aid=1001613338&bvid=BV18x4y1Q7M8&cid=1468661963&p=1&high_quality=1&autoplay=0

ElevenLabs + Sora!

按照这个思路类推,我们还可以在一段提示语中放入不同画面的描述音效,来达到一口气生成一整个视频音效

  • Gentle rustling sand, subtle shell movement, soft sea breeze, rolling wave whispers, distant bird calls.
  • 轻柔的沙沙声,微妙的贝壳运动,柔和的海风,翻滚的海浪低语,远处的鸟叫声。

https://player.bilibili.com/player.html?aid=1351631404&bvid=BV1T6421c7ZJ&cid=1468661969&p=1&high_quality=1&autoplay=0

实际还是分开画面来做比较方便调整!这一段 20s 视频就分了 5 个不同的音效合成

  1. 城市背景噪音:汽车喇叭声、人群噪音、地铁隆隆声、行人脚步声。
  2. 无声的脚步声,橡胶摩擦声。
  3. 电子嗡嗡声、低频嗡嗡声、衣服沙沙声。
  4. 心跳加速,紧张气氛。
  5. 警笛声、消防车喇叭声、直升机轰鸣声。

通过声音来给这个视频重新演绎!

https://player.bilibili.com/player.html?aid=1101687647&bvid=BV1Dw4m1d7Av&cid=1468662142&p=1&high_quality=1&autoplay=0

写在最后

AI 视频正在不断补全它的拼图碎片,从图生视频,到文生视频,文生音乐,文生音效。

我相信,跟很多我们之前看到的 AI 产品一样,它们会以极快的速度优化,整合,成为 AI 视频工作流的一部分

到时候,便是真正意义上的“一键”生成 AI 视频!

💡 有关 11labs 安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~