🟡 11Labs AI音效深度评测:AI短片告别默片时代?
😀 我拿到 llElevenLabs 的 AI音效(sound effect) 内测资格啦!
Sora 的文字转视频在不断的掀起 AI 圈的风波, 大家都在期待这 OpenAI Sora 的发布, Sora 放出的每个 demo, 都能得到超高的转发量!
AI 从文字到图片再到视频, 仿佛在宣誓着 AI 完全时代马上就要到来! 与此同时有一个元素在最近也越来越出圈, 那就是"音效"!
- 2 月 18 号 ElevenLabs 发布半自动 AI 音效的效果视频,让 Sora 宇宙出现了“声音”
- 2 月 27 日 Pika(AI 视频制作平台)推出声音唇部同步功能 Lip Sync
- 3 月 10 日 Pika 集成 AI 音效功能
正当我想“氪金”来体验 Pika 的 Sound effects,试试看“赛博煎培根 🥓”的感觉时,11ElevenLabs 向我抛来了一个惊喜(内侧名额),它也更新了一个功能,叫“Sound effects”。
同名,加上之前 Pika 的唇形同步就是 11labs 支持的,很难不让人联想到内侧拿到的“Sound effects”就是 Pika 背后的支持技术
我第一时间想到的就是把最近新出的 Sora 视频全配上音效,搭配 Apple Vision Pro 体验体验大片。
Sora 3 月份 最新视频效果:
- "A dragon made of bubbles, perfectly rendered 8k."
一条由气泡制成的龙,完美渲染 8k
- "A dragon made of bubbles, perfectly rendered 8k."
一只透明的景观乌龟在沙滩爬行
- “an alien blending in naturally with new york city, paranoia thriller style, 35mm film”
一个与纽约市自然融合的外星人,偏执惊悚风格,35 毫米电影
是不是很震撼, Sora 由提示词生成的视频画面真实, 看不出 AI 的痕迹, 但是画面中的内容却是脑洞大开的存在!
但是音效的缺失, 还是让人感觉视频中缺少了什么!
上手体验
接下来就让我来带大家来抢先预览一下 AI 音效的魔力!
上面就是 ElevenLabs Sound Effects 打开的之后界面, 没有使用方法的提示, 只有一个输入提示词的框, 看样子是根据提示词生成音效!
与 ElevenLabs 不同的是: Pika 想先输入视频/图片,生成对应的描述来生成音效,或者在生成视频的过程中,用“同一个提示词”生成音效
既然这样, 我要给着 Sora 新发出的"梦幻泡泡喷火龙:"视频来量身定制的音效
ElevenLabs 音效深度测试
- 首先,我按照最简单的方式复用了目前 Sora 视频的 Prompt
🤠 A dragon made of bubbles, perfectly rendered 8k.
在等待了几秒之后, 生成了 5 个音效, 虽然这 5 个音效都跟泡泡有关, 但是想要放到视频中也不是那么合适,而且时间也太短了,部分片段只有 1 秒
所以 11labs 是不是会跟 Midjourney v5 之前的 Prompt 风格类似,我需要尽可能用代表音效的单词来表达我想要的?
我在提示词框中输入这段简短的描述, 尝试增加提示语长度看看会不会增加音效长度
http://player.bilibili.com/player.html?aid=1501555636&bvid=BV1fS421w7J2&cid=1468662153&p=1
这次音频变长到了 3 秒,而且在声音更加清晰,但依然不是我想要的效果
在我尝试了 5 次之后, 我决定调整提示词的方向, 让我的提示词尽可能的去描述我想要的音效, 而不是描述视频画面,。
这个思路写出的提示词, 果然效果好了很多! (写文章的时候, 再次看到提示词框中的提示, describe your sound effect 恍然大悟!)
这次还能带上水泡破裂 💥 和水滴的声音,看来离成功不远
根据这个逻辑, 我直接手搓一个 GPTs 用来帮我更好的生成音效的描述:
在保留核心内容并去掉“没有意义”的物体单词后,音效有效变长还复现了准确的吹泡泡的感觉。
ElevenLabs + Sora!
按照这个思路类推,我们还可以在一段提示语中放入不同画面的描述音效,来达到一口气生成一整个视频音效
- Gentle rustling sand, subtle shell movement, soft sea breeze, rolling wave whispers, distant bird calls.
- 轻柔的沙沙声,微妙的贝壳运动,柔和的海风,翻滚的海浪低语,远处的鸟叫声。
实际还是分开画面来做比较方便调整!这一段 20s 视频就分了 5 个不同的音效合成
- 城市背景噪音:汽车喇叭声、人群噪音、地铁隆隆声、行人脚步声。
- 无声的脚步声,橡胶摩擦声。
- 电子嗡嗡声、低频嗡嗡声、衣服沙沙声。
- 心跳加速,紧张气氛。
- 警笛声、消防车喇叭声、直升机轰鸣声。
通过声音来给这个视频重新演绎!
写在最后
AI 视频正在不断补全它的拼图碎片,从图生视频,到文生视频,文生音乐,文生音效。
我相信,跟很多我们之前看到的 AI 产品一样,它们会以极快的速度优化,整合,成为 AI 视频工作流的一部分
到时候,便是真正意义上的“一键”生成 AI 视频!
💡 有关 11labs 安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~