萨楼网 > 百态 > 正文

​AI音频“扛把子”刚上谷歌V2A,第一个视频+音频全自动AI工具,完全开源免费

时间:2024-06-23 04:20

来源:萨楼网

点击:

AI音频“扛把子”刚上谷歌V2A,第一个视频+音频全自动AI工具,完全开源免费

文 | 乌鸦智能说

这几天的视频生成 AI 一经推出就好评不断。无论是 Runaway 新模型 Gen-3 Alpha,还是 Luma AI 推出的 Dream Machine,都有着逼真的画面、多样的电影叙事手法,艺术气息拉满。

目前最顶尖的工具如 Sora 生成的视频都是没有声音的,而声音是让 AI 视频变得更为真实的重要一步。如果 AI 能完成从脚本 / 图片 - 视频 - 配音的工作流,那才是真的完美。

昨日凌晨,谷歌 DeepMind 悄悄发布了 V2A(Video-to-Audio)系统。这个系统能根据画面内容或者手动输入的提示词直接为视频配音。

没过几小时,另一个 AI 音频克隆 " 扛把子 "ElevenLabs 就发布了文字到音频模型的 API,并基于这一 API 做了一个 Demo 应用。这是当前唯一一个全自动将视频与音频相结合的 AI 工具,且完全开源、免费在线使用。

花开两朵,各表一枝。由于谷歌并不打算向公众开放 V2A 系统,那我们就先试用一下 ElevenLabs 的这个版本 ~

看懂 + 对齐,生成全自动,但不能理解复杂画面

AI 视频告别无声,ElevenLabs 为 " 徒手 " 制作大片的 AI 工作流补上最后一笔,我已经迫不及待,马上就要为前几天做出来的 AI 生产视频加上配音了。(工具体验:https://www.videotosoundeffects.com/)

▲ ElevenLabs 生成配音视频 step1 → step2

我将 luma 生成的着火 meme 视频、OpenAI 成员暴走视频、电影《闪灵》视频等,以及 Gen-3 的示例视频都投喂给了 ElevenLabs,看看它会为这些画面配上什么声音。

效果还不错呀!其中," 某个歌手在独唱 "、" 一个女人奔向正在发射的火箭 "、" 白头发女人大笑 " 等等配音跟场景很契合," 水下呼吸的女人 "、" 一个男人身后燃起大火 " 的视频配音逼真细腻,非常有大片感。

经过约 20 个视频的试炼,ElevenLabs 能自动生成与视频内容同步的音轨,而且生成配音基本已覆盖影视配音的全部类型:

- 环境声,例如水下呼吸声、燃烧声、滚轮声、爆竹声、乐器演奏、白噪音、嘈杂人声等;

- 人声,哭声 / 笑声、对白 / 独白和歌声等,但不能生成旁白;

- 音乐,比如马戏团插画的欢乐音乐、闪灵双胞胎镜头的恐怖音乐等;

- 音效,例如枪声、喜剧效果的搓碟声、"OpneAI 成员打架 " 时的机械崩坏声等。

对比其他 AI 配音工具,ElevenLabs 是第一个做到全自动为视频结合生成式配音的工具,无需人工输入提示词也可以为视频配音,且使用 AI 创建 4 个音轨供选择,无需人工对齐音频与视频。

ElevenLabs 能理解视频的画面,读懂里面的元素,知道画面里正在发生什么,应该出现什么声音,自动匹配上环境音、人声、音乐和音效,在口型同步上表现也不错。

再从声音本身来说,乌鸦君发现 ElevenLabs 在声音保真度方面表现不错,水下呼吸声、燃烧声、滚轮声、爆竹声,甚至白噪音、嘈杂人声等声音都非常逼真,且音源丰富、音质尚可

令人最想吐槽的一点是,ElevenLabs 的音轨选择较少(只有 4 条),我用同一个视频多次投喂给 ElevenLabs,始终只能得到相同的 4 个音轨。

音轨选择少意味着使用者的控制范围小、创作灵活度低,这使得 ElevenLabs 在一致性和运动性方面不稳定的缺陷被暴露无疑。理解简单的画面对 ElevenLabs 来说不是难题,但一旦画面元素有了动态,配音时常出现节奏韵律不对、不能贴合画面内容的情况,例如脚步声不能符合人物走动的节奏等。

不过,这还只是 ElevenLabs 做视频配音的一个 Demo 程序,期待它后续增加可选择的音轨条数,提高理解复杂画面的能力。

完全开源,理解画面能力弱于 V2A

不到一天,ElevenLabs 研究人员说这是他们的视频到声音应用的开发用时。这个敢直接硬刚谷歌的 AI 语音公司由前 Google 机器学习工程师 Piotr Dabkowski 和前 Palantir 策略分析师 Staniszewski 于 2022 年 1 月共同创立,自 2022 年以来一直从事生成 AI 语音。

对比谷歌 V2A 示例视频和ElevenLabs 的生成视频,我们发现后者要逊色前者不少,这可能是由于二者的工作原理存在的本质的差别。Demo 是基于公司在 5 月底发布的文字到音频模型打造的,工作原理如下:

- 以 1 秒钟的间隔从视频中提取 4 帧图像(全部在客户端提取)

- 将帧和提示发送到 GPT-4o,以创建自定义的文本音效提示

- 使用 ElevenLabs 文本转声音特效 API 创建提示音效

- 在客户端使用 ffmpeg.wasm 将视频和音频合并为一个文件供下载

- 托管于 vercel

ElevenLabs 并不能直接实现画面到音频的转换,而是利用了 GPT-4o 将视频截图转换为文字提示词,之后再输入文字转在几秒内生成多条与画面内容匹配的音频。而 DeepMind 在博客中称V2A 能依靠自己的视觉能力理解视频中的像素,这意味着ElevenLabs 理解视频的能力可能会弱于 V2A

另外,在 API 使用过程中,Elevenlabs 按每次生成 100 个字符收费,在设置持续时间时按每秒生成 25 个字符收费。

结语:视频生成带飞音频生成,深度伪造技术带来自检挑战

一方面,OpenAI 不断推出高品质 AI 视频生成模型 Sora 的新演示,另一方面目前这项技术对公众仍然不可见,包括谷歌 V2A。然而为了解决视频配音这个问题,竞争对手 Pika 研究名叫 "Lip Sync" 的对口型功能。

AI 视频赛道在 " 百团大战 " 的同时,AI 音频生成企业也正在扶摇直上。

ElevenLabs 今年 2 月获得了 8000 万美元的 B 轮融资,估值超过 10 亿美元,跻身独角兽行列,估值在半年多的时间暴增 10 倍,包括像网易等游戏开发商、《华盛顿邮报》等传统媒体,都已经在大量使用 ElevenLabs 的文生语音技术。

声音是影视作品给人以身临其境之感的元素,未来,AI 音频生成可能会细化到人声模拟、对口型、方言等各个部分,无限逼近真实世界。

与此同时,企业需要研究更多类似生物指纹嵌入应用的技术,来防范 Deepfake(深度伪造)技术被用作不法用途。ElevenLabs 曾表示将会推出新的措施,克隆声音仅供付费用户使用,禁止多次违反平台协议的用户使用这种功能,将会推出一种新的 AI 检测工具。

相关标签:

相关推荐

​连锁新势力崛起

连锁新势力崛起 文 | 斑马消费,作者 | 徐霁 中国连锁零售的未来在哪里?不能把所有的希望,都压在胖东来身上。我们需要更多、更优化的鸣鸣很忙、好孩子、百果园、锅圈。 传统超...

2024-06-23 04:18:41

​走差异化硅碳负极制备路线,「星科源」连续完成两轮超五千万元融资

​走差异化硅碳负极制备路线,「星科源」连续完成两轮超五千万元融资

走差异化硅碳负极制备路线,「星科源」连续完成两轮超五千万元融资 作者|王方玉 编辑 | 苏建勋 36 氪获悉,近日杭州星科源新材料科技有限公司(以下简称 星科源 )已连续完成种...

2024-06-23 04:16:25

​Meta 对元宇宙部门进行大重组 ,将计划裁员

​Meta 对元宇宙部门进行大重组 ,将计划裁员

Meta 对元宇宙部门进行大重组 ,将计划裁员 据 The Verge 最新报道,6 月 18 日上午,Meta 首席技术官 Andrew Bosworth 在内部宣布,将对其硬件部门 Reality Labs 进行重大重组。 在重组之后, R...

2024-06-23 04:14:09

​魅族 Live AI 真无线耳机体验:加了 AI 的耳机,会更好听吗

​魅族 Live AI 真无线耳机体验:加了 AI 的耳机,会更好听吗

魅族 Live AI 真无线耳机体验:加了 AI 的耳机,会更好听吗 早在魅族 21 Pro 推出时,魅族就推出了不再做传统手机的「All in AI」理念。 透过在 Flyme AIOS 引入 AI 功能,手机可以实现更多内...

2024-06-23 04:11:53

​鲎如何改变人类命运?一文了解地球唯一蓝血生物→

​鲎如何改变人类命运?一文了解地球唯一蓝血生物→

鲎如何改变人类命运?一文了解地球唯一蓝血生物→ 2019 年,世界自然保护联盟将中国鲎(hòu)定为 濒危 级别,并将 6 月 20 日定为 世界鲎日。 大多数人对 鲎 这类动物不甚了解,甚...

2024-06-23 04:09:37

​新一代餐饮爆品,加拿大冷冻龙虾来了

​新一代餐饮爆品,加拿大冷冻龙虾来了

新一代餐饮爆品,加拿大冷冻龙虾来了 位于加拿大东岸的新布伦瑞克省是加拿大海产尤其是加拿大冷冻龙虾产业极其重要的产区,2019年全球冷冻龙虾总值为15亿加元,而新布伦瑞克省就...

2024-06-20 15:37:10

​林妙可与杨沛宜:奥运假唱十年之后,命运大不相同

​林妙可与杨沛宜:奥运假唱十年之后,命运大不相同

林妙可与杨沛宜:奥运假唱十年之后,命运大不相同 今年是北京奥运会十周年。当年担任开幕式总导演的张艺谋近日回应假唱事件,对当时没有坚持用林妙可的声音感到“很自责”。...

2024-06-20 15:34:54

​文史 | 李敖与胡因梦的恩恩怨怨

文史 | 李敖与胡因梦的恩恩怨怨 作者 | 辛夫 来源 | 《名人传记》 才子佳人的天作之合 李敖身边的女人虽多,但大多与他未结婚,只有胡因梦(曾用名胡茵梦)、王小屯才是正式结婚的夫人...

2024-06-20 15:32:40

​命运的钟摆:1977年恢复高考

​命运的钟摆:1977年恢复高考

命运的钟摆:1977年恢复高考 ▲程丛林《夏夜·恢复高考的日子》局部 1977年恢复高考是中国现代教育史上的一件大事,标志着中国招生考试史的新纪元,也是中国教育史的新纪元,一直...

2024-06-20 15:30:21

​读懂《加缪手记》10句经典箴言,胜读10年书

​读懂《加缪手记》10句经典箴言,胜读10年书

读懂《加缪手记》10句经典箴言,胜读10年书 作者:许朝暮 境由心生,物随心转。 ♬ 点上方绿标可收听洞见主播林静朗读音频 学者刘成富评价加缪: “放眼世界,很难找到第二个像他...

2024-06-20 15:28:05

​第一“剩女”吕碧城:一生没有爱情也没关系,只要拥有这两样东西

​第一“剩女”吕碧城:一生没有爱情也没关系,只要拥有这两样东西

第一“剩女”吕碧城:一生没有爱情也没关系,只要拥有这两样东西 1 百年前的庐山,瀑布成烟,游客熙熙攘攘。 一身墨绿重工刺绣长裙的吕碧城,撑着油纸伞,挽着母亲游览吕洞宾的...

2024-06-20 15:25:49

​亚洲特快:《王立宇宙军》光看火箭?那你就亏了

亚洲特快:《王立宇宙军》光看火箭?那你就亏了 各位朋友大家好,欢迎收看本期《亚洲特快》,本期节目咱们说点啥呢——说个列车长一直喜欢的电影吧——这就是《王立宇宙军》,...

2024-06-20 15:23:34

​谁才是香港影坛的顶级大佬?邓光荣的“黑色”纵横史

​谁才是香港影坛的顶级大佬?邓光荣的“黑色”纵横史

谁才是香港影坛的顶级大佬?邓光荣的“黑色”纵横史 谁才是香港影坛的顶级大佬? 很多人第一反应会想到邵氏兄弟,会想到向华强,还会想到英皇的杨受成等人。 但是,有这么一位...

2024-06-20 15:21:18

​5位跳楼身亡的明星,任娇死因离奇,张国荣永远让人心痛!

​5位跳楼身亡的明星,任娇死因离奇,张国荣永远让人心痛!

5位跳楼身亡的明星,任娇死因离奇,张国荣永远让人心痛! 《活着》中说:“最初我们来到这个世界,是因为不得不来; 最终我们离开这个世界, 是因为不得不走。” 每个人走都有...

2024-06-20 15:19:02

​“隐形富豪”黄茂如和他的茂业资本往事!

​“隐形富豪”黄茂如和他的茂业资本往事!

“隐形富豪”黄茂如和他的茂业资本往事! 作者:大江 2019年大江第一次听到东门茂业百货时,深圳已经出现了不少更加年轻化的购物中心项目,诸如壹方城、万象天地等,而对于不少...

2024-06-20 15:16:46

​他是三国兖州陈留人士,祖父范丹是当世名士,他官至武威太守

​他是三国兖州陈留人士,祖父范丹是当世名士,他官至武威太守

他是三国兖州陈留人士,祖父范丹是当世名士,他官至武威太守 袖拂清风到故乡,高名亮节自煌煌。开篇依然提醒大家周末出行时要注意防护呀。汉末三国时期贤才俊彦辈出,他们在各...

2024-06-19 11:28:33

​双子座:一生一世一双人,半醉半醒半浮生

​双子座:一生一世一双人,半醉半醒半浮生

双子座:一生一世一双人,半醉半醒半浮生 时间无涯的荒野里,遇见自己的心上人,不早不晚,这是多么美好而又幸福的事。今生所愿,不过是一生一世一双人,半醉半醒半浮生。只要...

2024-06-19 11:26:18

​你可能买了假“苹果”!深圳一造假窝点被查处 啥机型都有……

你可能买了假“苹果”!深圳一造假窝点被查处 啥机型都有…… 作者:毛芸 李雄飞 王智婧等 据相关媒体消息透露 9月 新iPhone可能就要跟大家见面啦 但是! 还没见到新iPhone 深圳市市...

2024-06-19 11:24:07

​盲人歌手杨光近况,上《星光大道》一夜成名,目前还是单身

​盲人歌手杨光近况,上《星光大道》一夜成名,目前还是单身

盲人歌手杨光近况,上《星光大道》一夜成名,目前还是单身 杨光,原名杨晓光,出生在哈尔滨市,父母都是普通工人。他8个月时得了视网膜母细胞瘤,视力彻底丧失。杨光虽然相貌...

2024-06-19 11:21:46

​辽宁一座“袖珍”县级市,仅263平方千米,网友:可被铁岭合并

​辽宁一座“袖珍”县级市,仅263平方千米,网友:可被铁岭合并

辽宁一座“袖珍”县级市,仅263平方千米,网友:可被铁岭合并 提及辽宁,近几年省内城市的发展处在稳步上升的阶段,沈阳、大连两座“双子星”城市依靠着以往的丰厚底蕴和区位优...

2024-06-19 11:19:30