登录
首页 >  科技周边 >  人工智能

Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入

来源:搜狐

时间:2023-12-04 20:23:44 191浏览 收藏

欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!

Meta最近推出了一款名为Audiobox的AI声音生成模型。这个模型可以同时接收语音和文字输入,用户可以通过语音和文字描述来生成所需的音频

据悉,这款模型基于 Meta 今年 6 月推出的 Voicebox AI 模型,据称 Audiobox 能生成各种环境音、自然对话语音,并整合了音频生成和编辑能力,以便于用户自由生成自己所需的音频。

Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入

Meta 介绍称,生成高品质音频需要有大量音频库及深厚的领域知识,但大众难以获得这些资源,而该公司推出这个模型旨在降低声音生成门槛,让任何人都更容易制作视频、游戏等应用场景的音效。

IT之家发现,这款 Audiobox 模型基于 Voicebox 的“引导声音”机制,以便于生成目标音频,并配合“流量比对(flow-matching)”扩散模型生成方法,以实现“声音填充(audio infilling)”功能,从而生成多层次的音频。

Meta 测试生成带有雷暴声的下雨音频,并输入一系列提示句进行演示,例如“流水声伴随鸟鸣”、“以高音调快节奏说话的年轻女性”等;同时测试了同时输入人声及文字提示,以生成带有情绪(“哀痛而缓慢”)并拥有背景音(身处教堂)的语音。

Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入

Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入

Meta 声称,Audiobox 在音质及“生成内容的准确度” 顺利击败了 AudioLDM2、VoiceLDM 及 TANGO,超越了现有最佳的音频生成模型。

Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入

目前 Audiobox 已经开放向特定研究人员及学术界试用,以供测试模型品质及安全性,Meta 声称,他们计划“再过几周将社会全面公开该模型”。

到这里,我们也就讲完了《Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于的知识点!

声明:本文转载于:搜狐 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>