首页 > 科技周边 > 人工智能

Meta发布音频AI模型，仅需2秒片段模拟真人语音

来源：搜狐

时间：2023-07-28 08:29:18 458浏览收藏

编程并不是一个机械性的工作，而是需要有思考，有创新的工作，语法是固定的，但解决问题的思路则是依靠人的思维，这就需要我们坚持学习和更新自己的知识。今天golang学习网就整理分享《Meta发布音频AI模型，仅需2秒片段模拟真人语音》，文章讲解的知识点主要包括，如果你对科技周边方面的知识点感兴趣，就不要错过golang学习网，在这可以对大家的知识积累有所帮助，助力开发能力的提升。

近日，Meta发布了Voicebox AI模型，它在音频模拟方面有着显著优势。

据悉，Voicebox只需要一段2秒钟的音频样本，即可准确辨别出音频细节、音色，并基于文字结果转换为语音输出。

Meta发布音频AI模型，仅需2秒片段模拟真人语音

Voicebox 是一种生成式 AI 模型，可以帮助进行音频编辑、采样和造型。

这种技术在未来可以用来帮助创作者轻松编辑音轨，同时，它也能够为声带受损的人群提供协助，帮助TA们重新“发声”。这句话可以重写为：使视障人士通过听取书面信息的语音转换，以及将文本翻译为任何语言的语音转换技术，能够与朋友沟通。

同时，它还可以基于语音片段的前后内容，自动补齐中间缺失的内容。

根据Meta的介绍，Voicebox能够为AI助手，或是未来元宇宙的NPC提供自然且真实的语音效果，大大提升用户使用时的沉浸感。

Voicebox 的多功能性支持各种任务，包括：

上下文文本到语音合成：使用短至两秒的音频样本，Voicebox 可以匹配音频风格并将其用于文本到语音生成。

语音编辑和降噪：Voicebox 可以重新创建被噪音打断的部分语音或替换说错的词，而无需重新录制整个语音。例如，您可以识别被狗叫声打断的一段语音，将其裁剪，然后指示 Voicebox 重新生成该段——就像用于音频编辑的橡皮擦一样。

跨语言转换：当给定某人演讲样本和一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本时，Voicebox 可以生成任何这些语言的文本阅读，即使样本语音和文本是不同的语言。在未来，人们即使不会说某些语言，也可以使用这个功能以更自然、更真实的方式进行交流。

使用流匹配方法，Voicebox已被证明可以改进扩散模型。Voicebox 在可懂度（5.9% 对 1.9% 的单词错误率）和音频相似性（0.580 对 0.681）方面优于当前最先进的英语模型 VALL-E，同时快 20 倍。对于跨语言风格迁移，Voicebox 优于 YourTTS，将平均单词错误率从 10.9% 降低到 5.2%，并将音频相似度从 0.335 提高到 0.481。

Meta发布音频AI模型，仅需2秒片段模拟真人语音