首页 > 科技周边 > 人工智能

Muyan-TTS：零样本开源语音合成技术

时间：2025-05-19 11:09:17 193浏览收藏

Muyan-TTS是一款专为播客场景打造的开源文本转语音（TTS）模型，经过超过10万小时的播客音频数据预训练，能够实现零样本语音合成，无需大量目标说话人的语音数据即可生成高质量语音。该模型支持说话人适配，允许进行个性化语音定制，合成速度快，仅需0.33秒就能生成1秒的音频，适合实时应用。Muyan-TTS还能自然连贯地合成长篇内容，如播客和有声书，支持本地部署和API使用，方便集成到各种应用中。

Muyan-TTS 是一款专为播客场景打造的开源文本转语音（TTS）模型。该模型经过超过10万小时的播客音频数据预训练，能够实现零样本语音合成，无需大量目标说话人的语音数据即可生成高质量语音。Muyan-TTS 支持说话人适配，允许进行个性化语音定制。它的合成速度非常快，仅需0.33秒就能生成1秒的音频，非常适合实时应用。此外，Muyan-TTS 能够自然连贯地合成长篇内容，如播客和有声书，支持本地部署和API使用，方便集成到各种应用中。

Muyan-TTS的主要功能

零样本语音合成：利用少量参考语音和文本，无需大量目标说话人数据即可生成高质量语音。
说话人适配：通过少量目标说话人的语音数据进行微调，实现个性化语音定制。
快速生成：仅需0.33秒即可生成1秒音频，适用于实时和批量生成长语音内容。
长内容连贯合成：能够自然连贯地合成长篇内容，如播客和有声书。
离线部署友好：支持本地推理，确保数据隐私和低延迟。

Muyan-TTS的技术原理

框架设计：基于 GPT-SoVITS 框架，使用预训练的 Llama-3.2-3B 作为语言模型（LLM），结合 SoVITS 模型进行音频解码。LLM 负责将文本和音频 token 对齐，生成中间表示，而 SoVITS 模型则将中间表示解码为音频波形。
数据处理：数据集包含超过10万小时的播客音频数据，经过多阶段处理，包括数据收集、清洗和格式化，以确保高质量和多样性。使用自动语音识别（ASR）模型将音频转录为文本，将音频嵌入量化为离散 token，形成平行语料库。
预训练与微调：LLM 在平行语料库上进行预训练，学习文本和音频 token 之间的关系。通过监督微调（SFT），使用少量目标说话人的语音数据进一步优化模型，提高语音合成的自然度和相似度。
解码器优化：基于 VITS 基础模型作为解码器，减少幻觉问题，提高语音生成的稳定性和自然度。解码器在高质量音频数据上进行微调，进一步提升合成语音的保真度和表现力。
推理加速：通过高效的内存管理和并行推理技术提高推理速度，降低延迟。支持 API 模式，自动启用加速功能，适合实时应用。

Muyan-TTS的项目地址

GitHub仓库：http://github.com/MYZY-AI/Muyan-TTS
HuggingFace模型库：http://huggingface.co/MYZY-AI/Muyan-TTS
arXiv技术论文：http://arxiv.org/pdf/2504.19146

Muyan-TTS的应用场景

播客和有声书：生成长篇内容，自然连贯，节省录制时间。
视频配音：快速合成英文脚本配音，适配不同角色。
AI 角色和语音助手：生成特色角色语音，提供自然交互体验。
新闻播报：高效将文本转语音，适合智能设备播报。
教育和游戏：生成教学语音和游戏旁白，提升学习和娱乐体验。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。