首页 > AI 音频制作 > FishSpeech

FishSpeech

AI 音频制作

235次浏览

2025-03-30

访问网站

工具简介

FishSpeech由FishAudio团队开发，是一个开源的多语言文本到语音（TTS）合成项目，支持零样本TTS、多语言和跨语言合成，具备音色和情感控制功能。适用于语音助手、语言学习和内容创作等领域。

详细介绍

FishSpeech：开源多语言文本到语音合成新标杆

FishSpeech，由FishAudio团队倾力打造，是一个开源且先进的多语言文本到语音（TTS）合成项目。通过融合大语言模型（LLM）技术，FishSpeech为用户带来高质量、多语言的语音合成体验。无论您是开发者还是最终用户，FishSpeech都将成为您在语音助手、语言学习工具和内容创作领域的得力助手。

核心功能

零样本与少样本 TTS
只需提供10到30秒的语音样本，FishSpeech即可生成高质量的TTS输出，满足您个性化的语音需求。
多语言与跨语言支持
支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语等多种语言，无缝切换，适用于全球用户。
无需音素依赖
创新的无音素依赖模型，让FishSpeech能够处理任何语言脚本的文本，突破语言障碍。
高精度与快速合成
在5分钟的英文文本中，字符错误率（CER）和词错误率（WER）仅为2%，并在Nvidia RTX 4060和RTX 4090上实现了1:5和1:15的实时率，满足实时应用需求。
WebUI 和 GUI 推理
提供基于Gradio的WebUI推理界面，兼容Chrome、Firefox、Edge等主流浏览器；同时支持PyQt6图形界面，适用于Linux、Windows和macOS系统，让您轻松上手。
易于部署
在Linux、Windows和macOS上快速搭建推理服务器，减少速度损失，提升效率。
端到端集成
自动集成自动语音识别（ASR）和TTS部分，无需额外插件，实现真正的端到端语音合成。
音色与情感控制
通过参考音频精准控制语音音色，并能够生成带有强烈情感的语音输出，提升语音的自然度和表现力。