首页 > 科技周边 > 业界新闻

面壁智能发布VoxCPM语音模型新突破

来源：https://news.aibase.com/zh/news/21419

时间：2025-09-23 21:37:00 461浏览收藏

对于一个科技周边开发者来说，牢固扎实的基础是十分重要的，golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《面壁智能发布 VoxCPM：高拟真语音模型新突破》，主要介绍了，希望对大家的知识积累有所帮助，快点收藏起来吧，否则需要时就找不到了！

在语音合成技术快速发展的背景下，面壁智能与清华大学深圳国际研究生院人机语音交互实验室（THUHCSI）近日联合发布了一款新型语音生成模型 ——VoxCPM。这款模型以0.5B 的参数尺寸，致力于为用户提供高质量、自然的语音合成体验。

VoxCPM 的推出标志着高拟真语音生成领域的又一里程碑。该模型在自然度、音色相似度及韵律表现力等关键指标上，均达到了行业领先水平。通过零样本声音克隆技术，VoxCPM 能够以极少的数据，生成用户独特的声音，从而实现个性化的语音合成。这一技术进步为语音生成的应用场景带来了更多可能性，尤其是在个性化语音助手、游戏角色配音等领域。

面壁智能推出 VoxCPM:新一代高拟真语音生成模型

据悉，VoxCPM 已在 GitHub、Hugging Face 等平台开源，并为开发者提供了线上体验平台，便于用户探索和使用其强大功能。模型在权威语音合成评测榜单 Seed-TTS-EVAL 中表现出色，尤其是在词错误率和音色相似度方面取得了极低的错误率，展示了其卓越的推理效率。在一张 NVIDIA RTX4090显卡上，VoxCPM 的实时因子（RTF）达到约0.17，满足了高质量实时交互的需求。

VoxCPM 不仅在技术性能上有所突破，其在音质和情感表达方面也表现出色。模型能够根据文本内容智能选择合适的声音、腔调和韵律，模拟出与真人无异的听感。无论是气象播报、英雄演讲，还是方言主播，VoxCPM 都能精准再现，提供沉浸式的听觉体验。

此外，VoxCPM 的技术架构基于最新的扩散自回归语音生成模型，融合了层次化语言建模和局部扩散生成的连续表征，显著提升了生成语音的表现力与自然度。该模型的核心架构包括多个模块，协同工作，实现了高效的 “语义 - 声学” 生成过程。

? Github:

https://github.com/OpenBMB/VoxCPM/

? Hugging Face:

https://huggingface.co/openbmb/VoxCPM-0.5B

? ModelScope:

https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

? PlayGround体验:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

? 音频样例页面地址:

https://openbmb.github.io/VoxCPM-demopage

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《面壁智能发布VoxCPM语音模型新突破》文章吧，也可关注golang学习网公众号了解相关技术文章。

声明：本文转载于：https://news.aibase.com/zh/news/21419 如有侵犯，请联系study_golang@163.com删除