VoxCPM 搭载 WebUI 可视化界面,整合完整 Python 运行环境,新手无需手动配置复杂依赖。下载压缩包解压后,双击运行 “启动.bat” 文件,等待终端程序加载完成,浏览器将自动弹出 WebUI 操作界面,即刻开始使用全部语音功能。
软件功能:
包含零样本声音克隆功能(英伟达显存 8G 以上可用,推荐 12GB 以上)。
包含文字音色设计功能(英伟达显存 8G 以上可用,推荐 12GB 以上)。
支持情绪控制、长文本语音合成、跨语言克隆、方言合成、LoRA 轻量化微调等实用能力。
支持语种:
全球 30 种主流语言:中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语、阿拉伯语、缅甸语、丹麦语、荷兰语、芬兰语、希腊语、希伯来语、印地语、印尼语、高棉语、老挝语、马来语、挪威语、波兰语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语。
中文 9 种方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。
模型参数: VoxCPM2:2B
行业评分:
VoxCPM 系列采用免分词端到端 TTS 架构,摒弃传统分词、音素转换流程,中英混读、多音字、语句断句自然流畅。RTX 4090 显卡实测 RTF 低至 0.13,生成速度远超音频播放速度,支持流式实时输出。说话人音色相似度可达 0.93,轻微噪声参考音频也可精准克隆,综合表现位居开源 TTS 模型第一梯队,对比多款主流语音模型具备明显优势。
说明:
本软件为 OpenBMB(面壁智能)联合清华大学开源项目,完全免费下载、免费商用、免费使用,支持本地离线运行,全程无联网扣费、无隐性收费。模型开源协议宽松,个人、工作室、企业均可合规商用。
软件图片:
软件信息: