VoxCPM |基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆一个无离散音频分词器（Tokenizer-Free）的语音合成系统，通过端到端的扩散自回归架构直接生成连续语音表征，绕过对音频的离散编码步骤，实现高度自然且富有表现力的语音合成

13:10 · 2026年6月4日 · 周四

VoxCPM |基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆

一个无离散音频分词器（Tokenizer-Free）的语音合成系统，通过端到端的扩散自回归架构直接生成连续语音表征，绕过对音频的离散编码步骤，实现高度自然且富有表现力的语音合成。

🌍 30种语言语音合成 — 直接输入原始文本即可合成（支持语言详见下文），无需额外语言标签
🎨 音色设计 — 用自然语言描述（性别、年龄、音色、情绪、语速……）凭空创建全新音色，无需参考音频
🎛 可控声音克隆 — 从参考音频片段克隆任意声音，可叠加风格指令控制情绪、语速和表现力，同时保持原始音色
🎙 极致克隆 — 提供参考音频及其文本内容，模型接着参考音频进行无缝续写，从而精准还原声音细节特征（与 VoxCPM1.5 一致）
🔊 48kHz 高质量音频 — 输入 16kHz 参考音频，通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频，内置超分能力
🧠 语境感知合成 — 根据文本内容自动推断合适的韵律和表现力
⚡️ 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3，通过 Nano-vLLM 或 vLLM-Omni（官方 vLLM 全模态服务，原生支持 VoxCPM2，提供 PagedAttention 与 OpenAI 兼容 API）加速后可达 ~0.13
📜 完全开源，商用就绪 — 权重和代码基于 Apache-2.0 协议发布，免费商用

项目地址

#开源 #声音克隆 #AI语音 #本地部署 #VoxCPM #语音合成