OpenBMB 开放了 VoxCPM2，从 V1 零样本克隆到 V1.5 长文本，迭代速度不含糊，值得看的点：

1）2B 参数，200万+ 小时多语言数据训练，MiniCPM-4 做 backbone。Diffusion + Autoregressive 混合架构，不走 token 离散化，直接生成连续语音表征
2）48kHz 采样率，16kHz 参考音频输入直接输出 48kHz，内置超分辨率不用外挂。大多数开源 TTS 还在 24kHz 晃悠
3）30 语言 + 9 种中文方言（四川话、粤语、东北话啥的都有）。文字描述控制音色，从耳语到电影配音，不需要参考音频
4）4090 上 RTF ~0.3，Nano-VLLM 加速后 ~0.13。Apache-2.0 商用许可
开源了模型和代码，HuggingFace 上有在线 demo 可以直接试：