1)2B 参数,200万+ 小时多语言数据训练,MiniCPM-4 做 backbone。Diffusion + Autoregressive 混合架构,不走 token 离散化,直接生成连续语音表征
2)48kHz 采样率,16kHz 参考音频输入直接输出 48kHz,内置超分辨率不用外挂。大多数开源 TTS 还在 24kHz 晃悠
3)30 语言 + 9 种中文方言(四川话、粤语、东北话啥的都有)。文字描述控制音色,从耳语到电影配音,不需要参考音频
4)4090 上 RTF ~0.3,Nano-VLLM 加速后 ~0.13。Apache-2.0 商用许可
开源了模型和代码,HuggingFace 上有在线 demo 可以直接试: