开源的实现:
1、GPT-SoVITS: https://github.com/RVC-Boss/GPT-SoVITS 对中文、英文、日文支持都不错,需要 10 分钟左右的干素材,瞬时 clone 的能力还没开放。
2、OpenVoice:https://github.com/myshell-ai/OpenVoice 对中文支持还可以,主打瞬时 clone,发展势头很好,一个月前测试的时候中文声音 clone 还有一股英语味道。
商业的产品:
1、ElevenLab:https://elevenlabs.io 商业实现中支持语言种类最多的,支持 瞬时 clone,综合效果最好的一个产品,我是 22$每个月的订阅用户,已经在内部的配音产品上用上。
2、Reecho:https://reecho.ai 中国团队,支持长音频声音 clone 和瞬时声音 clone,据说是和火山引擎的声音 clone 技术是同源的。
3、自得语音:https://zideai.com 中国团队,支持瞬时声音 clone 和声音定制,还没测试。