一个具有实时对话能力的多模态大语言模型:Mini-Omni。

具有特点:
– 实时语音对话能力,无需额外的 ASR 和 TTS 模型。
– 实现 “边听边思考”,生成文本时同时输出语音。
– 支持流媒体音频输出,实时输出语音。
– 支持批量处理。
GitHub:https://github.com/gpt-omni/mini-omni
模型下载:https://huggingface.co/gpt-omni/mini-omni