可以处理文本、图像、音频和视频输出,支持输出文本和音频的流式输出。
提高音频和视频理解的同时,单模态的文本和图像没有退化。
基于 MoE 的 Thinker–Talker 设计,采用 AuT 预训练以获得强泛化表示,外加多码本设计以降低延迟。
还开源了一个对应的 Captioner 音频描述模型。
低延迟流式传输,具备自然的轮流对话和即时的文本或语音响应。
https://github.com/QwenLM/Qwen3-Omni
可以处理文本、图像、音频和视频输出,支持输出文本和音频的流式输出。
提高音频和视频理解的同时,单模态的文本和图像没有退化。
基于 MoE 的 Thinker–Talker 设计,采用 AuT 预训练以获得强泛化表示,外加多码本设计以降低延迟。
还开源了一个对应的 Captioner 音频描述模型。
低延迟流式传输,具备自然的轮流对话和即时的文本或语音响应。
https://github.com/QwenLM/Qwen3-Omni