阿里昨晚又疯狂输出了，开源了首个可以本地运行的端到端的全模态理解 LLM Qwen3-Omni

可以处理文本、图像、音频和视频输出，支持输出文本和音频的流式输出。
提高音频和视频理解的同时，单模态的文本和图像没有退化。
基于 MoE 的 Thinker–Talker 设计，采用 AuT 预训练以获得强泛化表示，外加多码本设计以降低延迟。
还开源了一个对应的 Captioner 音频描述模型。
低延迟流式传输，具备自然的轮流对话和即时的文本或语音响应。
https://github.com/QwenLM/Qwen3-Omni