就在刚刚,Qwen3-VL-4B/8B 发布啦!

给大家整理了刚发布的 Qwen3-VL-4B/8B 的性能数据:
包括如下模型的性能对比:
Qwen3-VL 4B
Qwen3-VL 8B
Qwen3-VL 235B
Gemini2.5
GPT5-Nano
从数据上来看,Qwen3-VL-235B 无疑还是刷榜水平的,毕竟模型参数量在那摆着。
于是我又计算了Elo得分(基于所有基准测试的成对比较计算模型的相对实力,每个模型从1500分开始,K-factor 32),从数据上看 Qwen3-VL 8B Thinking 是要优于 Gemini2.5-Flash-Lite 的,而 Qwen3-VL 4B Thinking 则略逊于 Gemini2.5-Flash-Lite。
从具体测试来看,两个新模型的 文本识别能力都不错,比如 OCRBench、OCRBenchV2 (图片文本识别) 数据都是头部水平。而 General VQA (即图片内容推理)则要差一些,毕竟一个4B一个8B,也不能指望他们能推理出什么。
另外模型的空间理解水平意外的好,例题见图3.
所以简单的结论是,这两个模型用作图片识别,非常不错,尤其考虑到模型大小,甚至可以量化后用CPU跑了,而复杂识别的场景可以考虑先让模型识别出图片内容后塞给大模型进行推理或者干脆使用大的VLM进行推理。