一、Qwen引发的震动
2026 年 2 月,
@sudoingX
在 X 上分享了一段测试数据:Qwen3.5-35B-A3B在单卡 RTX 3090(24GB VRAM)上跑出了 112-114 tok/s的生成速度,原生支持 262K 上下文长度,全程性能平直无衰减。
这听起来可能只是又一个模型评测?不。这是 Local AI(本地人工智能)从 demo 走向生产的分水岭时刻。
量化精度:4-bit Q6_K(约 19.7GB VRAM),零 offload、全 GPU 运行。
一、Qwen引发的震动
2026 年 2 月,
@sudoingX
在 X 上分享了一段测试数据:Qwen3.5-35B-A3B在单卡 RTX 3090(24GB VRAM)上跑出了 112-114 tok/s的生成速度,原生支持 262K 上下文长度,全程性能平直无衰减。
这听起来可能只是又一个模型评测?不。这是 Local AI(本地人工智能)从 demo 走向生产的分水岭时刻。
量化精度:4-bit Q6_K(约 19.7GB VRAM),零 offload、全 GPU 运行。