RTX3090 24GVRam 运行 Qwen3.5-35B-A3B：本地 AI 从 demo 走向生产的分水岭

一、Qwen引发的震动
2026 年 2 月，
@sudoingX
在 X 上分享了一段测试数据：Qwen3.5-35B-A3B在单卡 RTX 3090（24GB VRAM）上跑出了 112-114 tok/s的生成速度，原生支持 262K 上下文长度，全程性能平直无衰减。
这听起来可能只是又一个模型评测？不。这是 Local AI（本地人工智能）从 demo 走向生产的分水岭时刻。
量化精度：4-bit Q6_K（约 19.7GB VRAM），零 offload、全 GPU 运行。