SmolVLM 是一款参数规模约 20 亿(2B)的视觉语言模型(VLM), 非常适合边缘设备或研究者进行低成本实验

SmolVLM 是一款参数规模约 20 亿(2B)的视觉语言模型(VLM),在内存占用方面达到了业界领先(SOTA)的表现。该模型最大的特点是小巧、快速且内存高效,能够在有限的硬件资源上流畅运行,非常适合边缘设备或研究者进行低成本实验。与许多封闭的商用大模型不同,SmolVLM 完全开源,所有模型检查点、视觉语言数据集、训练配方和工具均在 Apache 2.0 许可下发布,方便开发者自由使用和二次开发。其设计理念是通过紧凑的架构和优化的训练策略,在保持良好性能的同时显著降低资源需求。SmolVLM 的开放性不仅有助于学术研究,也为创业团队和个人开发者提供了构建视觉语言应用的基础。它在多模态任务中展现了强劲的效果,是当前小参数量 VLM 的代表性成果之一。