SmolVLM2 刚刚发布了,这个视觉模型非常小,提供了 256M, 500M, 2.2B 三个版本。

这个视频就是能装在iPhone的 500M 版本实现的。他能识别物体,并且可以给出一定的问题回答(打开冰箱识别牛奶在哪里),还能对OCR出来的文本做总结。是不是很神奇?
模型地址:http://huggingface.co/blog/smolvlm2