SmolVLM2 刚刚发布了，这个视觉模型非常小，提供了 256M, 500M, 2.2B 三个版本。

这个视频就是能装在iPhone的 500M 版本实现的。他能识别物体，并且可以给出一定的问题回答（打开冰箱识别牛奶在哪里），还能对OCR出来的文本做总结。是不是很神奇？
模型地址：http://huggingface.co/blog/smolvlm2

文章导航

搜索

近期文章

[PyQt] PySide2 教程 #1: Python GUI开发，简介和环境安装 – 麦当发表在 [PyQt]PySide2教程 #2:用 Python建立GUI吧!
macdown.net 发表在半月湾VPS#联通AS9929#测评
辣鸡发表在半月湾VPS#联通AS9929#测评