这个视频就是能装在iPhone的 500M 版本实现的。他能识别物体,并且可以给出一定的问题回答(打开冰箱识别牛奶在哪里),还能对OCR出来的文本做总结。是不是很神奇?
模型地址:http://huggingface.co/blog/smolvlm2
这个视频就是能装在iPhone的 500M 版本实现的。他能识别物体,并且可以给出一定的问题回答(打开冰箱识别牛奶在哪里),还能对OCR出来的文本做总结。是不是很神奇?
模型地址:http://huggingface.co/blog/smolvlm2