刚看到 Jina AI 发了个新东西,叫 jina-reranker-m0,感觉超有料,必须跟你唠唠!

这玩意儿是个 reranker,你知道吧?就是帮你把一堆搜索结果重新排个序,让最相关的排前面。但牛逼之处在于,它不光能处理文本,还能看懂图片、图表、表格这些视觉元素!而且支持 29 多种语言,简直是跨语言、跨模态的全能选手!
你想想,以前搜东西,如果文档里关键信息是在一张图或者表格里,普通 reranker 就抓瞎了。但 jina-reranker-m0 能直接理解这些视觉内容,然后告诉你这份带图的文档是不是和你搜的东西最相关。比如你搜 “small language model data extraction”,它能把包含相关论文截图、图表的文档排在前面,甚至比纯文本描述的文档得分还高!
跟它家以前的纯文本 reranker (v2) 比:
– 核心升级: 能处理图片了!这是质变。
– 文本能力也强了: 就算是纯文本,它在处理多语言、长文档、甚至是代码搜索方面,性能也比 v2 有提升。
– 架构大换血: 这次没用老套的 cross-encoder,而是基于 Qwen2-VL 搞了个 decoder-only 架构。参数量也大了不少 (24亿 vs 2.78亿)。
这个新架构有啥好处呢?
– 真正多模态: 能无缝处理文本+图片的混合输入,解决了以前文本向量和图像向量”玩不到一起去”的”模态鸿沟”问题。现在你可以放心地把纯文本文档和图片混在一起让它排。
– 上下文更长: 支持的输入 token 更多了(理论 32k,训练 10k)。
– 潜力巨大: 文章说这种 decoder 架构未来可能更容易实现更高级的功能,比如列表式重排(一次性看整个列表来排序,更智能)和可解释性(更容易知道模型为啥这么排)。
怎么用?
– API 调用: 最省事,注册就有免费额度,直接扔文本查询和文档(可以是文本、图片 URL 或 base64)就行。(不过 API 暂时不支持用图片做查询)
– Hugging Face: 开源大法好!可以直接下载模型本地跑,更灵活,支持图片查询、图文混合文档。他们还贴心地准备了 Colab 教程。
– 云平台市场: AWS、Azure、GCP 上架了,可以直接订阅部署。
感觉 RAG 这块儿,有个能理解图文的 reranker 会是个巨大的提升!以后喂给大模型的上下文质量能更高了。