R in RAG: 搜索引擎推荐

RAG 实践中,信息来源 (Retrievers) 的质量对最终结果影响很显著,也是目前 RAG 落地中变数最大的部分。这部分或来自用户的知识库,或来自公开外部信息补充。
今天咱们一起看看都有哪些用来获取公开信息的方式 👇
– Tavily AI
@tavilyai
为 LLM 和 RAG 优化的 AI 搜索引擎,更快速获取有效结果。
https://github.com/tavily-ai
– Bing
@bing
微软 Bing 搜索引擎,也是 ChatGPT 联网搜索方案。
https://microsoft.com/en-us/bing/apis/bing-web-search-api
– Google
@googlesearchc
Google 搜索引擎,它的搜索全球份额和索引数量还是非常强大的 Top1 存在。
https://developers.google.com/custom-search/v1/overview?hl=zh-cn
– SerperAPI
@serp_api
通过统一 API 搜索 Google 和其他引擎,返回统一结果,对开发者接入友好。
https://serpapi.com
– Serper
@serperapi
通过统一 API 进行最快最低成本的搜索,注册开发者赠送 credit 额度。
https://serper.dev
– Searx
@Searx_engine
通过免费 API 接入超过 70 个搜索服务,获取搜索结果。
https://searx.github.io/searx/
– DuckDuckGo
@DuckDuckGo
很知名的搜索引擎,可以针对文字、图像、音视频等进行搜索。
https://pypi.org/project/duckduckgo-search/
– Arxiv
@arxiv
论文类信息搜索,Arxiv 是非常知名的论文网站,学术类信息搜索来源。
https://info.arxiv.org/help/api/index.html
– Exa
@ExaAILabs
初创搜索引擎团队,针对 RAG 场景的搜索来源和信息整合方式很值得参考。
https://docs.exa.ai/reference/getting-started