这段时间做Enconvo的AI搜索和基于整站的知识库,用到了网页内容抓取服务,分享出来,供大家参考 :

1. jina: 优点:开源、免费 缺点:网络稳定性不是很好 (https://jina.ai/reader)
2. Trafilatura: 优点:开源、提供付费API (免费额度:100/天, 付费:$30.00/mo) (https://github.com/adbar/trafilatura)
3. gpt-api: 优点:开源、免费 缺点:速度慢 (https://github.com/JimLiu/gpt-api)
4. firecrawl: 优点:开源、提供付费API (小贵) (https://firecrawl.dev)
Enconvo最终选择的是Trafilatura,从抓取效率&费用&抓取的内容质量来看,Trafilatura是最好的选择。
Tip: Trafilatura是本地跑的,没用付费API。