轻量级,超高速的文本切块库,专门为 RAG 应用设计

chonkie – 免费免费免费 – 轻量级文本切块 – 小河马有点可爱
亮点
• 多种切块方法:支持 Token、单词、句子、语义、递归、延迟等多种切块策略,满足不同文本处理需求。
• 轻量级设计:基础安装仅约 9.7MB,远小于其他同类库(如 LangChain、LlamaIndex 等)。
• 高性能:在基准测试中,Token 切块速度比最慢的替代方案快 33 倍,句子切块速度接近快 2 倍,语义切块速度快 2.5 倍。
• 易于使用:安装、导入、切块,三步即可完成文本处理。
• 广泛支持:兼容多种 tokenizer 和嵌入模型,易于集成到现有系统中。
• 云服务支持:提供 Chonkie Cloud,支持通过 API 进行远程切块处理,适合不想本地部署的用户。
官网
https://docs.chonkie.ai/getting-started/introduction
GitHub
https://github.com/chonkie-inc/chonkie