阿里技术团队,最近开源了一个端到端文档解析模型: Logics-Parsing,可以将复杂文档直接转换为结构化的 HTML 格式。

不仅能准确识别复杂的科学公式和化学结构,还能自动过滤页眉页脚等无关内容,专注提取核心信息。
GitHub:http://github.com/alibaba/Logics-Parsing
同时支持多种文档输入,包括研究报告、学术论文、化学文档、手写笔记等。
在众多基准测试当中,评分超越了很多模型,有复杂文档 OCR 识别需求的同学值得试一下。