@VikParuchuri
又一力作, 用于检测和提取表格。
使用 surya 在 PDF 中找到所有表格, 识别行和列, 并将单元格格式化为 markdown、csv 或 html, 它可以处理 PDF、图像、Word 文档和 PowerPoint 文件。
# 主要功能:
– 表格检测和提取
– 支持多种输出格式 (markdown, html, csv)
– 可以保存额外的行列信息为 JSON 文件
– 可以保存显示检测到的行和列的调试图像
# 性能:
– 在基准测试中, 与 GPT-4 表格预测相比, 达到了 0.847 的对齐分数
– 在 A10G GPU 上, 平均每个表格处理时间为 0.029 秒
# 开源地址
https://github.com/VikParuchuri/tabled