OpenDataLoader PDF PDF 解析器 · 基准测试第一 · RAG/LLM 数据提取利器 功能定位 - 核心能力 :从任意 PDF 提取结构化数据(Markdown、JSON、HTML),带边界框坐标 - 技术亮点 :XY-Cut++ 读取顺序、Bounding Box 定位、AI 混合模式处理复杂页面 - 基准成绩 :综合 0.90(第一),表格 0.93,读取顺序 0.94(对标 Docling、Marker、MinerU 等) - 许可证 :Apache 2.0(核心功能免费) 适用场景 - 批量提取 PDF 为 Markdown / JSON / HTML 用于 RAG 或 LLM 训练 - 需要边界框坐标做源码溯源(哪个段落来自 PDF 第几页哪个位置) - 复杂表格、扫描件、含公式的学术 PDF - PDF 无障碍化(Tagged PDF 生成,Q2 2026 免费开放) 安装 前提 - Java 11+ - Python 3.10+ 混合 AI 模式(复杂表格 / OCR / 公式): 快速使用 CLI(适合单文件或批量) Python API 模式选择指南 | 文档类型 | 模式 | 命令 | |---------|------|------| | 标准数字 PDF | 快速(默认) | | | 复杂/无线框表格 | 混合 | | | 扫描件 |…