opendataloader-pdf — Skillopedia

OpenDataLoader PDF PDF 解析器 · 基准测试第一 · RAG/LLM 数据提取利器功能定位 - 核心能力：从任意 PDF 提取结构化数据（Markdown、JSON、HTML），带边界框坐标 - 技术亮点：XY-Cut++ 读取顺序、Bounding Box 定位、AI 混合模式处理复杂页面 - 基准成绩：综合 0.90（第一），表格 0.93，读取顺序 0.94（对标 Docling、Marker、MinerU 等） - 许可证：Apache 2.0（核心功能免费）适用场景 - 批量提取 PDF 为 Markdown / JSON / HTML 用于 RAG 或 LLM 训练 - 需要边界框坐标做源码溯源（哪个段落来自 PDF 第几页哪个位置） - 复杂表格、扫描件、含公式的学术 PDF - PDF 无障碍化（Tagged PDF 生成，Q2 2026 免费开放）安装前提 - Java 11+ - Python 3.10+ 混合 AI 模式（复杂表格 / OCR / 公式）：快速使用 CLI（适合单文件或批量） Python API 模式选择指南 | 文档类型 | 模式 | 命令 | |---------|------|------| | 标准数字 PDF | 快速（默认） | | | 复杂/无线框表格 | 混合 | | | 扫描件 |…