mineru-pdf — Skillopedia

MinerU PDF 解析本地解析 PDF 文档为结构化 Markdown 或 JSON，保留标题层级、表格、列表等结构。CPU 运行，数据不出本机。使用场景 - 用户说「帮我把这个 PDF 转成 Markdown」「提取这个 PDF 的内容」 - 需要从 PDF 中提取结构化文本用于后续分析 - 扫描件 PDF 需要 OCR 提取文字（配合 OCR 类 Skill） - 批量处理多个 PDF 文件与其他 PDF 处理 Skill 的区别 | 工具 | 擅长 | 局限 | |---|---|---| | nano-pdf | 简单文本提取、PDF 元数据 | 不保留结构 | | pdf-toolkit | 合并/拆分/加密/水印 | 不做内容解析 | | mineru-pdf | 结构化解析（标题/表格/列表） | 安装包较大 | 优先使用 mineru-pdf 做内容提取，pdf-toolkit 做文件操作。执行方式安装基本用法参数说明： - ：输入 PDF 路径 - ：输出目录 - ：模式选择 - ：自动判断（推荐） - ：纯文本 PDF - ：扫描件 PDF Python API 输出内容解析后在输出目录生成： - ：Markdown 格式的结构化内容 - ：提取的图片 - ：结构化元数据输出规范 - 保留原文档的标题层级（H1-H6） - 表格转换为 M…