MinerU PDF 解析 本地解析 PDF 文档为结构化 Markdown 或 JSON,保留标题层级、表格、列表等结构。CPU 运行,数据不出本机。 使用场景 - 用户说「帮我把这个 PDF 转成 Markdown」「提取这个 PDF 的内容」 - 需要从 PDF 中提取结构化文本用于后续分析 - 扫描件 PDF 需要 OCR 提取文字(配合 OCR 类 Skill) - 批量处理多个 PDF 文件 与其他 PDF 处理 Skill 的区别 | 工具 | 擅长 | 局限 | |---|---|---| | nano-pdf | 简单文本提取、PDF 元数据 | 不保留结构 | | pdf-toolkit | 合并/拆分/加密/水印 | 不做内容解析 | | mineru-pdf | 结构化解析(标题/表格/列表) | 安装包较大 | 优先使用 mineru-pdf 做内容提取,pdf-toolkit 做文件操作。 执行方式 安装 基本用法 参数说明: - :输入 PDF 路径 - :输出目录 - :模式选择 - :自动判断(推荐) - :纯文本 PDF - :扫描件 PDF Python API 输出内容 解析后在输出目录生成: - :Markdown 格式的结构化内容 - :提取的图片 - :结构化元数据 输出规范 - 保留原文档的标题层级(H1-H6) - 表格转换为 M…