论文排版与整理完全工作流 (Iterative OCR & Typesetting Pipeline) 0. 目录规范 (Directory Convention) 所有中间文件和最终产物必须严格遵守以下目录结构, 禁止在项目根目录下放置任何生成文件 : --- 0.5 规范 (Task Configuration) 在每次新任务启动时创建, 整个任务期间不修改 。续作时直接读取。所有管道共用同一 schema。 | 字段 | 说明 | |------|------| | | 用户指定的源文件名(PDF / DOC / DOCX / MD) | | | 文件类型: / / / | | | 管道类型: (OCR)/ (重排版)/ (MD 直转) | | | 排版格式(IEEE / APA / 用户自定义 / ...) | | | 用户提供的 模板路径,无则 | | | 总处理单元数(Pipeline A = 页数,Pipeline B/C = 章节数) | | | 进度单位: (Pipeline A)/ (Pipeline B/C) | | | 任务创建时间 | [!NOTE] Pipeline A 固定使用 , , 。 --- 0.6 规范 (Runtime Checkpoint) 在每完成一个单元(页或章节)的提取 + DOCX 追加后更新。 这是断点恢复的唯一依据。 所有管道…