PPT 演示文档 → 拟人化逐字稿 将演示文档(PPT/PPTX/PDF)通过五阶段流水线转换为口语化逐字稿,同时输出 Markdown、JSON 和带备注的 PPTX 三种产物,适用于语音合成、演讲练习和内容二次加工。 第零步:依赖检查 在做任何事之前,先运行依赖检查脚本。这个脚本会验证所有必需工具是否已安装——缺少任何一个都会导致后续步骤失败,所以必须在开头就拦住。 如果脚本报告缺失依赖,将错误信息展示给用户并停止。不要尝试自动安装——让用户决定如何处理。 关于 Gemini CLI :manuscript-generator 步骤优先使用 命令行工具生成高质量口语化内容。如果 Gemini CLI 未安装,第三步会自动检测当前模型是否具备图片输入能力: - 具备图片能力 → 用 subagent 直接读取幻灯片图片 + 文字生成逐字稿(质量接近 Gemini 方案) - 不具备图片能力 → 发出警告并中止执行,提示用户安装 Gemini CLI 或切换到支持视觉的模型 工作目录 让用户指定一个输出目录 (默认为当前目录下的 ),按以下结构组织: 将用户的演示文档复制到 。 流水线总览 每一步完成后都有验证环节。验证通过才进入下一步——这不是走形式,而是因为下游步骤严重依赖上游输出的正确性(比如缺失的 PAGE 标记会导致合并输出混乱)。 第一步:素材提取(material-…