淘宝桌面版MCP评测框架 概述 本skill提供一套系统化的评测框架,用于测试淘宝桌面版MCP工具的各项功能,并生成专业的技术评测报告。 ⚠️ 执行原则(必须遵守) 原子性执行 评测任务一旦开始,必须完整执行完成,不可中断。 | 原则 | 说明 | |------|------| | 不可中断 | 开始评测后,必须完成所有5个任务 + 生成报告 | | 完整流程 | 初始化 → 任务1-5 → 截图收集 → 报告生成 → 清理 | | 状态跟踪 | 每个任务完成后记录 checkpoint,便于恢复 | | 用户提醒 | 如用户试图中断,提醒"评测任务未完成,是否继续?" | 任务状态管理 评测开始时创建状态文件 : 每个任务完成后立即更新状态: 中断恢复机制 如果会话中断,下次用户询问评测时: 1. 检查 status.json 是否存在 2. 如果存在未完成任务 : - 提示用户:"发现未完成的评测任务(任务X/Y),是否继续?" - 用户确认后,从 继续执行 3. 如果已完成但未生成报告 : - 直接生成报告 执行流程图 禁止操作 | 禁止行为 | 原因 | |----------|------| | ❌ 任务中途停止 | 导致评测数据不完整 | | ❌ 跳过任务 | 影响总分计算 | | ❌ 跳过截图 | 报告缺失关键证据 | | ❌ 不生成报告 | 用户无法查看结果 |…