CAW Eval 端到端评测 CAW Agent 质量:本地 Mac 作为调度器,dispatch 到远端服务器跑 headless claude (标准 / recipe 评测)或 openclaw agent(弱模型兼容性评测),评分和报告都在本地完成。 Step 0: 环境识别(必做) - :继续。确保 已完成、IAP 通道可用。 - :停止。本 SKILL 是 本地调度器 ,不能在 openclaw 服务器直接跑。 请回到本地 Mac 终端后重新触发。 流程路由 评测三个正交维度: | 维度 | flag | 取值 | |------|------|------| | 评测模式 | | (默认,全 E2E 含 task completion)/ (仅评 pact 构造)/ (onboarding 评估) | | Recipe 来源 | | (默认/调真实 backend)/ (注入 dataset 的 recipe)/ (注入空,对照组) | | Agent 类型 | 脚本分文件 | (Claude Code headless)/ (弱模型如 doubao/minimax/gpt) | 老 cli 仍兼容: 、 ; 、 、 。 速查表(用户意图 → 命令模板) | 用户说 | eval-mode | recipe-source | 脚本 | 服务器池 | run name…