GateGuard — 事实驱动的前置操作门控 一个 PreToolUse 钩子,强制 Claude 在编辑前进行调查。不同于自我评估("你确定吗?"),它要求具体的事实。调查行为本身创造了自我评估永远无法带来的认知。 何时激活 处理任何文件编辑会影响多个模块的代码库时 项目包含具有特定模式或日期格式的数据文件时 团队要求 AI 生成的代码必须匹配现有模式时 任何 Claude 倾向于猜测而非调查的工作流程中 核心概念 LLM 的自我评估不起作用。问"你是否违反了任何策略?"答案永远是"没有"。这已通过实验验证。 但问"列出所有导入此模块的文件"会迫使 LLM 运行 Grep 和 Read。调查本身创造了改变输出的上下文。 三阶段门控: 没有竞争对手能同时做到这三步。大多数止步于拒绝。 证据 两个独立的 A/B 测试,相同的代理,相同的任务: | 任务 | 有门控 | 无门控 | 差距 | | --- | --- | --- | --- | | 分析模块 | 8.0/10 | 6.5/10 | +1.5 | | Webhook 验证器 | 10.0/10 | 7.0/10 | +3.0 | | 平均 | 9.0 | 6.75 | +2.25 | 两个代理生成的代码都能运行并通过测试。区别在于设计深度。 门控类型 编辑/多编辑门控(每个文件的首次编辑) 多编辑的处理方式相同——批次…