content-extract — 上层内容解析入口(MCP 语义对齐,但不跑 MCP Server) - Author: Daniel Li - Copyright © Daniel Li. All rights reserved. 目标:把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个 统一入口 ,供后续所有业务 skill(github-explorer、写作类 skills、日报等)复用。 核心原则(来自你发的 Excel Skill 拆解文章的启发): - 行为规约层 :永远给出可追溯入口(原文 URL + 解析产物路径/链接),绝不编造来源。 - Token 探针 :先用低成本 probe 判断可不可以直接抓;不行再走重解析(MinerU)。 - 反弹机制 :失败时返回“下一步动作建议”,而不是一堆异常栈。 工作流(Decision Tree) 输入: 0) Domain Whitelist(跳过 probe) :若 URL 属于高概率反爬/动态站点(微信/知乎等),直接走 MinerU - 白名单文件: - 对命中白名单的 URL:强制 1) Probe(低成本) :优先用 - 目标:拿到正文 markdown(便宜、快) - 判断“失败/不合格”条件(见 )包括: - 403/401/反爬 - 只有“环境异常/验证码/请在微信打开”等…