content-extract — Skillopedia

content-extract — 上层内容解析入口（MCP 语义对齐，但不跑 MCP Server） - Author: Daniel Li - Copyright © Daniel Li. All rights reserved. 目标：把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个统一入口，供后续所有业务 skill（github-explorer、写作类 skills、日报等）复用。核心原则（来自你发的 Excel Skill 拆解文章的启发）： - 行为规约层：永远给出可追溯入口（原文 URL + 解析产物路径/链接），绝不编造来源。 - Token 探针：先用低成本 probe 判断可不可以直接抓；不行再走重解析（MinerU）。 - 反弹机制：失败时返回“下一步动作建议”，而不是一堆异常栈。工作流（Decision Tree）输入： 0) Domain Whitelist（跳过 probe）：若 URL 属于高概率反爬/动态站点（微信/知乎等），直接走 MinerU - 白名单文件： - 对命中白名单的 URL：强制 1) Probe（低成本）：优先用 - 目标：拿到正文 markdown（便宜、快） - 判断“失败/不合格”条件（见）包括： - 403/401/反爬 - 只有“环境异常/验证码/请在微信打开”等…