clean-content-fetch — Skillopedia

Scrapling Web Fetch 当用户要获取网页内容、正文提取、把网页转成 markdown/text、抓取文章主体时，优先使用此技能。默认流程 1. 使用 2. 默认正文选择器优先级： - - - - 3. 命中正文后，使用转 Markdown 4. 若都未命中，回退到 5. 最终按截断输出用法依赖优先检查： - - - - - 推荐使用独立虚拟环境，避免系统 Python 的 PEP 668 限制：如直接运行脚本，优先使用该虚拟环境中的 Python：输出约定脚本默认输出 Markdown 正文内容。如需结构化输出，可追加。如需调试提取命中了哪个 selector，可查看 stderr 输出。附加资源 - 用法参考： - 选择器策略： - 统一入口：何时用这个技能 - 获取文章正文 - 抓博客/新闻/公告正文 - 将网页转成 Markdown 供后续总结 - 常规 fetch 效果差，希望提升现代网页抓取稳定性 - 抓小红书分享短链或笔记落地页正文小红书抓取方法对于短链或小红书笔记页，推荐直接使用虚拟环境中的脚本运行：说明： - 脚本会先解析短链并抓取落地页正文 - 适合提取小红书笔记文案、标题和主体内容 - 若页面需要更复杂交互，再切到浏览器自动化何时不用 - 需要完整浏览器交互、点击、登录、翻页时：改用浏览器自动化 - 只是简…