Scrapling Web Fetch 当用户要获取网页内容、正文提取、把网页转成 markdown/text、抓取文章主体时,优先使用此技能。 默认流程 1. 使用 2. 默认正文选择器优先级: - - - - 3. 命中正文后,使用 转 Markdown 4. 若都未命中,回退到 5. 最终按 截断输出 用法 依赖 优先检查: - - - - - 推荐使用独立虚拟环境,避免系统 Python 的 PEP 668 限制: 如直接运行脚本,优先使用该虚拟环境中的 Python: 输出约定 脚本默认输出 Markdown 正文内容。 如需结构化输出,可追加 。 如需调试提取命中了哪个 selector,可查看 stderr 输出。 附加资源 - 用法参考: - 选择器策略: - 统一入口: 何时用这个技能 - 获取文章正文 - 抓博客/新闻/公告正文 - 将网页转成 Markdown 供后续总结 - 常规 fetch 效果差,希望提升现代网页抓取稳定性 - 抓小红书分享短链或笔记落地页正文 小红书抓取方法 对于 短链或小红书笔记页,推荐直接使用虚拟环境中的脚本运行: 说明: - 脚本会先解析短链并抓取落地页正文 - 适合提取小红书笔记文案、标题和主体内容 - 若页面需要更复杂交互,再切到浏览器自动化 何时不用 - 需要完整浏览器交互、点击、登录、翻页时:改用浏览器自动化 - 只是简…