微信公众号文章抓取工具 概述 使用 Playwright 抓取微信公众号文章,后台运行无弹窗,自动处理动态加载,提取干净的文章内容,并支持自动保存为 Markdown 文件。 功能特性 - ✅ 无头模式运行 : 默认后台抓取,不弹出浏览器窗口 - ✅ 智能回退机制 : 无头模式失败时自动切换到有头模式 - ✅ 动态内容支持 : 自动等待页面加载完成,处理懒加载图片 - ✅ 自动保存为 Markdown : 支持将抓取结果保存为格式化的 Markdown 文件 - ✅ 内容清洗 : 移除HTML标签,保留段落结构,输出纯文本 - ✅ 自动重试 : 失败时自动重试3次,提高成功率 - ✅ 错误检测 : 识别"参数错误"等异常页面 - ✅ 跨平台支持 : 完全支持 Windows、macOS 和 Linux - ✅ 法律内容自动格式化 : 检测到法律内容时自动链式调用 legal-text-format(强制执行协议) - ✅ 图片下载 : 自动下载文章中的所有图片到本地 - ✅ 智能图片筛选 : 自动过滤小的装饰性图片(如社交媒体按钮、表情符号) - ✅ 图片位置保持 : 保留图片在原文档中的位置 - ✅ 自动文件命名 : 根据文章标题生成文件名和资源文件夹 抓取后法律格式化协议(强制执行) 本节为必须遵守的执行指令,而非可选建议。 法律内容判定清单 完成抓取后,你必须立即按以下清单…