web-scraping-automation

网站爬取与 API 自动化功能说明此技能专门用于自动化网站数据爬取和 API 接口调用，包括： - 分析和爬取网站结构 - 调用和测试 REST/GraphQL API - 创建自动化爬虫脚本 - 数据解析和清洗 - 处理反爬虫机制 - 定时任务和数据存储使用场景 - "爬取这个网站的产品信息" - "帮我调用这个 API 并解析返回数据" - "创建一个脚本定时抓取新闻" - "分析这个网站的 API 接口文档" - "绕过这个网站的反爬虫限制" 技术栈 ⚠️ 资源清理原则（强制）所有涉及浏览器的爬取任务完成后，必须自动关闭 Chrome/Selenium 进程！原因 : 避免内存泄漏和资源占用，防止 Gateway CPU 100% 过载 Python 爬虫 - requests ：HTTP 请求库 - BeautifulSoup4 ：HTML 解析 - Scrapy ：专业爬虫框架 - Selenium ：浏览器自动化 - Playwright ：现代浏览器自动化 JavaScript 爬虫 - axios ：HTTP 客户端 - cheerio ：服务端 jQuery - puppeteer ：Chrome 自动化 - node-fetch ：Fetch API 工作流程 1. 目标分析： - 检查网站结构和数据位置 - 分析 API 接口和认证方式 - 评估…