网站爬取与 API 自动化 功能说明 此技能专门用于自动化网站数据爬取和 API 接口调用,包括: - 分析和爬取网站结构 - 调用和测试 REST/GraphQL API - 创建自动化爬虫脚本 - 数据解析和清洗 - 处理反爬虫机制 - 定时任务和数据存储 使用场景 - "爬取这个网站的产品信息" - "帮我调用这个 API 并解析返回数据" - "创建一个脚本定时抓取新闻" - "分析这个网站的 API 接口文档" - "绕过这个网站的反爬虫限制" 技术栈 ⚠️ 资源清理原则(强制) 所有涉及浏览器的爬取任务完成后,必须自动关闭 Chrome/Selenium 进程! 原因 : 避免内存泄漏和资源占用,防止 Gateway CPU 100% 过载 Python 爬虫 - requests :HTTP 请求库 - BeautifulSoup4 :HTML 解析 - Scrapy :专业爬虫框架 - Selenium :浏览器自动化 - Playwright :现代浏览器自动化 JavaScript 爬虫 - axios :HTTP 客户端 - cheerio :服务端 jQuery - puppeteer :Chrome 自动化 - node-fetch :Fetch API 工作流程 1. 目标分析 : - 检查网站结构和数据位置 - 分析 API 接口和认证方式 - 评估…