天眼查中标公告采集 目标 从已确认主体口径的企业列表中,批量采集天眼查中标公告,并保留后续案例提取所需的原文证据。 输入 - - - Chrome 远程调试端口 - 已登录天眼查的浏览器会话 输出 - - - 执行流程 1. 确认 已由企业全称确认技能生成。 2. 确认 Chrome 远程调试和天眼查登录状态。 3. 全量采集运行: 4. 增量采集运行: 5. 只补详情原文运行: 6. 采集结束后,抽查 与 是否一一对应。 业务规则 - 采集年份、金额阈值以 为准。 - Crawl 去重键为 。 - 是后续案例提取的原文依据,缺失时必须补抓。 - 遇到验证码时暂停等待人工处理,不要跳过大量企业。 质量检查 - 应显示企业处理进度清晰可续跑。 - 随机打开 5 条 ,确认不是登录页、验证码页或空页面。 - 关注企业明显不相关、发布时间越界、重复公告过多等异常。 失败处理 - Chrome 连接失败:检查远程调试端口。 - 详情页抓取失败:优先重跑 。 - 页面结构变化:优先检查 。 ---