Crawler
5/10/26Less than 1 minute
Crawler
爬虫系统设计的重点不在“如何抓一页”,而在如何大规模、可控地抓取和处理网页。
问题定义
需要回答:
- 抓哪些站点
- 抓取频率多高
- 是否需要去重
- 是否需要解析正文、图片、链接
- 是否要遵守 robots 与限流规则
核心模块
- URL Frontier / 待抓队列
- Scheduler / 调度器
- Fetcher / 下载器
- Parser / 解析器
- Storage / 存储
- Dedup / 去重
关键设计点
- 如何避免重复抓取
- 如何做域名级限速
- 如何处理失败重试
- 如何做增量抓取
- 如何存储原始页面和解析结果
常见存储
- 原始 HTML:对象存储
- 抓取状态:KV / SQL
- 解析结果:搜索引擎或列式存储
相关主题
./search.md../concepts/cron.md
