Crawler

David Liu5/10/26Less than 1 minute

Crawler

爬虫系统设计的重点不在“如何抓一页”，而在如何大规模、可控地抓取和处理网页。

问题定义

需要回答：

抓哪些站点
抓取频率多高
是否需要去重
是否需要解析正文、图片、链接
是否要遵守 robots 与限流规则

核心模块

URL Frontier / 待抓队列
Scheduler / 调度器
Fetcher / 下载器
Parser / 解析器
Storage / 存储
Dedup / 去重

关键设计点

如何避免重复抓取
如何做域名级限速
如何处理失败重试
如何做增量抓取
如何存储原始页面和解析结果

常见存储

原始 HTML：对象存储
抓取状态：KV / SQL
解析结果：搜索引擎或列式存储

相关主题

./search.md
../concepts/cron.md