首页 > Golang > Go教程

Go语言爬虫实战：Colly框架抓取教程

时间：2026-04-01 23:27:14 295浏览收藏

本文深入讲解了如何使用Go语言的Colly框架高效、稳健地开发网络爬虫，强调其相比手动组合http.Client与goquery在反爬应对、自动重试、并发控制、请求去重、Cookie管理及robots.txt遵循等方面的显著优势；同时直击实战痛点——如JS渲染缺失导致数据抓取失败、v2版本兼容性陷阱、状态码忽略引发的静默错误、不当并发引发的竞态与封禁风险，并给出具体可落地的规避策略：合理设置限速与延迟、结构化缓冲写入、健壮的URL与响应校验、耐变的CSS选择器设计，以及面对动态页面或复杂反爬时的合理技术选型建议，帮助开发者从“能跑”迈向“可靠、可维护、可扩展”的生产级爬虫实践。

如何在Golang中编写一个网站爬虫程序 Go语言Colly框架抓取实战

为什么用 `colly` 而不是自己写 `http.Client` + `goquery`

因为反爬、重试、并发控制、请求去重、Cookie 管理这些事，自己拼凑容易漏掉边界。比如你手动发请求后没自动处理 302 跳转，或没按 robots.txt 限制爬取路径，colly 默认就做了。它底层封装了 http.Client 和 goquery，但提供了统一的回调钩子和上下文管理。

常见错误现象：colly 默认不自动处理 JavaScript 渲染内容（如 Vue/React 动态加载），误以为“页面没抓到数据”其实是前端渲染导致的；还有人直接在 OnHTML 里开 goroutine 并发请求，结果触发竞态或被目标站封 IP。

使用场景：静态 HTML 页面批量采集（新闻列表、商品标题、博客摘要）
性能影响：默认并发是 1，需显式调用 c.Limit(&colly.LimitRule{DomainGlob: "*", Parallelism: 5}) 才能并发
兼容性注意：v2 版本要求 Go 1.16+，且 OnXML 和 OnRequest 的参数签名和 v1 不同，升级时容易 panic

`OnHTML` 抓不到元素？先检查选择器和响应状态

最常踩的坑是 selector 写对了，但实际返回的是 403、503 或登录跳转页——colly 不会报错，只是默默执行空回调。必须加 OnResponse 或 OnError 观察真实响应。

实操建议：

在 OnRequest 里打印 req.URL.String()，确认发出去的地址没错（尤其注意 URL 编码、末尾斜杠差异）
用 OnResponse 检查 resp.StatusCode，非 200 时记录日志，避免静默失败
selector 优先用 class 名而非嵌套路径，例如 "div.post-title" 比 "body > div#main > article h1" 更耐改
如果目标页有分页，别在 OnHTML 里直接 c.Visit() 下一页链接，应先提取 URL 到变量，再在 OnScraped 后统一调度，防止递归过深或重复入队

如何绕过基础反爬：User-Agent、Referer 和延迟

很多小站只靠检查 User-Agent 和 Referer 拦截脚本请求。colly 提供了简单方式注入，但要注意时机——必须在请求发出前设置，不能在 OnResponse 里补。

实操建议：

全局设置：c.UserAgent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) ..."
按域名设 Referer：c.OnRequest(func(r *colly.Request) { r.Headers.Set("Referer", "https://example.com/") })
别用 time.Sleep 做固定延迟，改用 c.Limit(&colly.LimitRule{Delay: 1 * time.Second})，它作用于每个 domain 的请求队列，更可控
如果目标站校验 Cookie 或 JS Token，colly 本身不执行 JS，此时得换 chromedp 或加 API 接口分析，硬上 colly 会一直 401

保存数据时别直接写文件，先缓冲再落盘

高频抓取时每条数据都 os.WriteFile 一次，IO 开销大还容易卡住整个 crawler。更稳的做法是攒一批再批量写，同时避免多个 goroutine 并发写同一个文件引发冲突。

实操建议：

用 sync.Map 或带缓冲的 channel 收集结构体（如 type Article { Title string; URL string }）
在 OnScraped 回调里触发缓冲 flush，或用定时器每 5 秒 dump 一次
写文件前确保目录存在：os.MkdirAll("data", 0755)，否则第一次运行就 panic
导出格式优先选 JSON Lines（每行一个 JSON 对象），比单个大 JSON 更易流式处理，也方便后续用 jq 或 Python pandas 读取

真正麻烦的从来不是怎么写第一个 c.Visit()，而是当目标站把列表页改成无限滚动、详情页加上时间戳签名、或者突然返回压缩过的 HTML 时，你得快速判断该修 selector、换渲染方案，还是干脆放弃这个源。这些没法靠框架自动解决。

好了，本文到此结束，带大家了解了《Go语言爬虫实战：Colly框架抓取教程》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多Golang知识！

Go语言爬虫实战：Colly框架抓取教程

为什么用 colly 而不是自己写 http.Client + goquery

OnHTML 抓不到元素？先检查选择器和响应状态

如何绕过基础反爬：User-Agent、Referer 和延迟

保存数据时别直接写文件，先缓冲再落盘

为什么用 `colly` 而不是自己写 `http.Client` + `goquery`

`OnHTML` 抓不到元素？先检查选择器和响应状态