首页 > Golang > Go教程

Golang高效并发抓取网页方法

时间：2026-01-26 10:39:40 353浏览收藏

珍惜时间，勤奋学习！今天给大家带来《Golang并发抓取网页技巧》，正文内容主要涉及到等等，如果你正在学习Golang，或者是对Golang有疑问，欢迎大家关注我！后面我会持续更新相关内容的，希望都能帮到正在学习的大家！

Go并发抓取核心是控并发、防崩、保稳定：用带缓冲channel实现信号量限流，复用调优http.Client，显式处理HTTP状态码与错误，设置User-Agent和请求间隔反反爬。

如何在Golang中实现并发网页抓取_Golang goroutine HTTP请求处理方法

Go 语言做并发网页抓取，核心不是“能不能并发”，而是“怎么控并发、防崩、保稳定”。盲目起成百上千个 goroutine 调 http.Get，大概率触发连接耗尽、DNS 阻塞、目标站封 IP 或本地 too many open files 错误。

用 `semaphore` 控制并发数，别裸跑 goroutine

HTTP 抓取是 I/O 密集型操作，但操作系统对 TCP 连接、文件描述符、DNS 缓存都有硬限制。不加节制地启动 goroutine，会迅速突破这些阈值。

推荐用带缓冲的 channel 模拟信号量（无需引入第三方库）：

var sem = make(chan struct{}, 10) // 最多同时 10 个请求
<p>func fetch(url string) ([]byte, error) {
sem <- struct{}{} // 获取令牌
defer func() { <-sem }() // 释放令牌</p><pre class="brush:php;toolbar:false;">resp, err := http.Get(url)
if err != nil {
    return nil, err
}
defer resp.Body.Close()
return io.ReadAll(resp.Body)

}

10 是经验值，实际应根据目标站点响应时间、本地 ulimit -n 值（可用 ulimit -n 查）、以及是否复用 http.Client 调整
别在 defer 里放 <-sem —— 如果 http.Get panic，defer 不执行，信号量永远卡死
更稳妥写法：用 select + context 加超时，避免单个请求拖垮整组

`http.Client` 必须复用并调优，别每次 new

每次 new(http.Client) 会新建独立的 http.Transport，默认复用连接池极小（MaxIdleConns: 100），且 DNS 缓存不共享，高并发下极易打满连接或反复解析域名。

全局复用一个 client，并显式配置 transport：

client := &http.Client{
    Transport: &http.Transport{
        MaxIdleConns:        200,
        MaxIdleConnsPerHost: 200,
        IdleConnTimeout:     30 * time.Second,
        TLSHandshakeTimeout: 10 * time.Second,
    },
}

MaxIdleConnsPerHost 必须设，否则默认是 100，多个域名时会被均分，实际并发能力骤降
不设 IdleConnTimeout，空闲连接长期不释放，可能被中间代理或服务端主动断开，下次复用时报 read: connection reset by peer
若目标站 HTTPS 证书异常，还需配 InsecureSkipVerify: true（仅测试用）

处理常见错误：timeout、redirect、4xx/5xx、body 未关闭

真实抓取中，http.Get 返回 nil error 并不意味着成功——状态码可能是 429（限流）、503（服务不可用），body 可能为空或没读完就丢弃，导致连接无法复用。

用 resp.StatusCode 显式判断，别只看 err == nil
所有 resp.Body 必须 Close()，否则连接卡在 idle 状态，最终耗尽 MaxIdleConns
重定向默认开启，若目标站用跳转反爬，可关掉：CheckRedirect: func(req *http.Request, via []*http.Request) error { return http.ErrUseLastResponse }
超时必须设：用 context.WithTimeout 包裹 request，避免单个请求 hang 死整个 goroutine

别忽略 User-Agent 和请求间隔，否则很快进黑名单

多数网站靠 User-Agent 识别爬虫。不设或用默认值（Go-http-client/1.1），基本等于举手说自己是爬虫。

简单加 header 即可：

req, _ := http.NewRequest("GET", url, nil)
req.Header.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36")
resp, err := client.Do(req)