首页 > Golang > Go教程

Golang构建爬虫：net/http与goquery抓取网页教程

时间：2025-07-03 14:59:58 112浏览收藏

想用 Golang 写爬虫吗？本文将指导你如何使用 `net/http` 标准库和 `goquery` 第三方库，轻松抓取网页数据。文章详细介绍了 Golang 爬虫的构建步骤：从安装 `goquery` 依赖，到使用 `http.Get()` 发起 HTTP 请求，再到利用 `goquery` 强大的 CSS 选择器解析 HTML 文档，提取所需信息，例如链接、标题等。同时，还分享了处理相对 URL、结构化数据输出、设置 User-Agent 等实用技巧，助你应对常见的反爬机制。掌握这些方法，即使是新手也能快速上手，用 Golang 构建自己的简单爬虫！

用Golang写爬虫可通过net/http发起请求并用goquery解析HTML实现。首先安装goquery库，使用http.Get()或自定义Client发送GET请求获取页面内容，并设置必要的Header如User-Agent；接着用goquery.NewDocumentFromReader()加载HTML文档，通过类似jQuery的CSS选择器提取数据，如.Find().Text()或.Attr()获取文本和属性值；最后可将结果封装进结构体以便后续处理。注意事项包括关闭响应体、处理相对URL、控制请求频率及应对反爬机制等。

怎样用Golang构建简单爬虫实践net/http与goquery抓取网页

用Golang写爬虫其实挺直接的，尤其是搭配标准库net/http和第三方库goquery，基本能完成大部分网页抓取任务。重点在于理解HTTP请求流程、HTML解析方式，以及如何高效地提取目标数据。

准备工作：安装依赖

除了Go本身的基础环境外，你还需要安装goquery这个库，它提供了类似jQuery的语法来操作HTML文档。安装命令如下：

go get github.com/PuerkitoBio/goquery

确保你的项目里引入了net/http和github.com/PuerkitoBio/goquery这两个包。

发起HTTP请求：使用net/http获取页面内容

要抓取网页，首先得发起GET请求获取HTML内容。这部分可以用net/http.Get()快速实现，也可以自定义Client来控制超时、Header等细节。

示例代码如下：

resp, err := http.Get("https://example.com")
if err != nil {
    log.Fatal(err)
}
defer resp.Body.Close()

// 检查状态码是否为200 OK
if resp.StatusCode != 200 {
    log.Fatalf("status code error: %d %s", resp.StatusCode, resp.Status)
}

// 接下来可以将resp.Body传给goquery解析

这里需要注意几点：

一定要记得关闭Body，否则会泄露资源。
有些网站会对User-Agent做限制，这时候需要手动设置Header：

client := &http.Client{}
req, _ := http.NewRequest("GET", "https://example.com", nil)
req.Header.Set("User-Agent", "Mozilla/5.0")
resp, _ := client.Do(req)

使用goquery解析HTML并提取数据

拿到HTML之后，就可以用goquery.NewDocumentFromReader()来加载文档并开始查询了。比如你想提取所有标签中的链接：

doc, err := goquery.NewDocumentFromReader(resp.Body)
if err != nil {
    log.Fatal(err)
}

doc.Find("a").Each(func(i int, s *goquery.Selection) {
    href, _ := s.Attr("href")
    fmt.Println(href)
})

你可以根据CSS选择器来定位元素，比如：

提取某个类名下的文本：.Find(".title").Text()
获取特定属性值：s.Attr("src")

一个常见问题是处理相对路径的URL，这时候需要用baseURL来拼接完整地址，或者在提取时手动处理字符串。

简单封装结构化输出

如果你希望把抓取的数据结构化保存，可以定义一个struct，然后在遍历时填充字段。例如：

type Item struct {
    Title string
    Link  string
}

var items []Item

doc.Find(".item").Each(func(i int, s *goquery.Selection) {
    title := s.Find("h2").Text()
    link, _ := s.Find("a").Attr("href")
    items = append(items, Item{Title: title, Link: link})
})

这样就能方便地后续处理，比如导出为JSON或存入数据库。

结尾小贴士

构建简单爬虫其实不难，但要注意一些细节，比如User-Agent、错误处理、请求频率控制。如果只是做一次性抓取，上面的方法已经够用了。遇到反爬机制强的网站，可能需要加代理、模拟登录、甚至用Headless浏览器，那又是另一个话题了。

基本上就这些，动手试试吧！

本篇关于《Golang构建爬虫：net/http与goquery抓取网页教程》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于Golang的相关知识，请关注golang学习网公众号！