首页 > Golang > Go教程

Golang爬虫教程：net/http与goquery抓取网页指南

时间：2025-08-28 16:55:42 367浏览收藏

推广推荐

支持 PC / 移动端，安全直达

**Golang构建简单爬虫教程：使用net/http与goquery抓取网页** 想用Golang轻松抓取网页数据吗？本文将带你一步步使用`net/http`发起请求，并用强大的`goquery`库解析HTML，实现简单高效的爬虫。首先，我们将安装`goquery`库，学习如何发送GET请求获取页面内容，并设置User-Agent等Header信息。接着，利用`goquery.NewDocumentFromReader()`加载HTML，通过类似jQuery的CSS选择器精准提取所需数据，例如文本和属性值。最后，我们将学习如何将抓取结果封装成结构体，方便后续处理。本文还包含了处理相对URL、控制请求频率以及应对反爬机制等实用技巧，助你快速掌握Golang爬虫开发，高效抓取网页信息。

用Golang写爬虫可通过net/http发起请求并用goquery解析HTML实现。首先安装goquery库，使用http.Get()或自定义Client发送GET请求获取页面内容，并设置必要的Header如User-Agent；接着用goquery.NewDocumentFromReader()加载HTML文档，通过类似jQuery的CSS选择器提取数据，如.Find().Text()或.Attr()获取文本和属性值；最后可将结果封装进结构体以便后续处理。注意事项包括关闭响应体、处理相对URL、控制请求频率及应对反爬机制等。

怎样用Golang构建简单爬虫实践net/http与goquery抓取网页

用Golang写爬虫其实挺直接的，尤其是搭配标准库net/http和第三方库goquery，基本能完成大部分网页抓取任务。重点在于理解HTTP请求流程、HTML解析方式，以及如何高效地提取目标数据。

准备工作：安装依赖

除了Go本身的基础环境外，你还需要安装goquery这个库，它提供了类似jQuery的语法来操作HTML文档。安装命令如下：

go get github.com/PuerkitoBio/goquery

确保你的项目里引入了net/http和github.com/PuerkitoBio/goquery这两个包。

发起HTTP请求：使用net/http获取页面内容

要抓取网页，首先得发起GET请求获取HTML内容。这部分可以用net/http.Get()快速实现，也可以自定义Client来控制超时、Header等细节。

示例代码如下：

resp, err := http.Get("https://example.com")
if err != nil {
    log.Fatal(err)
}
defer resp.Body.Close()

// 检查状态码是否为200 OK
if resp.StatusCode != 200 {
    log.Fatalf("status code error: %d %s", resp.StatusCode, resp.Status)
}

// 接下来可以将resp.Body传给goquery解析

这里需要注意几点：

一定要记得关闭Body，否则会泄露资源。
有些网站会对User-Agent做限制，这时候需要手动设置Header：

client := &http.Client{}
req, _ := http.NewRequest("GET", "https://example.com", nil)
req.Header.Set("User-Agent", "Mozilla/5.0")
resp, _ := client.Do(req)

使用goquery解析HTML并提取数据

拿到HTML之后，就可以用goquery.NewDocumentFromReader()来加载文档并开始查询了。比如你想提取所有标签中的链接：

doc, err := goquery.NewDocumentFromReader(resp.Body)
if err != nil {
    log.Fatal(err)
}

doc.Find("a").Each(func(i int, s *goquery.Selection) {
    href, _ := s.Attr("href")
    fmt.Println(href)
})

你可以根据CSS选择器来定位元素，比如：

提取某个类名下的文本：.Find(".title").Text()
获取特定属性值：s.Attr("src")

一个常见问题是处理相对路径的URL，这时候需要用baseURL来拼接完整地址，或者在提取时手动处理字符串。

简单封装结构化输出

如果你希望把抓取的数据结构化保存，可以定义一个struct，然后在遍历时填充字段。例如：

type Item struct {
    Title string
    Link  string
}

var items []Item

doc.Find(".item").Each(func(i int, s *goquery.Selection) {
    title := s.Find("h2").Text()
    link, _ := s.Find("a").Attr("href")
    items = append(items, Item{Title: title, Link: link})
})

这样就能方便地后续处理，比如导出为JSON或存入数据库。

结尾小贴士

构建简单爬虫其实不难，但要注意一些细节，比如User-Agent、错误处理、请求频率控制。如果只是做一次性抓取，上面的方法已经够用了。遇到反爬机制强的网站，可能需要加代理、模拟登录、甚至用Headless浏览器，那又是另一个话题了。

基本上就这些，动手试试吧！