首页 > Golang > Go教程

Golang爬虫教程：实战抓取网页方法

时间：2025-07-06 08:54:22 261浏览收藏

在Golang实战开发的过程中，我们经常会遇到一些这样那样的问题，然后要卡好半天，等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《Golang构建简单爬虫教程：抓取网页实战》，聊聊，希望可以帮助到正在努力赚钱的你。

用Golang写爬虫可通过net/http发起请求并用goquery解析HTML实现。首先安装goquery库，使用http.Get()或自定义Client发送GET请求获取页面内容，并设置必要的Header如User-Agent；接着用goquery.NewDocumentFromReader()加载HTML文档，通过类似jQuery的CSS选择器提取数据，如.Find().Text()或.Attr()获取文本和属性值；最后可将结果封装进结构体以便后续处理。注意事项包括关闭响应体、处理相对URL、控制请求频率及应对反爬机制等。

怎样用Golang构建简单爬虫实践net/http与goquery抓取网页

用Golang写爬虫其实挺直接的，尤其是搭配标准库net/http和第三方库goquery，基本能完成大部分网页抓取任务。重点在于理解HTTP请求流程、HTML解析方式，以及如何高效地提取目标数据。

准备工作：安装依赖

除了Go本身的基础环境外，你还需要安装goquery这个库，它提供了类似jQuery的语法来操作HTML文档。安装命令如下：

go get github.com/PuerkitoBio/goquery

确保你的项目里引入了net/http和github.com/PuerkitoBio/goquery这两个包。

发起HTTP请求：使用net/http获取页面内容

要抓取网页，首先得发起GET请求获取HTML内容。这部分可以用net/http.Get()快速实现，也可以自定义Client来控制超时、Header等细节。

示例代码如下：

resp, err := http.Get("https://example.com")
if err != nil {
    log.Fatal(err)
}
defer resp.Body.Close()

// 检查状态码是否为200 OK
if resp.StatusCode != 200 {
    log.Fatalf("status code error: %d %s", resp.StatusCode, resp.Status)
}

// 接下来可以将resp.Body传给goquery解析

这里需要注意几点：

一定要记得关闭Body，否则会泄露资源。
有些网站会对User-Agent做限制，这时候需要手动设置Header：

client := &http.Client{}
req, _ := http.NewRequest("GET", "https://example.com", nil)
req.Header.Set("User-Agent", "Mozilla/5.0")
resp, _ := client.Do(req)

使用goquery解析HTML并提取数据

拿到HTML之后，就可以用goquery.NewDocumentFromReader()来加载文档并开始查询了。比如你想提取所有标签中的链接：

doc, err := goquery.NewDocumentFromReader(resp.Body)
if err != nil {
    log.Fatal(err)
}

doc.Find("a").Each(func(i int, s *goquery.Selection) {
    href, _ := s.Attr("href")
    fmt.Println(href)
})

你可以根据CSS选择器来定位元素，比如：

提取某个类名下的文本：.Find(".title").Text()
获取特定属性值：s.Attr("src")

一个常见问题是处理相对路径的URL，这时候需要用baseURL来拼接完整地址，或者在提取时手动处理字符串。

简单封装结构化输出

如果你希望把抓取的数据结构化保存，可以定义一个struct，然后在遍历时填充字段。例如：

type Item struct {
    Title string
    Link  string
}

var items []Item

doc.Find(".item").Each(func(i int, s *goquery.Selection) {
    title := s.Find("h2").Text()
    link, _ := s.Find("a").Attr("href")
    items = append(items, Item{Title: title, Link: link})
})

这样就能方便地后续处理，比如导出为JSON或存入数据库。

结尾小贴士

构建简单爬虫其实不难，但要注意一些细节，比如User-Agent、错误处理、请求频率控制。如果只是做一次性抓取，上面的方法已经够用了。遇到反爬机制强的网站，可能需要加代理、模拟登录、甚至用Headless浏览器，那又是另一个话题了。

基本上就这些，动手试试吧！

终于介绍完啦！小伙伴们，这篇关于《Golang爬虫教程：实战抓取网页方法》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布Golang相关知识，快来关注吧！