登录
首页 >  Golang >  Go问答

如何使用gocolly执行CSR网站的抓取

来源:stackoverflow

时间:2024-02-25 08:30:22 485浏览 收藏

“纵有疾风来,人生不言弃”,这句话送给正在学习Golang的朋友们,也希望在阅读本文《如何使用gocolly执行CSR网站的抓取》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新Golang相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!

问题内容

是否可以使用gocolly抓取csr(客户端渲染/js)网站?我需要抓取许多网站,为此,我在数据库中有一个 titlexpath,如下所示:

c.OnXML(titleXpath, func(e *colly.XMLElement) {
   data = append(data, e.Text)
   fmt.Println("title", e.Text)
})

是或否或其他套餐


正确答案


单独使用 gocolly 无法抓取客户端渲染 (CSR/JS) 网站。 gocolly是Golang的一个抓取库,运行在HTTP级别,可以解析静态HTML文档,但它不执行JavaScript。

要抓取 CSR 网站,您需要无头浏览器或支持 JavaScript 渲染的网页抓取工具。抓取企业社会责任网站的一些流行选项包括:

  • Puppeteer(带有 Golang 库,例如 chromedp)
  • Selenium(带有 Golang 库,例如 goselenium)

今天关于《如何使用gocolly执行CSR网站的抓取》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!

声明:本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>