如何使用goquery提取自定义html标签的文本?
来源:stackoverflow
时间:2024-04-16 20:18:31 189浏览 收藏
今天golang学习网给大家带来了《如何使用goquery提取自定义html标签的文本?》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~
我正在尝试将文本提取为自定义 html 标记 ():
someHtml := `Login Successful!`
query, _ := goquery.NewDocumentFromReader(strings.NewReader(someHtml))
sel:= query.Find("prelogin-cookie")
println(sel.Text())
但它不返回任何内容,只是一个空字符串,我如何获取该 html 标记的实际文本,又名 4242424242424242?
解决方案
找不到 ,因为它位于 html 注释中。
您的评论实际上是一系列 xml 或 html 标签,如果您使用它作为输入文档,它可能会被处理为 html。
警告。只有下面的第一个解决方案可以正确处理“所有”html 文档。其他解决方案更简单,也可以很好地处理您的情况,但它们可能无法处理某些边缘情况。确定它们是否值得您使用。
1。通过搜索html节点树
查找和提取注释的一种方法是遍历 html 节点树并查找类型为 html.CommentNode 的节点。
为此,我们将使用递归辅助函数来遍历节点树:
func findcomment(n *html.node) *html.node {
if n == nil {
return nil
}
if n.type == html.commentnode {
return n
}
if res := findcomment(n.firstchild); res != nil {
return res
}
if res := findcomment(n.nextsibling); res != nil {
return res
}
return nil
}
并使用它:
doc, err := goquery.newdocumentfromreader(strings.newreader(somehtml))
if err != nil {
panic(err)
}
var comment *html.node
for _, node := range doc.nodes {
if comment = findcomment(node); comment != nil {
break
}
}
if comment == nil {
fmt.println("no comment")
return
}
doc, err = goquery.newdocumentfromreader(strings.newreader(comment.data))
if err != nil {
panic(err)
}
sel := doc.find("prelogin-cookie")
fmt.println(sel.text())
这将打印(在 Go Playground 上尝试):
4242424242424242
2。使用 strings
如果您只需要处理“手头的文档”,一个更简单的解决方案可能是使用 strings 包来查找评论的开始和结束索引:
start := strings.index(somehtml, "")
if end < 0 {
panic("no comment")
}
并使用它作为输入:
doc, err := goquery.newdocumentfromreader(strings.newreader(somehtml[start+4 : end]))
if err != nil {
panic(err)
}
sel := doc.find("prelogin-cookie")
fmt.println(sel.text())
这将输出相同的结果。请在 Go Playground 上尝试一下。
3。使用 regexp
先前解决方案的一个更简单(但效率较低)的替代方案是使用正则表达式从原始文档中获取注释:
comments := regexp.MustCompile(``).FindAllString(someHtml, -1)
if len(comments) == 0 {
fmt.Println("no comment")
return
}
doc, err := goquery.NewDocumentFromReader(strings.NewReader(
comments[0][4 : len(comments[0])-3]))
拨打 Go Playground 试试这个。
以上就是《如何使用goquery提取自定义html标签的文本?》的详细内容,更多关于的资料请关注golang学习网公众号!
-
502 收藏
-
502 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
Golang · Go问答 | 2天前 | 并发 · channel · select · 性能排查 · Go问答 · select Go channel context default CPU飙高 忙等循环 ticker438 收藏
-
Golang · Go问答 | 2天前 | pprof · trace · 性能排查 · Go问答 · 服务安全 · Go pprof 生产环境 trace 安全入口 net/http/pprof 性能排障349 收藏
-
Golang · Go问答 | 2天前 | channel · 并发编程 · Go问答 · 背压 · 容量规划 · Goroutine channel 缓冲区 背压 Go问答 buffered channel 并发容量377 收藏
-
Golang · Go问答 | 2天前 | interface · 单元测试 · 架构设计 · repository · Go问答 · 单元测试 架构设计 interface 接口设计 Go问答 调用方定义 Repository212 收藏
-
Golang · Go问答 | 2天前 | JSON · time.Time · 接口设计 · Go问答 · encoding/json · encoding/json API响应 JSON序列化 time.Time omitempty Go问答 omitzero315 收藏
-
Golang · Go问答 | 2天前 | HTTP · Cookie · 浏览器 · cors · Go问答 · SameSite · cookie cors Secure SameSite Go问答 Set-Cookie 跨站请求 credentials246 收藏
-
Golang · Go问答 | 2天前 | 中间件 · Context · Go问答 · 架构模式 · 代码边界 · 中间件 context Context.Value Go问答 WithValue 请求作用域 业务参数269 收藏
-
Golang · Go问答 | 2天前 | JSON · 后端开发 · Go问答 · encoding/json · 接口解析 · JSON解析 encoding/json DisallowUnknownFields Go问答 RawMessage json.Decoder UseNumber151 收藏
-
Golang · Go问答 | 3天前 | HTTP · net/http · Go问答 · 流式响应 · ResponseController · net/http FLUSH 流式响应 Go问答 ResponseController FullDuplex 写超时161 收藏
-
Golang · Go问答 | 3天前 | HTTP · sse · Go问答 · 用户体验 · 流式响应 · Go EventSource SSE Go问答 Server-Sent Events 长任务进度 http.Flusher293 收藏
-
Golang · Go问答 | 3天前 | Timer · 性能优化 · time.After · Go问答 · Go 内存优化 Timer time.After Go问答 time.NewTimer Go1.23384 收藏
-
Golang · Go问答 | 3天前 | go · Context · 并发编程 · 接口超时 · 超时控制 goroutine泄漏 WithTimeout Go context Go问答 CancelFunc477 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习