如何使用goquery提取自定义html标签的文本?
来源:stackoverflow
时间:2024-04-16 20:18:31 189浏览 收藏
今天golang学习网给大家带来了《如何使用goquery提取自定义html标签的文本?》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~
我正在尝试将文本提取为自定义 html 标记 (
):
someHtml := `Login Successful!` query, _ := goquery.NewDocumentFromReader(strings.NewReader(someHtml)) sel:= query.Find("prelogin-cookie") println(sel.Text())
但它不返回任何内容,只是一个空字符串,我如何获取该 html 标记的实际文本,又名 4242424242424242
?
解决方案
找不到
,因为它位于 html 注释中。
您的评论实际上是一系列 xml 或 html 标签,如果您使用它作为输入文档,它可能会被处理为 html。
警告。只有下面的第一个解决方案可以正确处理“所有”html 文档。其他解决方案更简单,也可以很好地处理您的情况,但它们可能无法处理某些边缘情况。确定它们是否值得您使用。
1。通过搜索html节点树
查找和提取注释的一种方法是遍历 html 节点树并查找类型为 html.CommentNode
的节点。
为此,我们将使用递归辅助函数来遍历节点树:
func findcomment(n *html.node) *html.node { if n == nil { return nil } if n.type == html.commentnode { return n } if res := findcomment(n.firstchild); res != nil { return res } if res := findcomment(n.nextsibling); res != nil { return res } return nil }
并使用它:
doc, err := goquery.newdocumentfromreader(strings.newreader(somehtml)) if err != nil { panic(err) } var comment *html.node for _, node := range doc.nodes { if comment = findcomment(node); comment != nil { break } } if comment == nil { fmt.println("no comment") return } doc, err = goquery.newdocumentfromreader(strings.newreader(comment.data)) if err != nil { panic(err) } sel := doc.find("prelogin-cookie") fmt.println(sel.text())
这将打印(在 Go Playground 上尝试):
4242424242424242
2。使用 strings
如果您只需要处理“手头的文档”,一个更简单的解决方案可能是使用 strings
包来查找评论的开始和结束索引:
start := strings.index(somehtml, "") if end < 0 { panic("no comment") }
并使用它作为输入:
doc, err := goquery.newdocumentfromreader(strings.newreader(somehtml[start+4 : end])) if err != nil { panic(err) } sel := doc.find("prelogin-cookie") fmt.println(sel.text())
这将输出相同的结果。请在 Go Playground 上尝试一下。
3。使用 regexp
先前解决方案的一个更简单(但效率较低)的替代方案是使用正则表达式从原始文档中获取注释:
comments := regexp.MustCompile(``).FindAllString(someHtml, -1) if len(comments) == 0 { fmt.Println("no comment") return } doc, err := goquery.NewDocumentFromReader(strings.NewReader( comments[0][4 : len(comments[0])-3]))
拨打 Go Playground 试试这个。
以上就是《如何使用goquery提取自定义html标签的文本?》的详细内容,更多关于的资料请关注golang学习网公众号!
-
502 收藏
-
502 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
139 收藏
-
204 收藏
-
325 收藏
-
477 收藏
-
486 收藏
-
439 收藏
-
357 收藏
-
352 收藏
-
101 收藏
-
440 收藏
-
212 收藏
-
143 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习