登录
首页 >  Golang >  Go问答

在 Go 中匹配 html 标签之外的 html 文本的最佳方法是什么?

来源:stackoverflow

时间:2024-04-07 19:48:29 157浏览 收藏

今天golang学习网给大家带来了《在 Go 中匹配 html 标签之外的 html 文本的最佳方法是什么?》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~

问题内容

我正在解析一堆 html,如果某些 标签包含某些文本,我需要删除它们。通常,我会使用 goquery,但我正在搜索的文本通常位于 html 标签本身之外。例如,这个 html:


this is the start.            
we don't want to match this text.
 match this text.we also don't want to match this text

我正在使用这个正则表达式,但它失败并匹配我不想匹配的文本:

(?is)]+href=["'](?P.*?)["']*.?> match this text\.

https://regex101.com/r/iexpqc/1


解决方案


像这样,使用xpath(不是go,但逻辑可以重新实现):

xmlstarlet ed -d '//a[contains(text(), "want to match")]' file.html

 输出



  
This is the start.  

 match this text.

 注意

  • 如果您想即时替换,请添加 -l 开关

今天关于《在 Go 中匹配 html 标签之外的 html 文本的最佳方法是什么?》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>