首页 > 文章 > 前端

如何去除HTML标签提取纯文本？

时间：2025-12-15 15:16:34 289浏览收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的，希望这篇《如何去除HTML标签提取纯文本【提取】》对你有很大帮助！欢迎收藏，分享给更多的需要的朋友学习~

提取HTML字符串纯文本有五种方法：一、正则表达式去除标签；二、浏览器DOM解析器（textContent）；三、Python html模块+正则或BeautifulSoup；四、Node.js jsdom模拟DOM；五、命令行工具如pup批量处理。

如何去除html_去除HTML标签提取纯文本内容【提取】

如果您需要从一段包含HTML标签的字符串中提取出纯文本内容，去除所有HTML标记，则可能是由于需要将网页源码、富文本编辑器输出或邮件HTML内容转换为可读的纯文本。以下是实现此目标的多种方法：

一、使用正则表达式匹配并移除HTML标签

该方法通过匹配尖括号及其内部内容，将所有HTML标签替换为空字符串，从而保留标签之间的文本。适用于简单HTML结构，不依赖外部库，适合轻量级处理。

1、定义一个包含HTML标签的字符串，例如："

欢迎

使用HTML"。

2、编写正则表达式 /<[^>]*>/g，用于全局匹配所有成对或单个的HTML标签。

3、调用字符串的 replace() 方法，将匹配到的所有标签替换为空字符串。

4、检查结果是否残留换行符或多余空格，必要时追加 .replace(/\s+/g, ' ').trim() 进行规范化。

该方法借助浏览器内置的 DOMParser 或临时创建 div 元素，让浏览器自动解析HTML并提取文本节点内容，能正确处理嵌套、自闭合及实体字符，比正则更健壮。

1、创建一个临时的 div 元素：const temp = document.createElement('div');。

2、将含HTML的字符串赋值给该元素的 innerHTML 属性：temp.innerHTML = htmlString;。

3、读取其 textContent 属性值：const text = temp.textContent;。

4、若需兼容IE8及更早版本，改用 innerText，但注意其会受CSS样式影响。

在服务端环境中，可调用语言标准库提供的HTML解析工具，避免手动正则带来的误删风险，尤其适合处理含脚本、注释或不规范嵌套的HTML片段。

1、导入 html 模块（Python 3.2+）：import html。

2、先对HTML实体进行解码：decoded = html.unescape(html_string)。

3、导入 re 模块，应用与方法一相同的正则表达式进行标签清除。

4、或使用第三方库 BeautifulSoup：from bs4 import BeautifulSoup; text = BeautifulSoup(html_string, 'html.parser').get_text()。

在无浏览器的Node.js运行时中，可通过jsdom库创建虚拟DOM上下文，复现浏览器的textContent行为，确保与前端逻辑一致，适用于服务端渲染或预处理场景。

1、安装jsdom：npm install jsdom。

2、引入模块并初始化JSDOM实例：const { JSDOM } = require('jsdom'); const dom = new JSDOM(htmlString);。

3、获取文档体内的文本内容：const text = dom.window.document.body.textContent;。

4、若HTML无body标签，改用 dom.window.document.documentElement.textContent 确保覆盖全部节点。

对于已保存为本地HTML文件的批量提取任务，可在终端中直接调用轻量级CLI工具，无需编写代码，适合运维或数据预处理流程。

1、安装pup（基于Go）：brew install pup（macOS）或下载对应二进制文件。

2、执行提取命令：cat input.html | pup 'body text{}'，其中 text{} 表示提取文本节点。

3、若HTML无body，改用 *:root text{} 匹配根节点下所有文本。

4、重定向输出至文件：... > output.txt 完成保存。

今天关于《如何去除HTML标签提取纯文本？》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！