登录
首页 >  文章 >  前端

如何提取HTML可见文字内容

时间:2025-08-18 08:03:30 372浏览 收藏

想要提取网页上实际显示的字体信息?本文为你提供了一套使用 JavaScript 实现的方案,教你如何**提取可见HTML节点字体信息**。首先,利用 `querySelectorAll` 获取所有元素并转换为数组,然后通过 `offsetWidth` 和 `offsetHeight` 属性精准判断元素是否可见,避免提取到隐藏元素的字体。接着,使用 `window.getComputedStyle` 获取可见节点的字体信息,并使用 `Set` 对象快速去重,得到唯一的字体家族列表。相比简单的 `display: none` 属性判断,本文方法更准确有效,适用于浏览器扩展开发、网页分析等场景,助你轻松获取网页的真实字体样式。

如何过滤页面上可见的 HTML 节点并提取字体信息

本文将介绍如何使用 JavaScript 来过滤 HTML 文档中可见的节点,并提取这些节点所使用的字体信息。

首先,我们需要获取文档中所有的子元素。可以使用 querySelectorAll 方法来获取 body 元素下的所有子元素。为了方便后续的过滤操作,我们将 NodeList 转换为 Array。

var childNodes = [].slice.call(document.body.querySelectorAll("*"));

接下来,我们需要过滤出可见的节点。一个常用的方法是检查元素的 offsetWidth 和 offsetHeight 属性。如果这两个属性都大于 0,则认为该元素是可见的。

var visibleNodes = childNodes.filter(node => node.offsetWidth > 0 && node.offsetHeight > 0);

与 jQuery 的 :visible 选择器简单地检查 display: none 属性不同,使用 offsetWidth 和 offsetHeight 可以更准确地判断元素是否可见,因为它考虑了元素的实际渲染尺寸。

现在,我们已经获得了所有可见的节点。接下来,我们可以使用 window.getComputedStyle 方法来获取每个节点的字体信息。

var fontFamilies = visibleNodes.map(node => window.getComputedStyle(node).fontFamily).filter(ff => !!ff);

这段代码首先使用 map 方法将每个可见节点转换为其对应的 fontFamily 属性值。然后,使用 filter 方法过滤掉空值或 null 值,确保只保留有效的字体信息。

最后,我们可以使用 Set 对象来获取一个包含所有唯一字体家族的列表。

var uniqueFamilies = [...new Set(fontFamilies)];

这段代码使用 spread 运算符 (...) 将 Set 对象转换为数组,从而得到一个包含所有唯一字体家族的数组。

总结与注意事项:

  • 使用 querySelectorAll 获取所有子元素,并将其转换为数组,方便后续操作。
  • 使用 offsetWidth 和 offsetHeight 属性判断元素是否可见,比简单地检查 display: none 属性更准确。
  • 使用 window.getComputedStyle 方法获取元素的字体信息。
  • 使用 Set 对象可以方便地获取唯一的字体家族列表。
  • 该方法适用于提取网页上实际显示的字体文件,避免提取到隐藏元素的字体信息。

通过以上步骤,我们可以有效地过滤 HTML 文档中可见的节点,并提取这些节点所使用的字体信息,这对于开发浏览器扩展或进行网页分析等任务非常有用。

今天带大家了解了的相关知识,希望对你有所帮助;关于文章的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>