✅ 核心思路:DOM 预处理 + X-ray 后解析
借助 jsdom 构建内存 DOM,遍历所有
,将其及后续连续非- 兄弟节点(如 、)动态包裹进新 中。这样就把线性结构转化为多个具备明确父子关系的块级容器,X-ray 即可自然地对每个 执行对象映射。以下是完整、健壮的实现方案(含错误处理与空值兼容):
const { JSDOM } = require('jsdom');
const xray = require('x-ray')();
// 自定义 trim 过滤器(X-ray 默认不内置)
xray.filters({
trim: (value) => typeof value === 'string' ? value.trim() : value
});
async function parseNonNestedSections(html, url = '') {
const dom = new JSDOM(html);
const doc = dom.window.document;
// 步骤1:定位所有 h2,并按逻辑分组包裹
const h2s = doc.querySelectorAll('article h2'); // 限定在 article 内更安全
if (h2s.length === 0) return { pageTitle: '', sections: [] };
// 创建临时根容器,避免污染 body
const wrapper = doc.createElement('div');
wrapper.innerHTML = doc.querySelector('article').innerHTML;
// 重置 wrapper 内部引用
const h2List = wrapper.querySelectorAll('h2');
for (let i = 0; i < h2List.length; i++) {
const h2 = h2List[i];
const sectionDiv = doc.createElement('section'); // 语义化标签更佳
// 移动 h2 到新 section
sectionDiv.appendChild(h2);
// 收集后续同级节点,直到下一个 h2 或 null
let next = h2.nextElementSibling;
while (next && next.tagName !== 'H2') {
const toMove = next;
next = next.nextElementSibling;
sectionDiv.appendChild(toMove);
}
// 插入到 wrapper 中原位置(保持顺序)
h2.parentNode.insertBefore(sectionDiv, h2);
h2.remove(); // 清理已移动的 h2
}
// 步骤2:用 X-ray 解析预处理后的 HTML
const processedHtml = wrapper.innerHTML;
return new Promise((resolve, reject) => {
xray(processedHtml, {
pageTitle: 'h1 | trim',
sections: xray('section', [{
subtitle: 'h3 | trim',
elements: xray('ul li', ['| trim']) // 返回字符串数组,自动过滤空值
}])
})((err, result) => {
if (err) return reject(err);
// 确保 elements 始终为数组(即使 ul 不存在)
result.sections = result.sections.map(sec => ({
subtitle: sec.subtitle || undefined,
elements: Array.isArray(sec.elements) ? sec.elements : []
}));
resolve(result);
});
});
}
// 使用示例
const sampleHtml = `
<h1>Page title</h1>
<article>
<h2 id="first">Title 1</h2>
<h3>Subtitle 1</h3>
<ul><li>Element 1</li><li>Element 2</li><li>Element 3</li></ul>
<h2 id="second">Title 2</h2>
<h3>Subtitle 2</h3>
<h2 id="third">Title 3</h2>
<h3>Subtitle 3</h3>
<ul><li>Element 1</li><li>Element 2</li><li>Element 3</li></ul>
</article>
`;
parseNonNestedSections(sampleHtml)
.then(console.log)
.catch(console.error);? 关键注意事项:
- ✅ 务必限定作用域:querySelectorAll('article h2') 而非全页 h2,避免误包其他区域标题;
- ✅ 使用 section 替代 div:提升语义清晰度,且不影响 X-ray 解析;
- ✅ 显式处理空值:subtitle 可能为 undefined(当某节无
),elements 统一归一化为 [];
- ⚠️ 性能提示:对超大页面,频繁 DOM 操作可能有开销;若需高吞吐,建议切换至 Puppeteer 或 Cheerio + 手动遍历;
- ? 扩展性友好:该模式可轻松适配
+
+
等混合结构,只需调整 sectionDiv.appendChild(...) 的条件逻辑。此方案在保留 X-ray 声明式优势的同时,以最小侵入性补足了其对线性语义结构的解析短板,是生产环境中兼顾可读性、可维护性与可靠性的推荐实践。
理论要掌握,实操不能落!以上关于《X-ray解析HTML为对象数组技巧》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!
相关阅读
更多>
-
502
收藏
-
501
收藏
-
501
收藏
-
501
收藏
-
501
收藏
最新阅读
更多>
-
410
收藏
-
142
收藏
-
483
收藏
-
390
收藏
-
108
收藏
-
325
收藏
-
487
收藏
-
335
收藏
-
100
收藏
-
239
收藏
-
493
收藏
-
349
收藏
课程推荐
更多>
-
-
前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
-
立即学习
543次学习
-
-
GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
-
立即学习
516次学习
-
-
简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
-
立即学习
500次学习
-
-
JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
-
立即学习
487次学习
-
-
从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
-
立即学习
485次学习
、)动态包裹进新 中。这样就把线性结构转化为多个具备明确父子关系的块级容器,X-ray 即可自然地对每个 执行对象映射。以下是完整、健壮的实现方案(含错误处理与空值兼容):
const { JSDOM } = require('jsdom');
const xray = require('x-ray')();
// 自定义 trim 过滤器(X-ray 默认不内置)
xray.filters({
trim: (value) => typeof value === 'string' ? value.trim() : value
});
async function parseNonNestedSections(html, url = '') {
const dom = new JSDOM(html);
const doc = dom.window.document;
// 步骤1:定位所有 h2,并按逻辑分组包裹
const h2s = doc.querySelectorAll('article h2'); // 限定在 article 内更安全
if (h2s.length === 0) return { pageTitle: '', sections: [] };
// 创建临时根容器,避免污染 body
const wrapper = doc.createElement('div');
wrapper.innerHTML = doc.querySelector('article').innerHTML;
// 重置 wrapper 内部引用
const h2List = wrapper.querySelectorAll('h2');
for (let i = 0; i < h2List.length; i++) {
const h2 = h2List[i];
const sectionDiv = doc.createElement('section'); // 语义化标签更佳
// 移动 h2 到新 section
sectionDiv.appendChild(h2);
// 收集后续同级节点,直到下一个 h2 或 null
let next = h2.nextElementSibling;
while (next && next.tagName !== 'H2') {
const toMove = next;
next = next.nextElementSibling;
sectionDiv.appendChild(toMove);
}
// 插入到 wrapper 中原位置(保持顺序)
h2.parentNode.insertBefore(sectionDiv, h2);
h2.remove(); // 清理已移动的 h2
}
// 步骤2:用 X-ray 解析预处理后的 HTML
const processedHtml = wrapper.innerHTML;
return new Promise((resolve, reject) => {
xray(processedHtml, {
pageTitle: 'h1 | trim',
sections: xray('section', [{
subtitle: 'h3 | trim',
elements: xray('ul li', ['| trim']) // 返回字符串数组,自动过滤空值
}])
})((err, result) => {
if (err) return reject(err);
// 确保 elements 始终为数组(即使 ul 不存在)
result.sections = result.sections.map(sec => ({
subtitle: sec.subtitle || undefined,
elements: Array.isArray(sec.elements) ? sec.elements : []
}));
resolve(result);
});
});
}
// 使用示例
const sampleHtml = `
<h1>Page title</h1>
<article>
<h2 id="first">Title 1</h2>
<h3>Subtitle 1</h3>
<ul><li>Element 1</li><li>Element 2</li><li>Element 3</li></ul>
<h2 id="second">Title 2</h2>
<h3>Subtitle 2</h3>
<h2 id="third">Title 3</h2>
<h3>Subtitle 3</h3>
<ul><li>Element 1</li><li>Element 2</li><li>Element 3</li></ul>
</article>
`;
parseNonNestedSections(sampleHtml)
.then(console.log)
.catch(console.error);? 关键注意事项:
- ✅ 务必限定作用域:querySelectorAll('article h2') 而非全页 h2,避免误包其他区域标题;
- ✅ 使用 section 替代 div:提升语义清晰度,且不影响 X-ray 解析;
- ✅ 显式处理空值:subtitle 可能为 undefined(当某节无
),elements 统一归一化为 [];
- ⚠️ 性能提示:对超大页面,频繁 DOM 操作可能有开销;若需高吞吐,建议切换至 Puppeteer 或 Cheerio + 手动遍历;
- ? 扩展性友好:该模式可轻松适配
+
+
等混合结构,只需调整 sectionDiv.appendChild(...) 的条件逻辑。此方案在保留 X-ray 声明式优势的同时,以最小侵入性补足了其对线性语义结构的解析短板,是生产环境中兼顾可读性、可维护性与可靠性的推荐实践。
理论要掌握,实操不能落!以上关于《X-ray解析HTML为对象数组技巧》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!
相关阅读
更多>
-
502
收藏
-
501
收藏
-
501
收藏
-
501
收藏
-
501
收藏
最新阅读
更多>
-
410
收藏
-
142
收藏
-
483
收藏
-
390
收藏
-
108
收藏
-
325
收藏
-
487
收藏
-
335
收藏
-
100
收藏
-
239
收藏
-
493
收藏
-
349
收藏
课程推荐
更多>
-
-
前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
-
立即学习
543次学习
-
-
GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
-
立即学习
516次学习
-
-
简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
-
立即学习
500次学习
-
-
JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
-
立即学习
487次学习
-
-
从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
-
立即学习
485次学习
中。这样就把线性结构转化为多个具备明确父子关系的块级容器,X-ray 即可自然地对每个
执行对象映射。
以下是完整、健壮的实现方案(含错误处理与空值兼容):
const { JSDOM } = require('jsdom');
const xray = require('x-ray')();
// 自定义 trim 过滤器(X-ray 默认不内置)
xray.filters({
trim: (value) => typeof value === 'string' ? value.trim() : value
});
async function parseNonNestedSections(html, url = '') {
const dom = new JSDOM(html);
const doc = dom.window.document;
// 步骤1:定位所有 h2,并按逻辑分组包裹
const h2s = doc.querySelectorAll('article h2'); // 限定在 article 内更安全
if (h2s.length === 0) return { pageTitle: '', sections: [] };
// 创建临时根容器,避免污染 body
const wrapper = doc.createElement('div');
wrapper.innerHTML = doc.querySelector('article').innerHTML;
// 重置 wrapper 内部引用
const h2List = wrapper.querySelectorAll('h2');
for (let i = 0; i < h2List.length; i++) {
const h2 = h2List[i];
const sectionDiv = doc.createElement('section'); // 语义化标签更佳
// 移动 h2 到新 section
sectionDiv.appendChild(h2);
// 收集后续同级节点,直到下一个 h2 或 null
let next = h2.nextElementSibling;
while (next && next.tagName !== 'H2') {
const toMove = next;
next = next.nextElementSibling;
sectionDiv.appendChild(toMove);
}
// 插入到 wrapper 中原位置(保持顺序)
h2.parentNode.insertBefore(sectionDiv, h2);
h2.remove(); // 清理已移动的 h2
}
// 步骤2:用 X-ray 解析预处理后的 HTML
const processedHtml = wrapper.innerHTML;
return new Promise((resolve, reject) => {
xray(processedHtml, {
pageTitle: 'h1 | trim',
sections: xray('section', [{
subtitle: 'h3 | trim',
elements: xray('ul li', ['| trim']) // 返回字符串数组,自动过滤空值
}])
})((err, result) => {
if (err) return reject(err);
// 确保 elements 始终为数组(即使 ul 不存在)
result.sections = result.sections.map(sec => ({
subtitle: sec.subtitle || undefined,
elements: Array.isArray(sec.elements) ? sec.elements : []
}));
resolve(result);
});
});
}
// 使用示例
const sampleHtml = `
<h1>Page title</h1>
<article>
<h2 id="first">Title 1</h2>
<h3>Subtitle 1</h3>
<ul><li>Element 1</li><li>Element 2</li><li>Element 3</li></ul>
<h2 id="second">Title 2</h2>
<h3>Subtitle 2</h3>
<h2 id="third">Title 3</h2>
<h3>Subtitle 3</h3>
<ul><li>Element 1</li><li>Element 2</li><li>Element 3</li></ul>
</article>
`;
parseNonNestedSections(sampleHtml)
.then(console.log)
.catch(console.error);? 关键注意事项:
- ✅ 务必限定作用域:querySelectorAll('article h2') 而非全页 h2,避免误包其他区域标题;
- ✅ 使用 section 替代 div:提升语义清晰度,且不影响 X-ray 解析;
- ✅ 显式处理空值:subtitle 可能为 undefined(当某节无
),elements 统一归一化为 [];
- ⚠️ 性能提示:对超大页面,频繁 DOM 操作可能有开销;若需高吞吐,建议切换至 Puppeteer 或 Cheerio + 手动遍历;
- ? 扩展性友好:该模式可轻松适配
+
+
等混合结构,只需调整 sectionDiv.appendChild(...) 的条件逻辑。
此方案在保留 X-ray 声明式优势的同时,以最小侵入性补足了其对线性语义结构的解析短板,是生产环境中兼顾可读性、可维护性与可靠性的推荐实践。
理论要掌握,实操不能落!以上关于《X-ray解析HTML为对象数组技巧》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!
相关阅读更多>-
502 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
最新阅读更多>-
410 收藏
-
142 收藏
-
483 收藏
-
390 收藏
-
108 收藏
-
325 收藏
-
487 收藏
-
335 收藏
-
100 收藏
-
239 收藏
-
493 收藏
-
349 收藏
课程推荐更多>-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习
-
