登录
首页 >  文章 >  前端

HTML中,robots元标签可以用来控制搜索引擎对页面的抓取和索引行为。其中 noindex 和 nofollow 是两个常用的指令,它们可以组合使用,以更精确地控制页面的收录行为。一、基本概念1. noindex作用:告诉搜索引擎不要将该页面收录到搜索结果中。示例:2. nofollow作用:告诉搜索引擎不要追踪页面上

时间:2026-05-16 13:58:42 488浏览 收藏

HTML中的robots元标签是控制搜索引擎抓取与索引行为的关键工具,其中noindex和nofollow虽常被组合使用,但作用截然不同:noindex决定页面是否进入搜索结果,nofollow则影响页面内链接的权重传递;最稳妥的“彻底隐身”方案是严格按规范书写并部署noindex,nofollow(小写、逗号分隔、无空格、置于head内且不被JS或HTTP头干扰),但需注意它无法完全阻止外部链接导致的“幽灵收录”,真正实现页面从搜索结果中消失往往还需配合X-Robots-Tag响应头、robots.txt屏蔽及Search Console主动移除等多重措施——忽视细节,哪怕只错一个空格或放错位置,都可能让精心设置的隐私或临时页面意外暴露在搜索结果中。

怎么通过HTML的robots noindex和nofollow组合精确控制页面的收录行为

直接说结论:noindex,nofollow 是最稳妥的“彻底隐身”组合,但必须确保它写对、放对位置、且不被其他机制抵消——否则页面仍可能出现在搜索结果中,哪怕没内容。

noindex 和 nofollow 的作用根本不同,不能互相替代

很多人以为加了 rel="nofollow" 在导航链接上,就能让后台页不被收录,这是错的。rel="nofollow" 只影响那个链接本身是否被爬虫跟踪,对当前页面是否被索引毫无关系。真正决定“这页要不要进搜索结果”的,只有 meta name="robots" 里的 noindex

常见错误现象:

  • 页面加了 rel="nofollow" 到「用户中心」链接,但该页 HTML 里没加 noindex → 页面仍被收录
  • 用 JS 动态插入 → 爬虫基本看不到,等于没加
  • robots.txt 里屏蔽 /admin/ 路径,但外部网站链向了 /admin/login.html → 搜索结果里只显示 URL,无标题无摘要(即“幽灵收录”)

content 值必须严格小写、逗号分隔、无空格

写成 noIndexno-indexnoindex nofollow(空格)或 "noindex, nofollow"(逗号后带空格),都会导致整个 content 值被爬虫忽略——浏览器不报错,但搜索引擎当它不存在。

正确写法只有一种:

关键细节:

  • 必须放在 内,且要在首次渲染前加载(即不能靠 JS 注入)
  • 只对当前 HTML 文件生效,/admin/ 下每个页面都得单独加
  • 如果页面返回 HTTP 状态码是 404503,部分爬虫会直接忽略 noindex 指令
  • none 是合法简写,等价于 noindex,nofollow,但可读性差,不建议用

什么时候该用 noindex,follow?慎用

noindex,follow 表示“别收这页,但请顺着它里面的链接继续爬”。这适合某些中转页,比如搜索结果页、带筛选参数的列表页,你不想它们被收录(避免重复内容),但希望爬虫能发现真实商品页。

但要注意风险:

  • 如果这个页面上有大量低质或临时链接(如用户生成的跳转链接、过期活动页),follow 会把爬虫引向垃圾路径
  • Google 明确建议:若页面本身 noindex,又没特别理由传递权重,就统一用 noindex,nofollow
  • 不要和 rel="nofollow" 混用搞“双重保险”——metafollow 控制全页链接,rel 控制单个链接,逻辑冲突时以 meta 为准

比 meta 标签更优先的是 X-Robots-Tag HTTP 头

如果你能控制服务器响应头,用 X-Robots-Tag: noindex, nofollow 比 HTML meta 更可靠。它不依赖 HTML 解析,对 PDF、图片等非 HTML 资源也有效,且优先级高于 meta 标签。

适用场景:

  • 整站某类路径(如 /api//preview/)需要统一屏蔽
  • 动态生成的页面(如 Next.js 的 SSR 页面)无法稳定保证 meta 出现在 首位
  • 想屏蔽已返回 200 的错误调试页,但又不想改 HTML 源码

注意:X-Robots-Tag 同样要求值为小写、逗号分隔、无空格;且不能和 meta 冲突使用——两者都设了,以响应头为准。

最容易被忽略的一点:即使你加了 noindex,nofollow,只要还有外部高权重网站链向这个页面,它仍可能以“仅 URL”形式出现在搜索结果里。真要彻底消失,得配合 robots.txt 屏蔽 + 主动在 Search Console 中请求移除(针对已收录页面)。

今天带大家了解了的相关知识,希望对你有所帮助;关于文章的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>