登录
首页 >  文章 >  python教程

Python抓取今日头条热搜榜教程

时间:2026-05-09 20:40:09 494浏览 收藏

本文手把手教你如何用Python高效抓取今日头条热搜榜——避开渲染陷阱,精准定位真实Ajax接口(如hot-board),详解如何通过浏览器开发者工具捕获关键请求头(Referer、User-Agent)和必需Cookie(尤其是tt_webid),解决requests直接请求返回空或403的常见反爬问题;同时覆盖JSON结构动态变化下的稳健解析技巧(安全取值、广告过滤、多字段fallback),并提醒采集频率与稳定性实操要点,助你快速落地一个轻量、可靠、可维护的热搜数据采集脚本。

如何用Python实现自动采集今日头条热搜榜_分析Ajax请求获取JSON数据

怎么找到今日头条热搜榜的真实Ajax接口

今日头条网页版的热搜榜数据不是直接渲染在HTML里的,而是通过前端JavaScript发起Ajax请求加载的JSON。关键是要定位到那个带hot_searchsearch_hot字样的请求——它通常出现在Network面板的XHR分类下,且响应体是标准JSON格式。

实操建议:

  • 打开 https://www.toutiao.com/hotnews/,F12 → Network → XHR,刷新页面,筛选出含 hotsearch 的请求
  • 重点关注请求URL中带 https://www.toutiao.com/hotboard/https://www.toutiao.com/api/pc/hot/ 的条目
  • 点开查看Headers里的RefererUser-Agent,这两个字段多数时候必须携带,否则返回403或空数据
  • 注意响应里是否有data字段嵌套多层,常见结构是 data.data.listdata.data

为什么用requests直接请求会返回空或报错

因为今日头条服务端做了基础反爬:校验RefererUser-Agent,还可能校验X-Requested-With(标示AJAX请求)和Cookie中的tt_webidtt_webid_ss。缺一不可,尤其tt_webid过期会导致返回{"message":"invalid param"}这类错误。

实操建议:

  • 先手动访问一次 https://www.toutiao.com/hotnews/,复制浏览器当前请求的完整Headers(尤其是Cookie整段)
  • 在Python中用requests.get(url, headers=headers, timeout=5),别漏掉timeout,避免卡死
  • 如果返回状态码是200但json().get("data")None,大概率是Cookie失效,需重新抓包更新
  • 不建议用Selenium模拟浏览器——太重,纯requests加合理headers足够稳定

如何解析返回的JSON并提取热搜标题和热度值

真实响应结构经常变,目前(2024年中)主流接口返回的是一个data数组,每个元素含titlehot_valuerank等字段,但hot_value可能是字符串或数字,且部分条目含广告标记(is_adTrue)。

实操建议:

  • 先用print(json.dumps(res.json(), indent=2, ensure_ascii=False))看一眼原始结构,别硬猜
  • 安全提取用item.get("title", "")而非item["title"],防止KeyError
  • 热度值优先取item.get("hot_value"),若为空再 fallback 到item.get("score")item.get("view_count")
  • 过滤广告项:if not item.get("is_ad"),避免把“推广”类内容当真实热搜

采集频率和稳定性要注意什么

该接口没有公开限流策略,但高频请求(如间隔503 Service Temporarily Unavailable。另外,接口本身有缓存,每5–10分钟才更新一次,没必要高频刷。

实操建议:

  • 生产环境建议最低间隔设为300秒(5分钟),用time.sleep(300)控制节奏
  • 加异常兜底:捕获requests.exceptions.RequestExceptionjson.JSONDecodeError,记录日志后跳过本次
  • 不要依赖单个接口URL,留一两个备用地址(比如/api/pc/hot//hotboard/),响应失败时自动切换
  • 每次成功采集后,把timestamplen(data)写入本地文件,方便后续查是否突然归零——那是接口又改了

真正麻烦的不是写代码,而是接口字段名和嵌套层级哪天突然变了,而错误响应又不报具体原因。所以每次跑之前,先手动能否curl通,比什么都靠谱。

文中关于的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Python抓取今日头条热搜榜教程》文章吧,也可关注golang学习网公众号了解相关技术文章。

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>