首页 > 文章 > python教程

Python多线程爬虫教程\_threading实战详解

时间：2026-01-13 19:21:49 357浏览收藏

大家好，今天本人给大家带来文章《Python多线程爬虫教程\_threading实战详解》，文中内容主要涉及到，如果你对文章方面的知识点感兴趣，那就请各位朋友继续看下去吧~希望能真正帮到你们，谢谢！

Python多线程爬虫应采用Queue+threading.Thread的生产者-消费者模型，合理控制并发数、加锁保护共享资源、添加延时与异常处理，避免被封；I/O密集型任务适用，CPU密集型则选multiprocessing。

Python多线程爬虫怎么写_threading实战说明【教程】

Python多线程爬虫不是靠开一堆线程硬怼，而是用 threading 控制并发节奏，避免被封、减少等待、提升整体抓取效率。关键在合理复用线程、加锁保护共享资源、控制请求频率。

用 Queue + threading.Thread 做任务分发

手动管理线程数量比直接 start() 一堆线程更稳妥。推荐搭配 queue.Queue 实现生产者-消费者模型：

主线程把待爬 URL 放进队列（生产者）
多个工作线程从队列取 URL 并请求（消费者），处理完自动取下一个
队列自带线程安全，不用额外加锁

示例片段：

import threading
import queue
import requests
<p>url_queue = queue.Queue()
results = []</p><p>def worker():
while True:
url = url_queue.get()
if url is None:  # 退出信号
break
try:
resp = requests.get(url, timeout=5)
results.append((url, resp.status_code))
except Exception as e:
results.append((url, f"error: {e}"))
url_queue.task_done()  # 标记完成</p><h1>启动 4 个线程</h1><p>threads = []
for _ in range(4):
t = threading.Thread(target=worker)
t.start()
threads.append(t)</p><h1>添加任务</h1><p>for u in ["<a target='_blank'  href='https://www.17golang.com/gourl/?redirect=MDAwMDAwMDAwML57hpSHp6VpkrqbYLx2eayza4KafaOkbLS3zqSBrJvPsa5_0Ia6sWuR4Juaq6t9nq5roGCUgXuytMyerpV6iZXHe3vUmsyZr5vTk6a8eYanvpGjpn2MhqKu3LOijnmMlbN4cpSSt89pkqp5qLBkep6yo6Nkf42hpLLdyqKBrIXRsot-lpHdz3Y' rel='nofollow'>https://httpbin.org/delay/1</a>", "<a target='_blank'  href='https://www.17golang.com/gourl/?redirect=MDAwMDAwMDAwML57hpSHp6VpkrqbYLx2eayza4KafaOkbLS3zqSBrJvPsa5_0Ia6sWuR4Juaq6t9nq5roGCUgXuytMyerpV6iZXHe3vUmsyZr5vTk6a8eYanvpGjpn2ihqKu3LOijnmMlbN4cpSSt89pkqp5qLBkep6yo6Nkf42hpLLdyqKBrIXRsot-lpHdz3Y' rel='nofollow'>https://httpbin.org/delay/2</a>"]:
url_queue.put(u)</p><p>url_queue.join()  # 等所有任务完成</p><h1>发送退出信号</h1><p>for _ in threads:
url_queue.put(None)
for t in threads:
t.join()
</p>

共享数据要加锁，别让线程抢着写

像写文件、更新全局列表、计数器这类操作，多个线程同时执行会出错（比如少记一次、覆盖数据）。必须用 threading.Lock：

定义一个 lock 对象： lock = threading.Lock()
写共享变量前调用 lock.acquire()，写完立刻 lock.release()
更安全写法是用 with lock: 语句，自动释放

例如保存结果到 CSV 文件时：

import csv
lock = threading.Lock()
<p>def save_to_csv(url, status):
with lock:  # 确保同一时间只有一个线程在写
with open("log.csv", "a", newline="") as f:
writer = csv.writer(f)
writer.writerow([url, status])
</p>

别忘加延时和异常兜底，否则容易被反爬

多线程不等于“越快越好”。高频请求会触发目标网站的频率限制或验证码：

每个线程内请求后加 time.sleep(0.5)（根据目标调整）
统一捕获 requests.exceptions.RequestException，避免单个失败导致线程退出
设置合理的 timeout，防止某个 URL 卡死整个线程
考虑加 User-Agent 轮换、Session 复用，进一步降低被识别风险

什么时候别用 threading？

纯 CPU 密集型任务（如解析大量 JSON、计算哈希）用 threading 效果差，因为 CPython 有 GIL；此时应选 multiprocessing。而爬虫本质是 I/O 密集型，threading 正合适——等响应时线程挂起，CPU 可切去干别的。

如果需要更高并发或更优雅的协程支持，可后续升级到 asyncio + aiohttp，但 threading 入门快、逻辑直白，适合中小规模稳定采集。

以上就是《Python多线程爬虫教程\_threading实战详解》的详细内容，更多关于的资料请关注golang学习网公众号！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载