首页 > 文章 > python教程

Python爬虫保存网页源码及本地存储方法

时间：2026-04-03 11:33:21 356浏览收藏

本文深入解析了Python爬虫保存网页源码时的四大核心痛点：因JavaScript动态渲染导致requests获取的内容与浏览器显示不一致、编码识别错误引发的乱码问题、BeautifulSoup解析后丢失script/style等关键标签、以及文件名非法字符和路径过长导致的保存失败；文章强调“完整保存”的本质是兼顾原始性与兼容性，给出从规避JS限制、手动解码response.content、安全写入文件到规范化文件命名的一整套轻量实用方案，帮开发者绕过常见陷阱，真正实现稳定可靠的网页本地存档。

Python爬虫如何保存完整网页_获取HTML源代码并进行本地持久化

requests.get() 返回的 response.text 为什么和浏览器看到的不一样

多数时候不是代码错了，而是网页用了 JavaScript 渲染。requests 只拿原始 HTML，不执行 JS，所以 response.text 里可能没有你想要的正文、列表或按钮——它们是后来用 fetch() 或 axios 加载的。

实操建议：

先用浏览器开发者工具（Network → HTML 请求）确认：目标内容是否在初始 HTML 里？如果不是，requests 就不够用
若必须等 JS 执行，换 selenium 或 playwright；但注意启动慢、内存高、容易被反爬识别
如果只是 AJAX 接口返回的数据，直接抓那个 XHR 请求的 URL，用 requests.get() 调它更轻量

保存 HTML 时 encode/decode 错误导致乱码或报错

中文网页常见 charset=utf-8 声明在标签里，但 requests 不会自动按这个解码——它默认用响应头里的 Content-Type，而很多服务器压根不写或写错。

实操建议：

别依赖 response.text，改用 response.content（原始字节），再手动 decode：
```
html = response.content.decode('utf-8', errors='ignore')
```

想自动探测编码，装 chardet：

import chardet<br>encoding = chardet.detect(response.content)['encoding'] or 'utf-8'<br>html = response.content.decode(encoding, errors='replace')

写入文件时显式指定 encoding：
```
with open('page.html', 'w', encoding='utf-8') as f:<br>    f.write(html)
```
，否则 Windows 上默认用 cp1252，一写中文就崩

用 BeautifulSoup 解析后保存，结果丢失 script/style 或注释

BeautifulSoup 默认只保留“有意义”的标签结构，


    
      
        资料下载
      
      
        
          
            
          
          
            
              编程学习资料下载
            
            
              精选 编程（Golang、Python、Java、C++、JavaScript等） 教程、电子书与示例源码，一键打包本地下载学习。
            
            
              立即下载
            
          
        
      
    
         
     
      
        相关阅读
        更多>
      
      
                
          
                                  文章 ·
                                python教程
                          |  2年前  |  
                                       高效开发
                                                 Flask框架
                                                 安装技巧
                      
          Flask框架安装技巧：让你的开发更高效
          
            501
            收藏
          
        
                
          
                                  文章 ·
                                python教程
                          |  2年前  |  
                                       Django
                                                 技巧
                                                 多线程
                      
          Django框架中的并发处理技巧
          
            501
            收藏
          
        
                
          
                                  文章 ·
                                python教程
                          |  2年前  |  
                                       下载速度
                                                 pip源配置
                                                 国内源
                      
          提升Python包下载速度的方法——正确配置pip的国内源
          
            501
            收藏
          
        
                
          
                                  文章 ·
                                python教程
                          |  2年前  |  
                                       Python
                                                 C++
                                                 选择
                      
          Python与C++：哪个编程语言更适合初学者？
          
            501
            收藏
          
        
                
          
                                  文章 ·
                                python教程
                          |  2年前  |  
            
          品牌建设技巧
          
            501
            收藏
          
        
              
    
         
      
          
              最新阅读
              更多>
          
          
                            
                  
                                            文章 ·
                                            python教程
                                              |  1小时前  |  
                      
                  Python特征生成是什么？
                  
                      224
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  2小时前  |  
                      
                  列表最多元素怎么找？
                  
                      399
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  2小时前  |  
                      
                  Python 异常信息优化技巧与排错方法
                  
                      126
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  3小时前  |  
                      
                  Python如何处理404与500错误页面
                  
                      294
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  3小时前  |  
                      
                  Python三角函数实战应用教程
                  
                      458
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  3小时前  |  
                      
                  Scikit-learn交叉验证方法与cross_val_score应用
                  
                      440
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  3小时前  |  
                                            Python
                                            控制语句
                      
                  Python条件与循环语句详解
                  
                      228
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  4小时前  |  
                      
                  时间序列预测实现教程详解
                  
                      164
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  4小时前  |  
                      
                  二叉树常见类型有哪些？
                  
                      329
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  4小时前  |  
                      
                  Python解决SettingWithCopyWarning：loc赋值正确方法
                  
                      303
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  4小时前  |  
                      
                  Python正则表达式教程：匹配与替换技巧
                  
                      448
                      收藏
                  
              
                            
                  
                                            文章 ·
                                            python教程
                                              |  5小时前  |  
                      
                  Python多属性排序技巧：itemgetter使用详解
                  
                      336
                      收藏
                  
              
                        
      
    
    
      
        课程推荐
        更多>
      
      
                
          
            
                      
          
            
              前端进阶之JavaScript设计模式            
            设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。
            
              立即学习
              543次学习
            
          
        
                
          
            
                      
          
            
              GO语言核心编程课程            
            本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。
            
              立即学习
              516次学习
            
          
        
                
          
            
                      
          
            
              简单聊聊mysql8与网络通信            
            如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让
            
              立即学习
              500次学习
            
          
        
                
          
            
                      
          
            
              JavaScript正则表达式基础与实战            
            在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
            
              立即学习
              487次学习
            
          
        
                
          
            
                      
          
            
              从零制作响应式网站—Grid布局            
            本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。
            
              立即学习
              485次学习