首页 > 文章 > java教程

如何通过 URLConnection 读取网页的 HTML 源代码

时间：2026-05-04 12:30:51 263浏览收藏

一分耕耘，一分收获！既然都打开这篇《如何通过 URLConnection 读取网页的 HTML 源代码》，就坚持看下去，学下去吧！本文主要会给大家讲到等等知识点，如果大家对本文有好的建议或者看到有不足之处，非常欢迎大家积极提出！在后续文章我会继续更新文章相关的内容，希望对大家都有所帮助！

必须转型为HttpURLConnection才能发HTTP请求，因其是抽象类，不提供setRequestMethod等HTTP特有方法；需设超时、显式指定UTF-8编码、关闭自动重定向并手动处理状态码与重定向。

必须转型为 `HttpURLConnection` 才能发 HTTP 请求

URLConnection 是抽象类，不提供 setRequestMethod、getResponseCode、setRequestProperty 等 HTTP 特有方法。直接用它调 getInputStream()，遇到重定向、403、gzip 压缩时大概率抛 IOException 或返回空内容。

常见错误现象：

调 setRequestMethod("GET") 无反应，或直接抛 IllegalStateException
把 404、500 当作成功响应读取，结果拿到错误页 HTML 甚至空白
没设 User-Agent，被 GitHub、知乎等站点直接返回 403 Forbidden

正确做法是强制转型：HttpURLConnection connection = (HttpURLConnection) url.openConnection();

`setConnectTimeout` 和 `setReadTimeout` 不是可选配置

默认超时是无限等待。网络抖动、DNS 解析慢、服务器假死都会让线程卡死，尤其在 Android 上可能触发 ANR。

建议值：

setConnectTimeout(8000)：TCP 连接建立上限，低于 3000 容易误判正常波动
setReadTimeout(8000)：单次 read() 阻塞上限，不是整个响应读取总耗时
服务端批量采集可放宽到 15–30 秒，但必须配合重试逻辑

字符编码必须显式指定，不能靠系统默认

InputStreamReader 不会自动解析响应头里的 charset=utf-8。用 new InputStreamReader(conn.getInputStream()) 相当于用平台默认编码（Windows 是 GBK，Linux/macOS 是 UTF-8），一读中文就乱码。

稳妥做法：