登录
推荐 文章 Go 技术 课程 下载 专题 AI
首页 >  文章 >  软件教程

Python爬虫实战:轻松抓取糗事百科热门内容

时间:2025-05-22 08:18:06 307浏览 收藏

标题:Python爬虫实战:轻松抓取糗事百科 内容摘要:本文介绍了如何使用Python编写爬虫程序来抓取糗事百科的内容。文章详细讲解了从查看糗事百科的URL开始,到设置User-Agent、发送请求、获取返回数据,再到使用正则表达式匹配具体内容的整个过程。通过实际代码示例,读者可以轻松理解和掌握Python爬虫的基本操作和应用。

刚开始学习python爬虫,写了一个简单python程序爬取糗事百科。

具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4959489,可以发现page后的数据代表第几页。

然后装配request,注意要设置user_agent

代码语言:javascript代码运行次数:0运行复制
1 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'2 headers = {'User-Agent': user_agent}3 request=urllib2.Request(url,headers=headers)4 response=urllib2.urlopen(request)

然后获取返回的数据

代码语言:javascript代码运行次数:0运行复制
content=response.read().decode('utf-8')

然后是关键,使用正则匹配出所有的具体内容。这里可以使用浏览器的检查功能查看页面结构,写出相对应的正则式,比如我们对下面的

...
进行匹配的正则式如下代码语言:javascript代码运行次数:0运行复制
pattern=re.compile('
....(.*?)...
',re.S)

(.*?)   :表示组,该部分为一个整体,将该部分匹配到字符串作为返回值返回,findall表示找到所有匹配的字符串,以序列的形式返回

参数re.S表示"."点号匹配所有字符包括换行

python网络爬虫--简单爬取糗事百科

下面是完整代码

代码语言:javascript代码运行次数:0运行复制
 1 import urllib 2 import urllib2 3 import re 4 import time 5  6 page=2 7 f=open("D:\qiushi.txt","r+") 8 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 9 headers = {'User-Agent': user_agent}10 while page....(.*?)...',re.S)20         items=re.findall(pattern,content)21         f.write((url+"\n").encode('utf-8'))22         for item in items:23             print "------"24             item=item+"\n"25             print item26             f.write("------\n".encode('utf-8'))27             f.write(item.replace('
','\n').encode('utf-8'))28 except urllib2.URLError,e:29 if hasattr(e,"code"):30 print e.code31 if hasattr(e,"reason"):32 print e.reason33 finally:34 page+=135 time.sleep(1)

这里我是将找到的输出到d盘下的qiushi.txt文件

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于文章的相关知识,也可关注golang学习网公众号。

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>