首页 > 数据库 > MySQL

Python爬虫实战之（二）| 寻找你的招聘信息

来源：SegmentFault

时间：2023-02-24 20:56:39 479浏览收藏

数据库小白一枚，正在不断学习积累知识，现将学习到的知识记录一下，也是将我的所得分享给大家！而今天这篇文章《Python爬虫实战之（二）| 寻找你的招聘信息》带大家来了解一下Python爬虫实战之（二）| 寻找你的招聘信息，希望对大家的知识积累有所帮助，从而弥补自己的不足，助力实战开发！

功能需求分析

主要功能需求如下：

用户输入工作地点和感兴趣的职位信息；
根据指定输入信息进行多线程的网页爬取；
解析提取结构化的招聘信息；
将数据存入指定的数据库；

这里由于篇幅和时间原因，功能并没有那么复杂，但是博主会在后续加入更加丰富的功能，并与大家分享，包括：

ip池的加入;
爬取和解析效率的优化；
对爬取数据进行数据分析，提供可视化的统计和简单预测；
其它反爬功能;

功能实现分析

明白了要完成的任务，就需要开始分析我们的目标网站了。

1.网页爬取分析

打开智联招聘的搜索界面，输入 “

爬虫

” 二字为例，如下：

然后我们通过fiddler抓包工具抓取浏览器操作时的信息如下：

职位信息输入后看到这个请求是
```
GET
```
模式，
```
GET
```
请求的链接是
http://sou.zhaopin.com/jobs/s...
浏览器发出请求的
```
headers
```
头信息，copy到代码
```
headers
```
中。

由于浏览器正常操作下是通过点击“搜索按钮”或者“回车”来进行职位搜索的，而我们并不希望使用浏览器内核webdriver的使用来解决此问题。

因此，

思路是：我们需要从发出的GET请求的URL进行分析。

在浏览器中显示的URL是这样子的，有汉字。

“
```
北京
```
” 和 “
```
爬虫
```
” 关键词都以汉字形式显示。感觉这和上面蓝色的链接差不多一样啊！没错，上面的URL是北京和爬虫关键字进行
```
编码之后
```
的样子，而我们向服务器提交的正是上面那个编码之后的URL。
后面
```
“p=1”
```
的意思是第一页，
```
“adv=0”
```
经其它数字测试后没有影响，固不做改变。

好了，捋明白了。我们需要做的其实就是将我们输入的关键词汉字进行编码，然后替换掉上面蓝色URL的lj=“”和kw=“”中的内容，再用这个新的URL发出请求就OK了。

2.网页解析分析

这是浏览器搜索之后得到的结果，从招聘信息中我们希望得到一些有用的信息。博主这里定义了五个字段信息：

职位名称、反馈率、公司名称、职位月薪、工作地点

。这些信息关系到你如何创建数据库表单，后面会提到。

这里博主决定使用

BeautifulSoup

方法解决网页的解析，那么先用F12 element看看网页的结构再说。

博主经分析后发现，其它四个信息提取方式都是一样的，但是

工作名称

的标签结构是有所不同的，为什么呢？

来，先看一条数据的标签，它是这样的：

再看，另一条数据的标签，是这样的：

发现有什么不同了吗？

第一个工作名称的标签里有，而第二个标签里什么都没有。

看看上面这两个名称不难发现，导致这个问题的原因其实是

关键字

的存在（第一个标签中有红色关键字）。

而又想到，我们正常搜索的时候一般不会输入完整的工作名称，比如我只输入 “

爬虫

” 二字，由于可能存在以上关键字的问题，那么标签的结果就会不同。因此，我们需要在代码解析的时候进行特殊处理，下面进行代码实现分析。

代码实现分析

由于需要将解析后的数据存入数据库，因此需要先在命令窗口创建一个数据库（也可以在Python中完成），这里简单提一下所需的操作。

使用了
```
MySQL
```
数据库进行储存
数据库表单包含了之前提到的五个字段信息

下面是具体代码的实现。

1.URL的重组实现

使用了
```
property
```
修饰器定了函数来接收用户信息
将输入信息用
```
quote
```
进行编码重组，生成爬取所需的目标URL

2.html下载

将重新生成的URL放入函数中进行html的下载。

3.html解析

使用
```
BeautifulSoup
```
和
```
正则表达式
```
从网页解析五个字段信息。

4. 储存解析数据

以上是代码的核心内容，完整源码博主已经上传到

Github

上了，可供参考，链接https://github.com/xiaoyusmd/...

总结

本篇分享了一个从智联招聘网站爬取工作信息的实战内容，完成了需求的基本功能。
在此实战内容基础上，更多复杂和精彩功能会在后续陆续分享

欢迎关注微信公众号Python数据科学。

文中关于mysql的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《Python爬虫实战之（二）| 寻找你的招聘信息》文章吧，也可关注golang学习网公众号了解相关技术文章。

mysql MySQL python3.x python爬虫 beautifulsoup

声明：本文转载于：SegmentFault 如有侵犯，请联系study_golang@163.com删除