python爬虫之连接mysql
来源:SegmentFault
时间:2023-01-14 15:53:50 471浏览 收藏
本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《python爬虫之连接mysql》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~
准备工作
- 运行本地数据库服务器
mysql -u root -p
- 安装pymysql
pip install pymysql
建表
CREATE DATABASE crawls; // show databases; use db; CREATE TABLE IF NOT EXISTS baiduNews(' 'id INT PRIMARY KEY NOT NULL AUTO_INCREMENT,' 'ranking VARCHAR(30),' 'title VARCHAR(60),' 'datetime TIMESTAMP,' 'hot VARCHAR(30)); // show tables;
pymysql连接数据库
db = pymysql.connect(host='localhost', port=3306, user='root', passwd='123456', db='crawls', charset='utf8') cursor = db.cursor() cursor.execute(sql_query) db.commit()
用python操作mysql还是比较简单的,如果有一点数据库基础的话,可以直接上手,最后一定不要忘了写commit提交,不然数据只是缓存,存不到数据库里
完整示例
爬取百度上最热的几个新闻标题,并存储到数据库,太懒了没写注释-_- (确保本地mysql服务器已经打开)
''' Get the hottest news title on baidu page, then save these data into mysql ''' import datetime import pymysql from pyquery import PyQuery as pq import requests from requests.exceptions import ConnectionError URL = 'https://wappass.baidu.com/static/captcha/tuxing.html?&logid=11151228204422475442&ak=c27bbc89afca0463650ac9bde68ebe06&backurl=https%3A%2F%2Fwww.baidu.com%2Fs%3Fwd%3D%25E7%2583%25AD%25E7%2582%25B9&ext=x9G9QDmMXq%2FNo87gjGO0P4duDYWmTLah%2FsWlJ%2B%2Fs0zRWkhrGqVqihBVl6ZY8QtPHeUkK%2FLSi82sM2wFm%2BXofRA8QipFbArBY11xRs2OUQOCyuRtUIETqejFhi48WwtWcZaw2FQi2OfC72W%2FW5HwRPw%3D%3D&signature=86adae7de4d91d6adc7c4689b7348af3×tamp=1673119049' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36', 'Upgrade-Insecure-Requests': '1' } def get_html(url): try: response = requests.get(url, headers=headers) if response.status_code == 200: return response.text return None except ConnectionError as e: print(e.args) return None def parse_html(html): doc = pq(html) trs = doc('.FYB_RD table.c-table tr').items() for tr in trs: index = tr('td:nth-child(1) span.c-index').text() title = tr('td:nth-child(1) span a').text() hot = tr('td:nth-child(2)').text().strip('"') yield { 'index':index, 'title':title, 'hot':hot } def save_to_mysql(items): try: db = pymysql.connect(host='localhost', port=3306, user='root', passwd='123456', db='crawls', charset='utf8') cursor = db.cursor() cursor.execute('use crawls;') cursor.execute('CREATE TABLE IF NOT EXISTS baiduNews(' 'id INT PRIMARY KEY NOT NULL AUTO_INCREMENT,' 'ranking VARCHAR(30),' 'title VARCHAR(60),' 'datetime TIMESTAMP,' 'hot VARCHAR(30));') try: for item in items: print(item) now = datetime.datetime.now() now = now.strftime('%Y-%m-%d %H:%M:%S') sql_query = 'INSERT INTO baiduNews(ranking, title, datetime, hot) VALUES ("%s", "%s", "%s", "%s")' % ( item['index'], item['title'], now, item['hot']) cursor.execute(sql_query) print('Save into mysql') db.commit() except pymysql.MySQLError as e: db.rollback() print(e.args) return except pymysql.MySQLError as e: print(e.args) return def check_mysql(): try: db = pymysql.connect(host='localhost', port=3306, user='root', passwd='123456', db='crawls', charset='utf8') cursor = db.cursor() cursor.execute('use crawls;') sql_query = 'SELECT * FROM baiduNews' results = cursor.execute(sql_query) print(results) except pymysql.MySQLError as e: print(e.args) def main(): html = get_html(URL) items = parse_html(html) save_to_mysql(items) #check_mysql() if __name__ == '__main__': main()
以上就是《python爬虫之连接mysql》的详细内容,更多关于mysql的资料请关注golang学习网公众号!
声明:本文转载于:SegmentFault 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
-
499 收藏
-
244 收藏
-
235 收藏
-
157 收藏
-
101 收藏
最新阅读
更多>
-
184 收藏
-
237 收藏
-
210 收藏
-
192 收藏
-
364 收藏
-
373 收藏
课程推荐
更多>
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习