python爬虫之连接mysql
来源:SegmentFault
时间:2023-01-14 15:53:50 471浏览 收藏
本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《python爬虫之连接mysql》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~
准备工作
- 运行本地数据库服务器
mysql -u root -p
- 安装pymysql
pip install pymysql
建表
CREATE DATABASE crawls;
// show databases;
use db;
CREATE TABLE IF NOT EXISTS baiduNews('
'id INT PRIMARY KEY NOT NULL AUTO_INCREMENT,'
'ranking VARCHAR(30),'
'title VARCHAR(60),'
'datetime TIMESTAMP,'
'hot VARCHAR(30));
// show tables;
pymysql连接数据库
db = pymysql.connect(host='localhost', port=3306, user='root', passwd='123456',
db='crawls', charset='utf8')
cursor = db.cursor()
cursor.execute(sql_query)
db.commit()
用python操作mysql还是比较简单的,如果有一点数据库基础的话,可以直接上手,最后一定不要忘了写commit提交,不然数据只是缓存,存不到数据库里
完整示例
爬取百度上最热的几个新闻标题,并存储到数据库,太懒了没写注释-_- (确保本地mysql服务器已经打开)
'''
Get the hottest news title on baidu page,
then save these data into mysql
'''
import datetime
import pymysql
from pyquery import PyQuery as pq
import requests
from requests.exceptions import ConnectionError
URL = 'https://wappass.baidu.com/static/captcha/tuxing.html?&logid=11151228204422475442&ak=c27bbc89afca0463650ac9bde68ebe06&backurl=https%3A%2F%2Fwww.baidu.com%2Fs%3Fwd%3D%25E7%2583%25AD%25E7%2582%25B9&ext=x9G9QDmMXq%2FNo87gjGO0P4duDYWmTLah%2FsWlJ%2B%2Fs0zRWkhrGqVqihBVl6ZY8QtPHeUkK%2FLSi82sM2wFm%2BXofRA8QipFbArBY11xRs2OUQOCyuRtUIETqejFhi48WwtWcZaw2FQi2OfC72W%2FW5HwRPw%3D%3D&signature=86adae7de4d91d6adc7c4689b7348af3×tamp=1673119049'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
'Upgrade-Insecure-Requests': '1'
}
def get_html(url):
try:
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return None
except ConnectionError as e:
print(e.args)
return None
def parse_html(html):
doc = pq(html)
trs = doc('.FYB_RD table.c-table tr').items()
for tr in trs:
index = tr('td:nth-child(1) span.c-index').text()
title = tr('td:nth-child(1) span a').text()
hot = tr('td:nth-child(2)').text().strip('"')
yield {
'index':index,
'title':title,
'hot':hot
}
def save_to_mysql(items):
try:
db = pymysql.connect(host='localhost', port=3306, user='root', passwd='123456',
db='crawls', charset='utf8')
cursor = db.cursor()
cursor.execute('use crawls;')
cursor.execute('CREATE TABLE IF NOT EXISTS baiduNews('
'id INT PRIMARY KEY NOT NULL AUTO_INCREMENT,'
'ranking VARCHAR(30),'
'title VARCHAR(60),'
'datetime TIMESTAMP,'
'hot VARCHAR(30));')
try:
for item in items:
print(item)
now = datetime.datetime.now()
now = now.strftime('%Y-%m-%d %H:%M:%S')
sql_query = 'INSERT INTO baiduNews(ranking, title, datetime, hot) VALUES ("%s", "%s", "%s", "%s")' % (
item['index'], item['title'], now, item['hot'])
cursor.execute(sql_query)
print('Save into mysql')
db.commit()
except pymysql.MySQLError as e:
db.rollback()
print(e.args)
return
except pymysql.MySQLError as e:
print(e.args)
return
def check_mysql():
try:
db = pymysql.connect(host='localhost', port=3306, user='root', passwd='123456',
db='crawls', charset='utf8')
cursor = db.cursor()
cursor.execute('use crawls;')
sql_query = 'SELECT * FROM baiduNews'
results = cursor.execute(sql_query)
print(results)
except pymysql.MySQLError as e:
print(e.args)
def main():
html = get_html(URL)
items = parse_html(html)
save_to_mysql(items)
#check_mysql()
if __name__ == '__main__':
main()以上就是《python爬虫之连接mysql》的详细内容,更多关于mysql的资料请关注golang学习网公众号!
声明:本文转载于:SegmentFault 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
-
499 收藏
-
244 收藏
-
235 收藏
-
157 收藏
-
101 收藏
最新阅读
更多>
-
数据库 · MySQL | 2天前 | 性能优化 · 执行计划 · MySQL教程 · 慢查询治理 · 数据库运维 · mysql GROUP BY优化 TempTable 内部临时表 Created_tmp_disk_tables267 收藏
-
数据库 · MySQL | 2天前 | 性能优化 · InnoDB · MySQL教程 · 数据库运维 · 高并发写入 · mysql innodb 批量写入 Change Buffer innodb_change_buffering270 收藏
-
数据库 · MySQL | 5天前 | 性能优化 · 高并发 · InnoDB · MySQL教程 · 数据库运维 · mysql innodb AUTO_INCREMENT 高并发写入 innodb_autoinc_lock_mode254 收藏
-
数据库 · MySQL | 5天前 | 连接池 · 高并发 · 故障排查 · MySQL教程 · 数据库运维 · mysql 高并发 连接池 max_connections Too many connections491 收藏
-
381 收藏
-
数据库 · MySQL | 6天前 | 性能优化 · InnoDB · 故障排查 · MySQL教程 · DBA实战 · mysql innodb 性能优化 预热 冷启动 MySQL 8.4 Buffer Pool158 收藏
-
数据库 · MySQL | 6天前 | binlog · 故障恢复 · 备份恢复 · MySQL教程 · DBA实战 · mysql DBA binlog 备份恢复 mysqlbinlog MySQL 8.4 PITR432 收藏
-
数据库 · MySQL | 6天前 | 字符集 · 故障排查 · MySQL教程 · 索引优化 · 排序规则 · mysql 排序规则 索引优化 utf8mb4 collation MySQL 8.4294 收藏
-
数据库 · MySQL | 6天前 | binlog · 主从复制 · 故障排查 · MySQL教程 · DBA实战 · mysql DBA binlog 主从复制 MySQL 8.4 复制延迟 relay log119 收藏
-
数据库 · MySQL | 6天前 | MySQL教程 · 慢查询治理 · 索引优化 · 分区表 · DBA实战 · mysql 分区表 慢查询 索引优化 MySQL 8.4 partition pruning133 收藏
-
数据库 · MySQL | 6天前 | 高并发 · 故障排查 · MySQL教程 · 事务隔离 · InnoDB锁 · mysql innodb 高并发 锁等待 MySQL 8.4 NOWAIT SKIP LOCKED439 收藏
-
291 收藏
课程推荐
更多>
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习