MySQL单表千万级数据处理的思路分享
来源:脚本之家
时间:2023-01-07 12:08:55 367浏览 收藏
本篇文章给大家分享《MySQL单表千万级数据处理的思路分享》,覆盖了数据库的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。
项目背景
在处理过程中,今天上午需要更新A字段,下午爬虫组完成了规格书或图片的爬取又需要更新图片和规格书字段,由于单表千万级深度翻页会导致处理速度越来越慢。
select a,b,c from db.tb limit 10000 offset 9000000
但是时间是有限的,是否有更好的方法去解决这种问题呢?
改进思路
是否有可以不需要深度翻页也可以进行数据更新的凭据?
是的,利用自增id列
观察数据特征
此单表有自增id列且为主键,根据索引列查询数据和更新数据是最理想的途径。
select a,b, c from db.tb where id=9999999; update db.tb set a=x where id=9999999;
多进程处理
每个进程处理一定id范围内的数据,这样既避免的深度翻页又可以同时多进程处理数据。
提高数据查询速度的同时也提高了数据处理速度。
下面是我编写的任务分配函数,供参考:
def mission_handler(all_missions, worker_mission_size): """ 根据总任务数和每个worker的任务数计算出任务列表, 任务列表元素为(任务开始id, 任务结束id)。 例: 总任务数100个,每个worker的任务数40, 那么任务列表为:[(1, 40), (41, 80), (81, 100)] :param all_missions: 总任务数 :param worker_mission_size: 每个worker的最大任务数 :return: [(start_id, end_id), (start_id, end_id), ...] """ worker_mission_ids = [] current_id = 0 while current_id = all_missions else current_id + 1 end_id = all_missions if current_id + worker_mission_size >= all_missions else current_id + worker_mission_size if start_id == end_id: if worker_mission_ids[-1][1] == start_id: break worker_mission_ids.append((start_id, end_id)) current_id += worker_mission_size return worker_mission_ids
假设单表id最大值为100, 然后我们希望每个进程处理20个id,那么任务列表将为:
>>> mission_handler(100, 40) [(1, 40), (41, 80), (81, 100)]
那么,
进程1将只需要处理id between 1 to 40的数据;
进程2将只需要处理id between 41 to 80的数据;
进程3将只需要处理id between 81 to 100的数据。
from concurrent.futures import ProcessPoolExecutor def main(): # 自增id最大值 max_id = 30000000 # 单worker处理数据量 worker_mission_size = 1000000 # 使用多进程进行处理 missions = mission_handler(max_id, worker_mission_size) workers = [] executor = ProcessPoolExecutor() for idx, mission in enumerate(missions): start_id, end_id = mission workers.append(executor.submit(data_handler, start_id, end_id, idx)) def data_handler(start_id, end_id, worker_id): pass
思路总结
- 避免深度翻页进而使用自增id进行查询数据和数据
- 使用多进程处理数据
数据处理技巧
记录处理成功与处理失败的数据id,以便后续跟进处理
# 用另外一张表记录处理状态 insert into db.tb_handle_status(row_id, success) values (999, 0);
循环体内进行异常捕获,避免程序异常退出
def data_handler(start_id, end_id, worker_id): # 数据连接 conn, cursor = mysql() current_id = start_id try: while current_id更新数据库数据尽量使用批量提交
sql = """update db.tb set a=%s, b=%s where id=%s""" values = [ ('a_value', 'b_value', 9999), ('a_value', 'b_value', 9998), ... ] # 批量提交,减少网络io以及锁获取频率 cursor.executemany(sql, values)今天关于《MySQL单表千万级数据处理的思路分享》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于mysql的内容请关注golang学习网公众号!
声明:本文转载于:脚本之家 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
-
146 收藏
-
263 收藏
-
456 收藏
-
238 收藏
最新阅读
更多>
-
489 收藏
-
209 收藏
-
497 收藏
-
335 收藏
-
467 收藏
-
303 收藏
课程推荐
更多>
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习
评论列表
-
- 优秀的发箍
- 很棒,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢楼主分享博文!
- 2023-02-10 00:52:59
-
- 成就的帆布鞋
- 这篇博文太及时了,太全面了,受益颇多,收藏了,关注师傅了!希望师傅能多写数据库相关的文章。
- 2023-02-07 21:22:12
-
- 务实的泥猴桃
- 真优秀,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢老哥分享技术文章!
- 2023-01-15 07:12:09
-
- 苗条的小鸽子
- 很详细,收藏了,感谢作者大大的这篇文章,我会继续支持!
- 2023-01-13 11:53:16
-
- 美好的画笔
- 这篇技术贴真及时,好细啊,真优秀,已收藏,关注大佬了!希望大佬能多写数据库相关的文章。
- 2023-01-08 18:53:55