登录
首页 >  数据库 >  MySQL

【巨杉数据库Sequoiadb】用pg对500W数据进行group by操作,耗时过长(50秒)

来源:SegmentFault

时间:2023-01-25 10:17:33 165浏览 收藏

你在学习数据库相关的知识吗?本文《【巨杉数据库Sequoiadb】用pg对500W数据进行group by操作,耗时过长(50秒)》,主要介绍的内容就涉及到MySQL,如果你想提升自己的开发能力,就不要错过这篇文章,大家要知道编程理论基础和实战操作都是不可或缺的哦!

【用户咨询】
用sequoiasql-postgresql创建一个关联表,存入500W数据。在创建索引的情况下,用pg进行简单的group by查询,平均耗时是50秒,是否可以进一步优化?
【问题描述】
1.集群部署情况
三台主机对应一个分区组,每台主机均部署有coord、cata、data节点。
2.表属性
一个500w数据的关联表b_qt_swdj和一个800w数据的pg原生表b_qt_swdj1,两个表结构相同,一共39个字段。
3.sample和语句
对关联表执行查询:
①SELECT sw_scjy_yb,count(se_scjy_yb) as count FROM b_qt_swdj group by sw_scjy_yb;
②SELECT count(1) from b_qt_swdj;
对原生表执行查询:
③SELECT sw_scjy_yb,count(se_scjy_yb) as count FROM b_qt_swdj1 group by sw_scjy_yb;
④SELECT count(1) from b_qt_swdj1;

用db内置sql执行①,耗时57秒。执行②,耗时33秒。 
用pg执行①,耗时50秒。执行②,耗时44秒。

用pg执行③,耗时8秒。执行④,耗时3秒。
4.网络带宽

传输数据时约为46MB/S。 

5.有关截图 见附件《截图三》

【解决办法】
SELECT sw_scjy_yb,count(se_scjy_yb) as count FROM b_qt_swdj1 group by sw_scjy_yb;在pg耗时和使用sdb内置sql耗时差不多,都是50S左右。跟pg关系不大。
从pg的访问计划(见截图三)来看,绝大部分耗时也是在select上。
建议一:应该考虑在sdb端对表做分区,提高数据抽取并发度去提高性能。
建议二:对于大表的统计推荐使用SparkSQL作为sql引擎。

以上就是《【巨杉数据库Sequoiadb】用pg对500W数据进行group by操作,耗时过长(50秒)》的详细内容,更多关于mysql的资料请关注golang学习网公众号!

声明:本文转载于:SegmentFault 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>