登录
首页 >  数据库 >  MySQL

初探分布式系统之数据拆分

来源:SegmentFault

时间:2023-02-24 18:31:12 394浏览 收藏

有志者,事竟成!如果你在学习数据库,那么本文《初探分布式系统之数据拆分》,就很适合你!文章讲解的知识点主要包括MySQL、分布式、Java、负载均衡,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~

个人对分布式系统的涉及很感兴趣,但分布式系统涉及的知识非常多,刚开始学习时也是各个点分散的学习。前两天对于数据拆分这一块做了一个总结,因此记录下来。

技术出现的原因都是为了解决问题,本文章也是按照这个思路去探讨的。

为什么需要将数据库内的数据进行拆分

  1. 一台机器的处理能力有限,当数据量大了后性能下降,而且硬件单机成本不高。

如何拆分

  1. 垂直分库(根据业务单元的不同把表分到不同的主机,单台机器能够处理的请求数量有限)

  2. 水平分表(当一张表的数据多了之后查询效率就会很慢,可以根据字段范围划分不同的表,学生表的id字段,1~10000分为一张表,10000~20000分为另一张表)

拆分带来的问题

  1. 单机ACID打破,引入了分布式事务(难点)

  2. join操作困难,查询跨库

  3. 自增id受到困难

解决方案

  • 分布式事务:两阶段提交(2pc),大概意思就是分布式系统中有一个事务管理器(TM),执行分布式事务时向每个资源申请,资源返回全都OK后再向每个资源提交事务,同样等待每个资源返回OK后就完成事务,其中任何一个环节出现erro则回滚。 坏处很明显性能太差,高并发系统根本不能使用。

        业界现使用消息队列来解决分布式事务(RocketMQ)具体步骤如下:
        1.MQ发送方发送消息到MQServer
        2.MQServer接收并回应,表明以成功到达
        3.MQ发送方Commit本地事务
        4.若Commit成功则通知MQServer该消息可被消费,失败则表明该消息应被丢弃
        5.若MQ发送方超时未对MQServer发送状态,则主动回查事务状态 
        

clipboard.png
  • 跨库join操作:转化为多个数据库的查询,我们设计数据库时也应尽量避免产生跨库操作。

  • 自增id:单独做一个id生成器的服务,对于每次请求还可以分配一段id,减少请求次数,增加速度。

终于介绍完啦!小伙伴们,这篇关于《初探分布式系统之数据拆分》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布数据库相关知识,快来关注吧!

声明:本文转载于:SegmentFault 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>
评论列表