首页 / 科技百科

数据盘点和数据目录构建方法研究

2025-05-03 08:35科技百科

今天我们聊的是基于数据基因水平分库的存储架构方法,先看两个实际场景问题。

分库订单场景一:订单实体查询,通过订单ID查询订单实体。读过如何生成分布式ID这篇文章的同学都知道在分布式服务中可以通过snowflake算法来生成全局唯一ID来作为订单ID,进行分库。那么直接通过订单ID就可以快速定位到库,高效的查出数据。

分库订单场景二:用户订单列表查询,通过buyer_uid分页查询用户历史订单列表。在满足场景一的同时,如何来高效的实现场景二的查询呢?往下看 ^_^ ^_^ ^_^

背景

随着互联网的飞速发展,应用数据量及访问量快速增长,单台数据库服务器的资源通常难以支撑大量的数据量及大量的数据库操作请求。为了解决该问题,需要对数据库进行分库分表,一种是按业务分类进行垂直切分;另一种是按一定的规则(如数值范围、数值哈希)进行水平切分,即把一个数据库水平切分成多个部分放到不同的数据库服务器上,从而有效解决亿万级数据存储问题及单台服务器资源的瓶颈问题。然而在水平分库分表之后,大表中的数据分散存储在各个数据库中。在进行查询时往往需要通过范围法或者哈希法找到对应的数据库进行查询,但这只能满足按照关键字来进行的查询。当业务中存在按照其他属性进行查询的需求时就无法满足了,此时需要遍历全部数据库,显然不可接受。

因此设计了一种基于数据基因水平切分数据库的存储架构方法,从而快速定位这条数据落在哪个库上。

现有技术方案

索引表法:索引表是用来维护其他属性与关键字的对应关系,当通过其他属性访问数据表时,先通过索引表找到该属性对应的关键字,在通过关键字按照范围法或者哈希法找到对应的数据库进行取数。

缺点:多一次数据库查询,性能下降一倍;数据冗余。

缓存映射法:是将映射的结果存储在缓存中,属性与关键字的映射关系很少会发生变化,一旦放入缓存无需淘汰,缓存命中率超高。如果数据量过大,可以根据属性自动进行cache的水平切分。

缺点:多一次Cache查询 。

路由表法:路由表的策略是它单独维护一张路由表,根据用户的某一属性来查找路由表决定使用哪个数据库,这种方式是一种更加通用的方案。查询请求先通过属性查找路由表,找到该条数据所在的数据库,再进行查询。

缺点:单独维护一张路由表,多一次数据库查询

基因分库存储架构方法

它是通过基于数据基因水平切分数据库的存储架构方法不但能满足按照关键字来进行的查询,而且能够满足按照其他属性进行快速查询,大大提高了其它属性的查询效率。

原理:基因水平切分数据库的存储架构方法是指:在水平分库的场景下,需要按照唯一字段将数据进行分库。为保证表中需要查询的其它字段能快速定位到目标数据库,那么需要将查询字段作为分库基因融入到唯一字段上。从而保证用户通过唯一字段和其它字段查询时均能快速定位到数据库,提高查询速度。

水平分库效果示意图:

说明:如上图是将 Order表按照oid取余水平切分到四个库中DB0、DB1、DB2、DB3,并满足两个查询需求(分别按照oid和 buyer_id查询数据)的存储架构设计。

1. 思路

Order订单表中 oid 为唯一字段,buyer_id为其它字段,按照数据基因水平分库的原理,即需要把其它字段 buyer_id的数据基因,融入到oid中。

2.数据基因融入过程

buyer_id数据基因融入oid的过程。

2.1 确定分库数据基因

通过buyer_uid分库,假设分为4个库,采用buyer_uid%4的方式来进行数据库路由,所谓的模4,其本质是buyer_uid的最后2个bit决定这行数据落在哪个库上,这2个bit,就是分库数据基因。

2.2 根据数据基因分库

在订单数据oid生成时,oid末端加入分库数据基因,让同一个buyer_uid下的所有订单都含有相同基因,落在同一个分库上。

2.3 数据基因融入过程示意图

示意图详细说明:如上图所示,buyer_uid=1的用户下了一个订单:

使用buyer_uid%4分库,决定这行数据要插入到哪个库中分库基因是buyer_uid的最后2个bit,即01在生成订单标识oid时,先使用一种分布式服务全局ID生成算法生成前62bit(上图中绿色部分)将分库基因加入到oid的最后2个bit(上图中粉色部分),拼装成最终64bit的订单oid(上图中蓝色部分)

3. 效果

通过这种方法保证,同一个用户下的所有订单oid,都落在同一个库上,oid的最后2个bit都相同,于是:

通过buyer_uid%4能够定位到库通过oid%4也能定位到库

小结

本文重点如何来设计确定数据基因及数据基因如何融入到分库ID。

基于数据基于水平分库的存储方法,在水平分库的场景下提高了按照其它属性查询数据的性能。

基于数据基因水平分库的存储方法,提升了系统的稳定性和负载能力。

名词解释

水平切分:分为库内分表和分库分表,是根据表内数据内在的逻辑关系,将同一个表按不同的条件分散到多个数据库或多个表中,每个表中只包含一部分数据,从而使得单个表的数据量变小,达到分布式的效果。

分布式服务全局ID:在不分表的情况下,数据的唯一ID,可以通过数据库自增ID来生成,不需要业务中进行实现。但如果由于数据量不断的增大,会对数据进行分库,分表。这样原来的数据库自增ID就用不上了。所以在这种情况下,需要一个服务全局ID,即分布式服务全局ID。如:twitter开源的snowflake算法。

猜你喜欢

  • 中国之最

    中国大学之最,你都知道哪些呢?盘点那些不为人知的大学之最。

    #中国大学之最,你知道哪些#中国大学之最的盘点如下,这些大学之最涵盖了历史、地理、特色等多个方面:历史最悠久的大学:湖南大学:起源于宋太祖开宝九年(公元976年)创建的岳麓书院,至今已有超过1048年的历史,是我国历史最悠久、办学底蕴最深厚的985工程建设高校之一。面积最大的大学:中国民用航空飞行学院:拥有广汉..

    2025-05-08
  • 动物之最

    盘点动物界的5大之最,每一个都让你惊讶!

    动物界种类繁多,在庞大的动物家族里想要活下来必须要有一些特殊的本领,不然再生物链过程中很有可能就会淘汰。今天我们就盘点一下拥有世界之最称号的动物,看看他们都有哪些本领才拥有王的称号。世界最凶恶的蜥蜴———科莫多巨蜥粗糙的皮肤,锋利的牙齿想想都觉得可怕,成年的科莫多巨蜥可以发达3米长。他们喜欢吃肉,在..

    2025-05-07
  • 一口气盘点中国历史朝代各项之“最”

    最早的朝代——夏朝夏朝是中国历史上第一个朝代最后一个汉人王朝——明朝明朝是中国历史上最后一个汉人封建王朝,对于明朝,个人觉得这是一个很奇葩的王朝,典型的初代开国,经一二代励精图治,其后经历中兴,往后就越来越不行了国祚最长得朝代——周朝所谓文王拉车八百步,周朝天下八百年,国祚790年,是中国历史上国祚最..

    2025-05-06
  • 世界十大

    盘点世界十大禁片,你看过几个?

    这十部曾被世界各国以各种原因禁止上映,排名不分先后。一.《索多马120天》,上映时间1976年。二.《下水道的美人鱼》,上映时间1988年。3.《不可撤销》,上映时间2002年。4、《罗马帝国》,上映时间1979年。5、《感官世界》,上映时间1976年。6、《魔法圣婴》上映时间1993年。7、《杀人不分左右》,上映时间2009年。8《强我..

    2025-05-06
  • 体育排行榜

    盘点世界杯个人进球排名前五位:克洛泽居首,贝利仅列第五

    2022卡塔尔世界杯已经开幕,四年一度的狂欢,全世界球迷翘首企盼,世界杯期间将有超过120万球迷奔向卡塔尔,为自己支持的球队鼓噪呐喊,释放蓄势积攒已久的激情。毕竟这一别,距离上届杯赛,已足四年!今天巴拉排行榜网小编为大家盘点世界杯个人进球排名前五位:克洛泽居首,贝利仅列第五,想了解更多的朋友们一起往下看吧..

    2025-05-06
  • 排行榜

    包包大盘点?入款排行榜推荐老花经~典系列合集

    炒受欢迎并且不过时的包包1️⃣carry all保值排行第一,自身轻便,值得入手。2️⃣法棍上市即断货,四大金刚之一,经典不过时。3️⃣新款邮差包小个子姐妹的福音哦~4️⃣牛角包百搭,满足日常所需的一款包。5️⃣IVY实用比-性价比共存~6️⃣speedy20溢价之王7️⃣软盒子走秀款,必入8️⃣水桶烧麦包9️⃣Never full 中号2..

    2025-05-05
  • 商业之最

    商业智慧:在竞争格局中构建持久优势

    《孙子兵法》这部诞生于春秋时期的军事典籍,其战略思想在当代商业竞争中依然闪烁着智慧光芒。作为管理者,我从这部被誉为东方战略圣经的著作中提炼出三个维度的商业启示:全胜的战略思维、知胜的竞争情报、造势的资源整合。这些思想对企业在复杂商业环境中构建竞争优势具有深远的指导意义。一、全胜之道:超越零和博弈的战..

    2025-05-05
  • 排行榜

    盘点天津最有名的5种美食,你吃过几种?每种都是天津人的心头爱

    天津,这座古老而又充满活力的城市,以其丰富的历史文化和独特的美食而闻名遐迩。今天,瘦猴就跟大家一起来盘点一下天津最有名的五种美食,每种都是天津人的心头爱,看看你吃过几种?一:狗不理包子狗不理包子起源于清朝咸丰年间,历经百余年传承,如今已成为天津的一张名片。狗不理包子以其皮薄馅足、口感鲜美而著称。鲜肉..

    2025-05-04

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制