首页 / 科技百科

数据盘点和数据目录构建方法研究

2025-05-03 08:35科技百科

今天我们聊的是基于数据基因水平分库的存储架构方法,先看两个实际场景问题。

分库订单场景一:订单实体查询,通过订单ID查询订单实体。读过如何生成分布式ID这篇文章的同学都知道在分布式服务中可以通过snowflake算法来生成全局唯一ID来作为订单ID,进行分库。那么直接通过订单ID就可以快速定位到库,高效的查出数据。

分库订单场景二:用户订单列表查询,通过buyer_uid分页查询用户历史订单列表。在满足场景一的同时,如何来高效的实现场景二的查询呢?往下看 ^_^ ^_^ ^_^

背景

随着互联网的飞速发展,应用数据量及访问量快速增长,单台数据库服务器的资源通常难以支撑大量的数据量及大量的数据库操作请求。为了解决该问题,需要对数据库进行分库分表,一种是按业务分类进行垂直切分;另一种是按一定的规则(如数值范围、数值哈希)进行水平切分,即把一个数据库水平切分成多个部分放到不同的数据库服务器上,从而有效解决亿万级数据存储问题及单台服务器资源的瓶颈问题。然而在水平分库分表之后,大表中的数据分散存储在各个数据库中。在进行查询时往往需要通过范围法或者哈希法找到对应的数据库进行查询,但这只能满足按照关键字来进行的查询。当业务中存在按照其他属性进行查询的需求时就无法满足了,此时需要遍历全部数据库,显然不可接受。

因此设计了一种基于数据基因水平切分数据库的存储架构方法,从而快速定位这条数据落在哪个库上。

现有技术方案

索引表法:索引表是用来维护其他属性与关键字的对应关系,当通过其他属性访问数据表时,先通过索引表找到该属性对应的关键字,在通过关键字按照范围法或者哈希法找到对应的数据库进行取数。

缺点:多一次数据库查询,性能下降一倍;数据冗余。

缓存映射法:是将映射的结果存储在缓存中,属性与关键字的映射关系很少会发生变化,一旦放入缓存无需淘汰,缓存命中率超高。如果数据量过大,可以根据属性自动进行cache的水平切分。

缺点:多一次Cache查询 。

路由表法:路由表的策略是它单独维护一张路由表,根据用户的某一属性来查找路由表决定使用哪个数据库,这种方式是一种更加通用的方案。查询请求先通过属性查找路由表,找到该条数据所在的数据库,再进行查询。

缺点:单独维护一张路由表,多一次数据库查询

基因分库存储架构方法

它是通过基于数据基因水平切分数据库的存储架构方法不但能满足按照关键字来进行的查询,而且能够满足按照其他属性进行快速查询,大大提高了其它属性的查询效率。

原理:基因水平切分数据库的存储架构方法是指:在水平分库的场景下,需要按照唯一字段将数据进行分库。为保证表中需要查询的其它字段能快速定位到目标数据库,那么需要将查询字段作为分库基因融入到唯一字段上。从而保证用户通过唯一字段和其它字段查询时均能快速定位到数据库,提高查询速度。

水平分库效果示意图:

说明:如上图是将 Order表按照oid取余水平切分到四个库中DB0、DB1、DB2、DB3,并满足两个查询需求(分别按照oid和 buyer_id查询数据)的存储架构设计。

1. 思路

Order订单表中 oid 为唯一字段,buyer_id为其它字段,按照数据基因水平分库的原理,即需要把其它字段 buyer_id的数据基因,融入到oid中。

2.数据基因融入过程

buyer_id数据基因融入oid的过程。

2.1 确定分库数据基因

通过buyer_uid分库,假设分为4个库,采用buyer_uid%4的方式来进行数据库路由,所谓的模4,其本质是buyer_uid的最后2个bit决定这行数据落在哪个库上,这2个bit,就是分库数据基因。

2.2 根据数据基因分库

在订单数据oid生成时,oid末端加入分库数据基因,让同一个buyer_uid下的所有订单都含有相同基因,落在同一个分库上。

2.3 数据基因融入过程示意图

示意图详细说明:如上图所示,buyer_uid=1的用户下了一个订单:

使用buyer_uid%4分库,决定这行数据要插入到哪个库中分库基因是buyer_uid的最后2个bit,即01在生成订单标识oid时,先使用一种分布式服务全局ID生成算法生成前62bit(上图中绿色部分)将分库基因加入到oid的最后2个bit(上图中粉色部分),拼装成最终64bit的订单oid(上图中蓝色部分)

3. 效果

通过这种方法保证,同一个用户下的所有订单oid,都落在同一个库上,oid的最后2个bit都相同,于是:

通过buyer_uid%4能够定位到库通过oid%4也能定位到库

小结

本文重点如何来设计确定数据基因及数据基因如何融入到分库ID。

基于数据基于水平分库的存储方法,在水平分库的场景下提高了按照其它属性查询数据的性能。

基于数据基因水平分库的存储方法,提升了系统的稳定性和负载能力。

名词解释

水平切分:分为库内分表和分库分表,是根据表内数据内在的逻辑关系,将同一个表按不同的条件分散到多个数据库或多个表中,每个表中只包含一部分数据,从而使得单个表的数据量变小,达到分布式的效果。

分布式服务全局ID:在不分表的情况下,数据的唯一ID,可以通过数据库自增ID来生成,不需要业务中进行实现。但如果由于数据量不断的增大,会对数据进行分库,分表。这样原来的数据库自增ID就用不上了。所以在这种情况下,需要一个服务全局ID,即分布式服务全局ID。如:twitter开源的snowflake算法。

猜你喜欢

  • 明星秘密

    女明星“人设翻车”事件盘点:祸从口出如何毁掉事业?

    2025-08-08
  • 排行榜

    2025岛国颜值天花板。盘点12位绝色美女,你最喜欢谁?

    娱乐圈又搞颜值排行榜?深田恭子41岁晒马甲线被夸“防腐剂身材”,新垣结衣转型制片照样被喊“老婆”,这波2025年岛国神颜榜单看得人焦虑。嘴上喊着审美多元,榜单清一色巴掌脸、A4腰、冻龄脸,产后复出的石原里美连法令纹都被P掉,行业对女星的苛刻藏都藏不住。观众一边骂白幼瘦审美畸形,转头又把“40岁演少女”的绫濑遥..

    2025-08-08
  • 世界十大洗衣机品牌,盘点世界顶级洗衣机品牌

    平常时候,人们都会选择用洗衣机来清洗一般的衣物,随着科技的发展,洗衣机也随着改革换新,从一开始的洗衣服要用搓衣板到半自动洗衣机,每一次使用都要手动操作,很浪费时间和人力,到如今的全自动,选择一款好的洗衣机,可为你解决很多烦恼,今天我就来向大家介绍一下世界十大洗衣机品牌吧。世界十大洗衣机品牌:1、海尔..

    2025-08-08
  • 母婴百科

    宝宝出牙期试试这几种方法

    很多妈妈以为,反正小孩到了5、6岁就会换牙,不是很重视乳牙的健康。其实,虽然乳牙都会换牙,但是后方的8颗乳臼齿对于咬合咀嚼极为重要,门牙功能是切断食物、犬齿是撕裂、臼齿则是研磨,不同牙齿有不同功能性,具备完整的乳牙功能,宝宝才能正常摄取食物,吸收营养。如果宝宝过早就蛀牙,则会影响其营养摄取及成长。预防..

    2025-08-07
  • 母婴百科

    帮助宝宝长高的正确方法有哪些

    戳↑关注,你关心的育儿问题这里都有答案!~问:这是一个4月龄男宝宝的案例。家长反映,前几天去给宝宝做体检,医生说宝宝的身高比同龄孩子平均身高矮2.5cm。这种情况是生长缓慢吗?有什么办法可以刺激孩子长高呢?来,看看崔玉涛育学园儿科诊所·医疗总监白洁医生怎么说通过询问家长,宝宝是全母乳喂养。家长首先要知道,..

    2025-08-07
  • 排行榜

    电饭煲排名前十名的品牌:测评盘点到底什么牌子的质量最好

    在日常生活里,电饭锅(又名电饭煲)堪称使用频率超高的厨房 “得力助手”,市场热度也一路高涨。然而,当下市场上的电饭锅品牌多如繁星,大量不专业的电饭锅存在诸多问题,安全无毒技术毫无优化可言,选材和生产工艺更是差强人意。就拿内胆、腔体和上盖的材料来说,不少都劣质得很,在使用过程中,极易析出重金属等有毒有..

    2025-08-06
  • 排行榜

    电饭锅怎么选?测评盘点质量排名前十名,看看谁更好!

    电饭锅(又名电饭煲)作为我们日常生活中使用频率极高的厨房电器,市场热度一直居高不下,市面上的品牌更是五花八门。但令人担忧的是,不少低价电饭锅产品为了压缩成本,在夹层腔体、上下盖材料等关键位置使用劣质塑料,高温使用时容易散发刺鼻气味污染食材,给人体健康带来极大威胁。在今天的文章中,我将测评包括宫菱、九..

    2025-08-06
  • 世界最大

    这一劳动力市场,印度世界最大!80%“数据工人”来自村镇

    人工智能(AI)产业的高速发展催生出一个重要职业——AI数据标注。它通过为机器学习的原始数据(如图片、视频等)打上标签,让计算机不断识别这些数据的特征,从而实现自主识别。这是2023年2月15日在美国旧金山拍摄的waymo公司无人驾驶出租车 新华社/美联AI数据标注职业产生之初,标注员们往往能获得相对丰厚的薪酬,且部分..

    2025-08-05

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制