首页 / 科技百科

从0到1搭建数据仓库

2025-05-03 08:31科技百科
前言

在互联网时代,数据就是财富,谁掌握了数据,谁就掌握了财富。

数据对于企业来说:

数据是企业的无形资产

数据是企业创新的基石

数据可有效辅助企业决策

数据可有效提升企业生产力

既然数据如此重要,一个合理的数据仓库架构又该如何设计呢?

这篇文章,我们从数据仓库的四大层级以及各层级的用途来聊聊数据仓库的经典架构

数据仓库的四大层级

1、操作(贴源)数据层(ODS)

最接近数据源中数据的一层,直接从原始业务库/生产库/镜像库接入的数据。数据源中的数据经过抽取、洗净、装载,也就是ETL之后,装入本层。

2、数据明细层(DWD)

该层一般保持和ODS层一样的数据粒度,对ODS层数据进行以下几个方面的处理:

第一:包括对数据进行去噪、去重、异常值等处理;第二:对数据进行转换,主要是对数据进行标准化处理;第三:部分数据合并处理,将相同主题的数据汇集到一张表中,提高数据的可用性;第四:为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联。

3、汇总数据层(DWS)

该层又称数据集市或宽表。按照业务划分,如人、车、物、案、组织等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。

4、应用数据层(ADS)

主要提供给数据产品和数据分析使用的数据。面向的是应用直接的调用,数据一般存放在ES、PG、REDIS、RDB、API中。

各数据层级的作用

应用数据层(ADS):主要用于统计分析型应用,提供给数据产品和数据分析使用的数据,业务个性化数据,服务于特定场景复用性不强;

汇总数据层(DWS): 主要用于数据探索型应用、标签画像型应用;

数据明细层(DWD):主要用于明细查询型应用、数据探索型应用;在ODS层数据基础上,对数据进行加工处理,提供标准化和维度完整的数据;

数据层(ODS):直接从原始业务库/生产库/镜像库接入数据源

总结

企业建立数据仓库的方式大同小异,最经典的架构就是上文所介绍的4大层级:数据层、明细层、汇总层、应用层。

如果您的企业有其他架构方案,欢迎评论区讨论(●◡●)

猜你喜欢

  • 排行榜

    电饭煲实测排行榜前十名:核心数据测评教你怎么选才对

    在快节奏的时代下,智能电饭煲凭借多功能、一机多用等便捷功能,成为厨房标配。影响米饭蒸煮表现的主要因素有哪些?①加热方式:底盘和IH加热易衰减致夹生,螺旋焖压加热均匀,米饭香糯。②内胆形状厚度:球形内胆受热面积大、热对流好,平底或半釜较差。③温控精准度:精确控温避免夹生焦糊,让米饭达最佳口感。④腔体密闭..

    2025-06-19
  • 最新重庆人口数据大分析,震惊,重庆市人满到爆!

    我国地大物博,不仅面积广大,而且人口也不少。在我国,有着许多的省份,当然也有着直辖市,而重庆就是其中一个。近年来,重庆一直是一个引人热议的一个市,重庆人口也一直在增加。随着重庆的日益发达,重庆人口也是只增不减。1、最新重庆人口数量分析目前,3016.55万人是重庆市的常住人口,25.15万人是比上年增加的人数,0..

    2025-06-09
  • 中国十大

    中国十个值得为吃而去的小城,看看大数据的推荐吧

    以下是中国十个值得为吃而去的特色小城,这些城市往往以地方小吃和传统风味见长,且兼具烟火气与独特饮食文化:

    2025-05-31
  • 体育之最

    为什么它能称为地球最受欢迎的运动?这些数据告诉你答案!

    #为什么我国一定要发展足球#足球,这项全球最受欢迎的运动,拥有超过40亿的狂热粉丝,超越篮球、网球等所有体育项目,稳坐“地球第一运动”宝座。数据不骗人,今天我们用最新权威数字告诉你,足球为何无人能敌?同时,深入剖析中国为何急需大力发展足球产业⚽️。1. 全球数据震撼!足球粉丝超半数地球人   根据国际足联(..

    2025-05-21
  • 艺术之最

    “100青年艺术季”展现最鲜活的奇思妙想 为年轻艺术家搭建桥梁

    中新网北京5月12日电 (记者 应妮)“100青年艺术季”在五月如期而至。“100青年艺术季暨2025青年艺术100年度展”正在北京星地艺术中心展出,各大奖项日前在展览现场颁出。颁奖现场。 青年艺术100供图自2011年创办以来,“青年艺术100”始终以发掘和培育艺术新生力量为使命。中央美术学院艺术管理与教育学院副院长、“青年艺..

    2025-05-18
  • 热点百科

    r语言数据分析是什么

    对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。首先讲解分布分析分布分析能揭示数据的分布特征和分布类型。对于定量数据,我们想要了解其分布形式是对称的还是非对称的、发现某些特大或特小的可疑值,可做出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观地分析;对于定性..

    2025-05-11
  • 科技百科

    数据盘点和数据目录构建方法研究

    今天我们聊的是基于数据基因水平分库的存储架构方法,先看两个实际场景问题。分库订单场景一:订单实体查询,通过订单ID查询订单实体。读过如何生成分布式ID这篇文章的同学都知道在分布式服务中可以通过snowflake算法来生成全局唯一ID来作为订单ID,进行分库。那么直接通过订单ID就可以快速定位到库,高效的查出数据。分库..

    2025-05-03
  • 科技百科

    数据结构图的定义和存储结构

    图(Graph)是由顶点(图中的结点称为图的顶点)的非空有限集合V(由N0个顶点组成)与边的集合E(顶点之间的关系)所构成的。根据“存数据存联系”的存储原则,由图的定义可知,图是由顶点和边组成的,因此在存储中,除了要存储结点的信息,还要存储边的信息。图结构中的结点间没有确定的关系,任意两点之间都可能存在联系..

    2025-05-03

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制