首页 / 科技百科

从0到1搭建数据仓库

2025-05-03 08:31科技百科
前言

在互联网时代,数据就是财富,谁掌握了数据,谁就掌握了财富。

数据对于企业来说:

数据是企业的无形资产

数据是企业创新的基石

数据可有效辅助企业决策

数据可有效提升企业生产力

既然数据如此重要,一个合理的数据仓库架构又该如何设计呢?

这篇文章,我们从数据仓库的四大层级以及各层级的用途来聊聊数据仓库的经典架构

数据仓库的四大层级

1、操作(贴源)数据层(ODS)

最接近数据源中数据的一层,直接从原始业务库/生产库/镜像库接入的数据。数据源中的数据经过抽取、洗净、装载,也就是ETL之后,装入本层。

2、数据明细层(DWD)

该层一般保持和ODS层一样的数据粒度,对ODS层数据进行以下几个方面的处理:

第一:包括对数据进行去噪、去重、异常值等处理;第二:对数据进行转换,主要是对数据进行标准化处理;第三:部分数据合并处理,将相同主题的数据汇集到一张表中,提高数据的可用性;第四:为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联。

3、汇总数据层(DWS)

该层又称数据集市或宽表。按照业务划分,如人、车、物、案、组织等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。

4、应用数据层(ADS)

主要提供给数据产品和数据分析使用的数据。面向的是应用直接的调用,数据一般存放在ES、PG、REDIS、RDB、API中。

各数据层级的作用

应用数据层(ADS):主要用于统计分析型应用,提供给数据产品和数据分析使用的数据,业务个性化数据,服务于特定场景复用性不强;

汇总数据层(DWS): 主要用于数据探索型应用、标签画像型应用;

数据明细层(DWD):主要用于明细查询型应用、数据探索型应用;在ODS层数据基础上,对数据进行加工处理,提供标准化和维度完整的数据;

数据层(ODS):直接从原始业务库/生产库/镜像库接入数据源

总结

企业建立数据仓库的方式大同小异,最经典的架构就是上文所介绍的4大层级:数据层、明细层、汇总层、应用层。

如果您的企业有其他架构方案,欢迎评论区讨论(●◡●)

猜你喜欢

  • 科技百科

    数据盘点和数据目录构建方法研究

    今天我们聊的是基于数据基因水平分库的存储架构方法,先看两个实际场景问题。分库订单场景一:订单实体查询,通过订单ID查询订单实体。读过如何生成分布式ID这篇文章的同学都知道在分布式服务中可以通过snowflake算法来生成全局唯一ID来作为订单ID,进行分库。那么直接通过订单ID就可以快速定位到库,高效的查出数据。分库..

    2025-05-03
  • 科技百科

    数据结构图的定义和存储结构

    图(Graph)是由顶点(图中的结点称为图的顶点)的非空有限集合V(由N0个顶点组成)与边的集合E(顶点之间的关系)所构成的。根据“存数据存联系”的存储原则,由图的定义可知,图是由顶点和边组成的,因此在存储中,除了要存储结点的信息,还要存储边的信息。图结构中的结点间没有确定的关系,任意两点之间都可能存在联系..

    2025-05-03
  • 科技百科

    数据结构是什么有什么用

    要想知道什么是数据结构?首先得知道数据是什么?数据是对客观事务的符号表示,在计算机科学中是指所有能输入到计算机中并被计算机程序处理的符号总称。那为何加上XX“结构”XX两字?数据元素是数据的基本单位,而任何问题中,数据元素都不是独立存在的,它们之间总是存在着某种关系,这种数据元素之间的关系我们称之为结构..

    2025-05-03
  • 科技百科

    大样本离群数据取舍的标准

    1、概述涉及到几个手段,分别是:1.14d检验法1.2Q检验法1.3Grubbs检验法1.4偏态-峰态数据分布正态性检验法1.5相对极差1.6STD、RSD说明:本文公式均为Excel公式,那种大计算公式懒得敲。对于以上6种手段,其中1-3为离群值的剔除,4也可以做离群值的剔除,详见GB/T 4883-2008偏度-峰度检验法,5-6为整体离散度的一个判断。2、..

    2025-05-03
  • 排行榜

    电饭煲排名前十名:品牌排行榜前十名实测数据供你参考

    【前言】在快节奏的现代生活中,电饭煲早已成为家家户户厨房的“刚需担当”。它不仅仅是一个简单的烹饪工具,更是现代饮食生活的重要缩影,体现了人们对于便捷、高效生活方式的追求。【行业乱象】然而,繁荣的市场背后却暗藏隐忧。随着行业竞争加剧,很多品牌为抢占份额,盲目追求低价与多功能噱头,导致市场上充斥着大量劣..

    2025-04-30
  • 热点百科

    专访高科数聚首席执行官董琳:如何从场景出发拨开车企数据变现迷雾

    接受采访时,高科数聚首席执行官董琳正在去往上海虹桥火车站的路上。春节过后,董琳一下子忙了起来,紧凑的行业会议和客户走访行程使得她很少能在北京公司总部露面。如今的汽车市场和十多年前相比发生了翻天覆地的变化,在这风云激荡的年代,个人也会面临各种选择。对于走出相对稳定的汽车厂家体系,来到创业公司面临更多不..

    2025-04-28
  • CBA球队数据排名榜 排名第一的数据竟然这么多

    我们通常都是通过查看球员的各项数据来了解他们在球赛里的表现情况,我们都会根据他们的数据表来得出最后的结论。小编这里有一份20172018赛季的球员数据排名,排在第一的是来自山东球队的焦海龙。下面来看看其他排在CBA球队数据排名榜里的都有谁。10、王庆明排在第十的是来自青岛球队的王庆明,他一共出场38次。投篮的命中..

    2025-04-09
  • 世界最快

    世界上最快的数据

    #头条首发大赛#快速导读Cern的网络工程师成功在LHC和荷兰的数据存储站点之间建立了每秒800 Gbps的数据链路,增强了科学家们获取实验结果的能力。全球网络专家正致力于开发高速光纤系统,速度可达每秒多达Pbps,超越家庭宽带速度。工程师们不断努力提升数据传输能力,涉及战略规划确保数据有效传输。日本研究人员创造了22.9 ..

    2025-04-08

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制