您当前的位置:首页 > 电脑百科 > 程序开发 > 架构

数据仓库系统架构和数仓分层体系介绍

时间:2020-10-04 10:40:46  来源:  作者:

一、数据仓库体系架构

公司借助的第三方数据平台,在此平台之上建设数据仓库。因为第三方平台集成了很多东西,所以省去了不少功夫。

数据仓库的体系架构,无外乎就是数据源、数据采集方式、计算存储系统、数据应用层,这几个方面。

1、数据源:

内部数据:如交易数据、会员数据,日志数据,由公司业务系统产生的数据。

外部数据:互联网数据和第三方服务商数据等。互联网数据就是我们使用爬虫爬取的互联网数据,而第三方数据,一般多指公司合作方产生的数据。

 

2、采集方式

离线采集,包括全量同步和增量同步。实时采集,顾名思义就是采用实时的策略采集数据,如我们想统计实时的交易数据。当产生一笔订单存入业务库时,我们可以通过Binlog等多种方式感知数据的变化,把新产生的数据同步的kafka其他消息队列,实时的消费使用数据。

第三方采集,跟公司商务合作的其他公司,他们暴露接口给我们,我们通过接口取数据,当然这只是其中一种方式,不同公司取数据的策略是不一样的。

数据仓库系统架构和数仓分层体系介绍

数据仓库的体系架构图

3、存储计算

通过集群的分布式计算能力和分布式文件系统,来计算和存储数据。我们使用的阿里云服务,把业务数据存储到hive中,然后划分为不同的层级,来规划整合数据。借助分布式文件系统可以存储大数据量的数据,包括久远之前的历史数据。

 

4、数据应用

使用HQL、Mapreduce、SparkSql、UDF函数等多种处理方式,对各种业务数据进行处理,形成一定规范模式的数据。把这些建模成型的数据提供给外界使用。如BI应用、挖掘分析、算法模型、可视化大屏系统。

当然最重要的是对数据的管理,数据就是我们的资产,只有管理的有条不紊,使用起来才能得手应心。我们可以建立数据地图、数据规范、数据质量系统,配置完整的任务调度(如Oozie)。

当然运维方面是必不可少的,如果一个任务失败了,我们需要第一时间知道,这时就需要告警系统。另外还可以设置角色权限,整个系统有一个最高权限,还有开发权限,访问权限等等,这个需要根据公司需求来做。

 

二、数据仓库分层

数据仓库系统架构和数仓分层体系介绍

数据仓库分层

1、数据仓库分层模式作用

1.1、数据结构化更清晰:对于不同层级的数据,他们作用域不相同,每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。

1.2、数据血缘追踪:提供给外界使用的是一张业务表,但是这张业务表可能来源很多张表。如果有一张来源表出问题了,我们可以快速准确的定位到问题,并清楚每张表的作用范围。

1.3、减少重复开发:数据分层规范化,开发一些通用的中间层数据,能够减少重复计算,提高单张业务表的使用率。

1.4、简化复杂的问题:把一个复杂的业务分成多个步骤实现,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。有点类似Spark RDD的容错机制。

1.5、减少业务的影响:业务可能会经常变化,这样做就不必改一次业务就需要重新接入数据。

数据仓库系统架构和数仓分层体系介绍

 

2、数据仓库分层介绍

2.1、ODS原始数据层

ODS层保存所有操作数据,不对原始数据做任何处理。在业务系统和数据仓库之间形成一个隔离,源系统数据结构的变化不影响其他数据分层。减轻业务系统被反复抽取的压力,由ODS统一进行抽取和分发。记住ODS层数据要保留数据的原始性。

处理原则:

根据源业务系统表的情况以增量或全量方式抽取数据;

ODS层以流水表和快照表为主,按日期对数据进行分区保存,不使用拉链表

ODS层的数据不做清洗和转换,数据的表结构和数据粒度与原业务系统保持一致。

 

2.2、DWD数据明细层

DWD层的数据是经由ODS层数据经过清洗、转换后的明细数据,满足对标准化数据需求。如对NULL值处理,对数据字典解析,对日期格式转换,字段合并、脏数据处理等。

处理原则:

数据结构与ODS层一致,但可以对表结构进行裁剪和汇总等操作;

对数据做清洗、转换;

DWD层的数据不一定要永久保存,具体保存周期视业务情况而定;

 

2.3、DWS数据汇总层

DWS层数据 按主题对数据进行抽象、归类,提供业务系统细节数据的长期沉淀。这一层是一些汇总后的宽表,是根据DWD层数据按照各种维度或多种维度组合,把需要查询的一些事实字段进行汇总统计。可以满足一些特定查询、数据挖掘应用,面向业务层面,根据需求进行汇总。

处理原则:

面向全局、数据整合;

存放最全的历史数据,业务发生变化时易于扩展,适应复杂的实际业务情况;

尽量减少数据访问时的计算量,优化表的关联。维度建模,星形模型;

事实拉宽,度量预先计算, 基本都是快照表。反规范化,有数据冗余。

 

2.4、AWS数据明细层

ADS应用层是根据业务需要,由DWD、DWS数据统计而出的结果,可以直接提供查询展现,或导入至Oracle等关系型数据库中使用。这一层的数据会面向特定的业务部门,不同的业务部门使用不同的数据,支持数据挖掘。

处理原则:

形式各式,主要按不同的业务需求来处理;

保持数据量小,定时刷新数据;

数据同步到不同的关系型数据库或hbase等其他数据库中。

提供最终数据,来满足业务人员、数据分析人员的数据需求。



Tags:数据仓库   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
架构是数据仓库建设的总体规划,从整体视角描述了解决方案的高层模型,描述了各个子系统的功能以及关系,描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么,架构就...【详细内容】
2021-11-03  Tags: 数据仓库  点击:(35)  评论:(0)  加入收藏
01.什么是大数据?数据是对客观事实进行记录的一种符号,可以是数字、文字,也可以是图片、音频、视频。大数据是指无法在一定时间范围内用常规软件进行捕捉、管理和数据的数据集...【详细内容】
2021-06-25  Tags: 数据仓库  点击:(78)  评论:(0)  加入收藏
这几年的数据领域出现好多的概念,例如:人工智能、物联网、边缘计算、数据治理、数据湖、数据中台……可谓是“百花齐放”!一时间大家都在提新概念,但却不是所有人都...【详细内容】
2021-02-25  Tags: 数据仓库  点击:(152)  评论:(0)  加入收藏
UML对系统架构的定义是:系统的组织结构,包括系统分解的组成部分,它们的关联性,交互,机制和指导原则,例如对系统群就是定义各子系统的功能和职责,如贷款系统群可能分为进件申请、核...【详细内容】
2021-02-24  Tags: 数据仓库  点击:(163)  评论:(0)  加入收藏
数据仓库?真的有必要吗?我曾经和一个业务系统负责人聊起数据仓库,他感到很疑惑,“我们数据库里不是有现成的数据吗?你们数据分析师直接用就好了,为什么还要花人力物力去建设什么数...【详细内容】
2021-01-27  Tags: 数据仓库  点击:(190)  评论:(0)  加入收藏
一、Hive基础简介1、基础描述Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一个可以对Hadoop中的大规模存储的数据进行查询和分析存储的组件,Hive数据...【详细内容】
2021-01-05  Tags: 数据仓库  点击:(132)  评论:(0)  加入收藏
今天这篇文章,给大家讲述一下数据仓库的架构模式,作为我们一起探讨的内容。希望大家留言、评论,我们一起学习。一 说到数据仓库,那么我们先来了解一下数据仓库的基本概念。数据...【详细内容】
2020-11-13  Tags: 数据仓库  点击:(142)  评论:(0)  加入收藏
一、数据仓库体系架构公司借助的第三方数据平台,在此平台之上建设数据仓库。因为第三方平台集成了很多东西,所以省去了不少功夫。数据仓库的体系架构,无外乎就是数据源、数据采...【详细内容】
2020-10-04  Tags: 数据仓库  点击:(999)  评论:(0)  加入收藏
关于数据仓库的概念、原理、建设方法论,网上已经有很多内容了,也有很多的经典书籍,本文更想聊聊企业数据仓库项目上的架构和组件工具问题。先来谈谈架构。企业数据仓库架构关于...【详细内容】
2020-09-30  Tags: 数据仓库  点击:(133)  评论:(0)  加入收藏
自创立之日起,酷克数据一直致力于降低企业进行大数据分析的门槛,推动数据民主化。今天,我们朝这个目标迈出了第一步:酷克数据在青云QingCloud上推出基于PostgreSQL和Greenplum D...【详细内容】
2020-08-03  Tags: 数据仓库  点击:(269)  评论:(0)  加入收藏
▌简易百科推荐
为了构建高并发、高可用的系统架构,压测、容量预估必不可少,在发现系统瓶颈后,需要有针对性地扩容、优化。结合楼主的经验和知识,本文做一个简单的总结,欢迎探讨。1、QPS保障目标...【详细内容】
2021-12-27  大数据架构师    Tags:架构   点击:(3)  评论:(0)  加入收藏
前言 单片机开发中,我们往往首先接触裸机系统,然后到RTOS,那么它们的软件架构是什么?这是我们开发人员必须认真考虑的问题。在实际项目中,首先选择软件架构是非常重要的,接下来我...【详细内容】
2021-12-23  正点原子原子哥    Tags:架构   点击:(7)  评论:(0)  加入收藏
现有数据架构难以支撑现代化应用的实现。 随着云计算产业的快速崛起,带动着各行各业开始自己的基于云的业务创新和信息架构现代化,云计算的可靠性、灵活性、按需计费的高性价...【详细内容】
2021-12-22    CSDN  Tags:数据架构   点击:(10)  评论:(0)  加入收藏
▶ 企业级项目结构封装释义 如果你刚毕业,作为Java新手程序员进入一家企业,拿到代码之后,你有什么感觉呢?如果你没有听过多模块、分布式这类的概念,那么多半会傻眼。为什么一个项...【详细内容】
2021-12-20  蜗牛学苑    Tags:微服务   点击:(8)  评论:(0)  加入收藏
我是一名程序员关注我们吧,我们会多多分享技术和资源。进来的朋友,可以多了解下青锋的产品,已开源多个产品的架构版本。Thymeleaf版(开源)1、采用技术: springboot、layui、Thymel...【详细内容】
2021-12-14  青锋爱编程    Tags:后台架构   点击:(20)  评论:(0)  加入收藏
在了解连接池之前,我们需要对长、短链接建立初步认识。我们都知道,网络通信大部分都是基于TCP/IP协议,数据传输之前,双方通过“三次握手”建立连接,当数据传输完成之后,又通过“四次挥手”释放连接,以下是“三次握手”与“四...【详细内容】
2021-12-14  架构即人生    Tags:连接池   点击:(16)  评论:(0)  加入收藏
随着移动互联网技术的快速发展,在新业务、新领域、新场景的驱动下,基于传统大型机的服务部署方式,不仅难以适应快速增长的业务需求,而且持续耗费高昂的成本,从而使得各大生产厂商...【详细内容】
2021-12-08  架构驿站    Tags:分布式系统   点击:(23)  评论:(0)  加入收藏
本系列为 Netty 学习笔记,本篇介绍总结Java NIO 网络编程。Netty 作为一个异步的、事件驱动的网络应用程序框架,也是基于NIO的客户、服务器端的编程框架。其对 Java NIO 底层...【详细内容】
2021-12-07  大数据架构师    Tags:Netty   点击:(16)  评论:(0)  加入收藏
前面谈过很多关于数字化转型,云原生,微服务方面的文章。虽然自己一直做大集团的SOA集成平台咨询规划和建设项目,但是当前传统企业数字化转型,国产化和自主可控,云原生,微服务是不...【详细内容】
2021-12-06  人月聊IT    Tags:架构   点击:(23)  评论:(0)  加入收藏
微服务看似是完美的解决方案。从理论上来说,微服务提高了开发速度,而且还可以单独扩展应用的某个部分。但实际上,微服务带有一定的隐形成本。我认为,没有亲自动手构建微服务的经历,就无法真正了解其复杂性。...【详细内容】
2021-11-26  GreekDataGuy  CSDN  Tags:单体应用   点击:(35)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条