银行数据仓库的系统架构是什么？看这篇足矣

时间：2021-02-24 15:29:44 来源：作者：

UML对系统架构的定义是：系统的组织结构，包括系统分解的组成部分，它们的关联性，交互，机制和指导原则，例如对系统群就是定义各子系统的功能和职责，如贷款系统群可能分为进件申请、核额、交易账务、贷后管理、管理台等子系统，对于系统就是定义各模块的功能和层次，例如管理台包括权限管理、用户管理、交易管理、逾期管理、统计分析等功能。

技术架构是指从技术实现层面描述系统，主要是根据系统架构组成部分确定每层使用什么技术框架，例如中间件、WebService等。

那对于数据仓库系统群具体可以分为哪些部分以及他们的具体实现技术如何呢？以下是银行数据仓库的系统功能图：

1、数据源：

主要是指行内交易系统、外部采购或合作的第三方数据等3类、包括结构化数据以及非结构化的数据，结构化数据主要是存储在各个行内系统数据库中的表数据，非结构化数据包括图片、语音、文档等类型的数据。

2、数据采集：

即如何将数据从数据源获取到数据仓库中，就是我们常说的ETL随着数据仓库功能的发展这部分不仅仅包括批量数据获取还包括实时数据流以及数据库数据实时采集：

（1）批量采集：主要包括从数据源获取大批量的数据，这是银行数据仓库主要的数据采集方式，批量采集的采集数据频率较低，一般是每日凌晨获取上一天的数据，有些场景也可以每小时采集一次，由于采集的数据量一般较大，对数据源也有IO的影响，因此不建议采集频率太高。

在技术实现中，批量采集工具需要能支持多种数据源的采集和加载，批量采集可选择的工具较多，可以采用商业化软件如IBM的DATASTAGE以及INFORMATICA公司的INFORMATICA，也可以采用开源的SQOOP和KETTLE。也可以采用各关系型数据库以及HADOOP自带的文件导出和导入功能。

（2）实时采集：指实时同步源系统的数据库数据到数据仓库，这样可以在数据仓库中实时分析数据。实时采集通过专门的工具监控源系统数据库日志进行数据同步，数据源系统无需改造，这种采集方式针对数据统计时效性非常高的场景。

在技术实现中，实时采集工具需要支持从多种类型数据源到多种类型目标数据库的实时同步，这块商业化软件比较成熟，如ORACLE的GOLDENGATE、IBM的InfoSphere Change Data Capture等软件。开源软件中kettle也支持数据库实时同步，但需要在源表增加时间戳字段。

（3）数据流采集：即通过Queue的方式从数据源系统获得数据流消息，数据仓库实时获取Queue中的消息进行实时数据流计算。这种数据采集方式也是面向统计时效非常高的场景，需要数据源系统增加实时发送消息的功能。

在技术实现中，由于数据流计算在互联网公司使用广泛，涌现出许多优秀的开源软件，如开源的KAFKA、ROCKETQUEUE等QUEUE工具，可以支持实时监控文件、数据库的变化并将变化数据发送到QUEUE中的开源软件FLUME。对于MySQL也可以通过BINLOG和SHYIKO监控MYSQL日志，将数据变化发送到QUEUE中，那在商业化软件中IBM的MQ是各银行经常使用的中间件。

3、数据存储/计算：

数据存储计算是数据仓库的主要功能。数据存储主要指结构化数据和非结构化数据的按格式存储，计算指基于存储的数据进行关联、汇总、数值计算等批量处理、实时流计算和复杂的机器学习。

实时流计算主要指对大规模流动数据在不断变化的过程中实时地进行分析，比如实时展示目前银行所有转账的笔数和汇总金额。需要将每笔转账进行不断计算。目前在银行中应用场景还较少，但随着互联网渠道的发展后续也将出现更多的应用场景。

由于数据仓库是银行的数据枢纽，银行的所有业务数据都会在数据仓库保留，因此数据量较大，一般小银行数据量在TB级，股份制银行大概在PB级，国有大银行在ZB级。因此存储和计算的的可扩展性、性能都很重要。那在目前银行中数据仓库的存储和计算一般采用MPP数据库（大规模并行数据库）和HADOOP相结合的技术方案。

（1）MPP数据库：主要是面向结构化数据存储、批量计算和机器学习。在HADOOP出现前，商用的MPP数据库是数据仓库的主流技术平台，它使用简单，同时具有超大规模计算能力和良好的计算性能、扩展性。如TERADATA公司的TERADATA数据库、ORACLE公司的ORACLE一体机、IBM的NETEZZA一体机。其中TERADATA公司的TERADATA数据库在早期是一枝独秀，我国国有大银行的数据仓库最早建立时大部分都采用了TERADATA数据库。近年来ORACLE的EXADATA市场占有率也逐步提升，开源的MPP数据库最有名的是由商业转为开源GREENPLUM，目前腾讯云的TIBASE、阿里云的HybridDB for PostgreSQL都是基于GREENPLUM优化的。

（2）HADOOP平台：HADOOP平台支持结构化数据和非结构化数据的存储和计算。由于MPP数据库价格高，且扩展性也有一定局限。很难满足互联网公司超大数据量及非结构化数据的计算需求，因此HADOOP软件生态体系应运而生并发展越来越成熟，成为互联网公司大数据处理的标配平台。2015年左右，随着HADOOP平台的完善及商用（商用版本如华为、星环科技；开源版本如CLOUDERA、Hortonworks），银行也逐步使用HADOOP平台和MPP数据一起作为数据仓库的存储和计算平台。其中批量计算一般使用HIVE和SPARK，流计算一般使用STORM和SPARKSTREAMING，机器学习可以采用HADOOP生态的SPARKMLLIB、MAHOUT，也可以使用TENSORFLOW、SAS、R等支持HADOOP平台专门的机器学习工具，目前许多公司在研发推出的人工智能平台（机器学习建模平台）也都把HADOOP平台作为数据存储和计算平台，如第四范式、星环科技等。

4、数据服务：

数据服务主要指如何为银行其它系统提供数据服务，随着数据仓库体系的发展，数据仓库不仅仅能按批量的方式提供数据计算结果，还可以实时提供数据服务。

（1）批量接口：按约定的接口方式将数据批量提供给数据应用系统，一般每天1次，可以按文件的方式放到约定的服务器，也可以通过数据采集部分提到的ETL工具直接将数据同步到应用系统的数据库中。

（2）在线查询：提供实时查询的接口，并发布到银行交易总线，由其他业务系统或数据系统实时调用，比如银行的每年的账单总结（类似支付宝每年账单）一般由数据仓库根据每个客户1年的交易流水，统计出转账、消费、收入等数据并提供给渠道系统如手机银行、网上银行进行展示。那在技术实现方面，接口服务开发一般按各行的开发规范来实现，如web service或http+xml，大部分银行使用JAVA进行开发，如果接口TPS不高，一般的MPP数据库也足够支持，无需进行数据移动，如果TPS比较高，可以将数据加工结果放到HADOOP HBASE进行数据存储和查询。

（3）实时同步：实时同步主要是实时数据流计算后将结果实时同步给数据使用系统，同时将结果发布到QUEUE中，由目标系统进行订阅，实时获取。

5、数据应用：

数据应用主要是将数据通过数据服务提供给各应用系统，由各系统进行数据分析和成果展示。那主要有以下几类：

（1）数据应用系统：主要指使用数据的系统，在银行包括客户关系管理、管理会计、绩效管理、新资本协议系统群等数据系统，也包括核心、贷款等交易系统。

（2）报表平台：报表平台能将数据快速展示成图表、能通过建立数据立方体（CUBE）提供数据钻取（向上或向下变换数据分析维度）功能，方便业务人员快速查询和分析数据。那报表工具目前商用的比较成熟，展示也更美观，常见的有Finereport、TABLEAU等，开源的报表工具功能较弱，常用的有birt、ireport、jasperreport、KYLIN（基于hadoop建立CUBE）等。

（3）分析探索：有的银行也叫数据实验室或分析集市，主要指提供给业务人员自行分析的平台，银行业务部门的分析人员经常使用SQL自行分析数据，也会使用SAS或R、Python进行数据挖掘，随着AI技术的深入，也逐步在尝试TENSORFLOW等深度学习的工具来分析银行数据。由于数据分析工作时间不固定，且消耗计算资源较大，因此一般都是单独给业务人员搭建一套或多套的分析环境，每套环境包括HADOOP或数据库作为数据存储，SAS、R、TENSORFLOW等作为分析引擎。同时还需要定期（一般T+1）更新分析环境的数据，提高数据分析的及时性。

Tags：数据仓库点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 数据仓库点击:(35)　　评论:(0)　　加入收藏

大数据时代必须了解18个概念：数据仓库、商业智能、数据可视化…

01.什么是大数据？数据是对客观事实进行记录的一种符号，可以是数字、文字，也可以是图片、音频、视频。大数据是指无法在一定时间范围内用常规软件进行捕捉、管理和数据的数据集...【详细内容】

2021-06-25　　Tags: 数据仓库点击:(78)　　评论:(0)　　加入收藏

数据仓库、数据集市、数据湖、数据中台这些概念，终于整明白了

这几年的数据领域出现好多的概念，例如：人工智能、物联网、边缘计算、数据治理、数据湖、数据中台……可谓是“百花齐放”！一时间大家都在提新概念，但却不是所有人都...【详细内容】

2021-02-25　　Tags: 数据仓库点击:(152)　　评论:(0)　　加入收藏

银行数据仓库的系统架构是什么？看这篇足矣

UML对系统架构的定义是：系统的组织结构，包括系统分解的组成部分，它们的关联性，交互，机制和指导原则，例如对系统群就是定义各子系统的功能和职责，如贷款系统群可能分为进件申请、核...【详细内容】

2021-02-24　　Tags: 数据仓库点击:(163)　　评论:(0)　　加入收藏

数据仓库构建流程

数据仓库？真的有必要吗？我曾经和一个业务系统负责人聊起数据仓库，他感到很疑惑，“我们数据库里不是有现成的数据吗？你们数据分析师直接用就好了，为什么还要花人力物力去建设什么数...【详细内容】

2021-01-27　　Tags: 数据仓库点击:(190)　　评论:(0)　　加入收藏

数据仓库组件：Hive环境搭建和基础用法

一、Hive基础简介1、基础描述Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，是一个可以对Hadoop中的大规模存储的数据进行查询和分析存储的组件，Hive数据...【详细内容】

2021-01-05　　Tags: 数据仓库点击:(132)　　评论:(0)　　加入收藏

数据仓库的架构是什么样的，大家可以通过这篇文章了解一下

今天这篇文章，给大家讲述一下数据仓库的架构模式，作为我们一起探讨的内容。希望大家留言、评论，我们一起学习。一说到数据仓库，那么我们先来了解一下数据仓库的基本概念。数据...【详细内容】

2020-11-13　　Tags: 数据仓库点击:(142)　　评论:(0)　　加入收藏

数据仓库系统架构和数仓分层体系介绍

一、数据仓库体系架构公司借助的第三方数据平台，在此平台之上建设数据仓库。因为第三方平台集成了很多东西，所以省去了不少功夫。数据仓库的体系架构，无外乎就是数据源、数据采...【详细内容】

2020-10-04　　Tags: 数据仓库点击:(999)　　评论:(0)　　加入收藏

关于数据仓库的架构及3大类组件工具选型

关于数据仓库的概念、原理、建设方法论，网上已经有很多内容了，也有很多的经典书籍，本文更想聊聊企业数据仓库项目上的架构和组件工具问题。先来谈谈架构。企业数据仓库架构关于...【详细内容】

2020-09-30　　Tags: 数据仓库点击:(133)　　评论:(0)　　加入收藏

HashData数据仓库

自创立之日起，酷克数据一直致力于降低企业进行大数据分析的门槛，推动数据民主化。今天，我们朝这个目标迈出了第一步：酷克数据在青云QingCloud上推出基于PostgreSQL和Greenplum D...【详细内容】

2020-08-03　　Tags: 数据仓库点击:(269)　　评论:(0)　　加入收藏

▌简易百科推荐

SQL常用增删改查语句

1增1.1【插入单行】insert [into] <表名> (列名) values (列值)例：insert into Strdents (姓名,性别,出生日期) values ('开心朋朋','男','1980/6/15&#3...【详细内容】

2021-12-27　　快乐火车9d3　　　　Tags:SQL 　点击:(1)　　评论:(0)　　加入收藏

以一个简单的查询存储过程为例，简单说一下sql的几种写法

最近发现还有不少做开发的小伙伴，在写存储过程的时候，在参考已有的不同的写法时，往往很迷茫，不知道各种写法孰优孰劣，该选用哪种写法，以及各种写法的优缺点，本文以一个简单的查询...【详细内容】

2021-12-23　　linux上的码农　　　　Tags:sql 　点击:(9)　　评论:(0)　　加入收藏

HasorDB 一个全功能数据库访问工具

《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期推荐的HasorDB 是一个全功能数据库访问工具，提供对象映射、丰...【详细内容】

2021-12-22　　GitHub精选　　　　Tags:HasorDB 　点击:(5)　　评论:(0)　　加入收藏

一文详解Liquibase如何自动化数据库脚本部署

作者丨Rafal Grzegorczyk译者丨陈骏策划丨孙淑娟【51CTO.com原创稿件】您是否还在手动对数据库执行各种脚本?您是否还在浪费时间去验证数据库脚本的正确性?您是否还需要将...【详细内容】

2021-12-22　　　　51CTO　　Tags:Liquibase 　点击:(3)　　评论:(0)　　加入收藏

SQL 中 on 和 where 条件放置的差异

场景描述：由于生产环境的表比较复杂，字段很多。这里我们做下简化，只为说明今天要聊的问题。有两张表 tab1，tab2： tab1 数据如下： tab2 数据如下：然后给你看下，我用来统计 name=&#3...【详细内容】

2021-12-20　　Bald　　　　Tags:SQL 　点击:(5)　　评论:(0)　　加入收藏

一文掌握SQL基础

前言知识无底，学海无涯，知识点虽然简单，但是比较多，所以将MySQL的基础写出来，方便自己以后查找，还有就是分享给大家。一、SQL简述1.SQL的概述Structure Query Language(结构化查...【详细内容】

2021-12-16　　谣言止于独立思考　　　　Tags:SQL基础　点击:(13)　　评论:(0)　　加入收藏

做测试不会 SQL？超详细的 SQL 查询语法教程来啦

前言作为一名测试工程师，工作中在对测试结果进行数据比对的时候，或多或少要和数据库打交道的，要和数据库打交道，那么一些常用的 SQL 查询语法必须要掌握。最近有部分做测试小伙...【详细内容】

2021-12-14　　柠檬班软件测试　　　　Tags:SQL 　点击:(15)　　评论:(0)　　加入收藏

C｜数据存储地址与字节偏移、数据索引

话说C是面向内存的编程语言。数据要能存得进去，取得出来，且要考虑效率。不管是顺序存储还是链式存储，其寻址方式总是很重要。顺序存储是连续存储。同质结构的数组通过其索引表...【详细内容】

2021-12-08　　小智雅汇　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

数据库迁移有什么技巧？|分享强大的database迁移和同步工具

概述DBConvert Studio 是一款强大的跨数据库迁移和同步软件，可在不同数据库格式之间转换数据库结构和数据。它将成熟、稳定、久经考验的 DBConvert 和 DBSync 核心与改进的现...【详细内容】

2021-11-17　　雪竹聊运维　　　　Tags:数据库　点击:(26)　　评论:(0)　　加入收藏

谈谈执行一条SQL的流程

一、前言大家好,我是小诚,《从0到1-全面深刻理解MySQL系列》已经来到第四章,这一章节的主要从一条SQL执行的开始,由浅入深的解析SQL语句由客户端到服务器的完整执行流程,最...【详细内容】

2021-11-09　　woaker　　　　Tags:SQL 　点击:(35)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为