您当前的位置:首页 > 互联网百科 > 大数据

数据中台到底长什么样子?4张图带你详解数据中台架构

时间:2021-08-16 14:06:20  来源:  作者:帆软软件

数据中台不是一个单纯的系统,而是一套架构、一套数据流转模式。数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋能加速。

数据中台到底长什么样子?4张图带你详解数据中台架构

 

但以上流程的实现,需要有对应的系统与产品作为支撑,那么基础的数据中台到底应该由哪些系统或者产品组成?

这里我们可以先来看一下几个企业的数据中台架构。

数据中台到底长什么样子?4张图带你详解数据中台架构

 


数据中台到底长什么样子?4张图带你详解数据中台架构

 


数据中台到底长什么样子?4张图带你详解数据中台架构

 

可以看出,虽然每个企业由于自身业务的不同,衍生出来的数据中台体系都有所不同,但大的架构方面是基本统一的,都需要通过“数据采集接入”—“加工存储”—“统一管理”—“服务应用”的阶段

这里笔者认为《数据中台产品经理:从数据体系到数据平台实战》一书中总结的数据中台架构是比较具有普适性的, 无论是互联网行业,还是传统行业,都可以在该架构上进行改造,设计建设自己的中台架构。

总体来说数据中台的功能架构由大数据平台、数据资产管理平台与数据服务平台三大部分组成,其中在数据服务平台中自助分析平台与标签管理系统的应用场景最为广泛。

一、大数据平台

大数据平台是数据中台的基座,我们也可以把大数据平台称为大数据开发平台,它需要具备与大数据相关的开发能力,提供数据存储、数据清洗/计算、数据查询展示及权限管理等功能。

那么,应该如何建设上述功能与服务?是不是拥有了上述能力就等同于成功打造大数据平台了?

数据中台到底长什么样子?4张图带你详解数据中台架构

 

其实我们可以发现各公司的大数据平台系统架构其实大同小异,各类架构都包含了数据采集组件、数据存储组件、数据计算引擎、数据权限与安全组件,以及集群管理与监控组件等。

除了少数像阿里这样倾力打造自研“飞天”系统的企业,其他企业在底层组件选用上,还是以 Hadoop生态构建的技术体系为主,依托各类开源组件进行优化改进与二次开发。例如,数据存储组件可以选择HBase、Hive等组件,数据计算引擎可以选择Spark、Flink等分布式计算引擎。

既然大家选用的组件相同或者相似,那为什么最终各企业大数据平台的服务能力还是存在差距呢?这有些类似于购买零件组装台式电脑,零件不需要选最贵的,而是要根据实际需求来选择最适合的。

好用的大数据平台需要拥有为用户解决问题的能力。因此,数据中台的大数据平台建设不是比拼引用了多少新技术、覆盖了多少技术组件,而是要看它能否解决数据中台建设中所面临的复杂数据现状,能否成为数据中台打破数据壁垒的技术保障,能否提供简洁有效的数据处理工具,如提供自助配置式的数据采集与数据清洗工具等,以及能否提供更多的附加价值。

数据中台的大数据平台建设,可以避免各事业部技术团队各自搭建大数据集群所带来的资源浪费。统一的、成熟的大数据平台对企业来说,不能一蹴而就,需要循序渐进、分步实施,在持续迭代中构建企业的大数据平台生态。

二、数据资产管理平台

数据资产管理平台主要解决数据资源的管理, 数据资产遍布在各个大数据组件中, 有 hive 的表, 有 hbase 的表, 有 druid 的datasource, 有 kafka 中的流,各个组件的管控系统很难互相打通, 所以需要一个统一的数据资产管理服务, 来统筹大数据资源的管理。

随着大数据平台的建设,构建数据中台的数据体系成为可能,通过对各业务线数据的归类整合,我们可以构建出各个数据主题域,完成数据的规范存储,形成数据资产,进而完成数据资产管理。

在数据中台体系中,数据资产管理平台主要由元数据管理与数据模型管理组成,下面让我们分别了解一下。

  • 元数据管理

讲述元数据管理,我们需要先弄清楚什么是元数据。

元数据(MetaData)通常被定义为:关于数据的数据(Metadata),或者描述数据的数据(data about data),对数据及信息资源的描述性信息。元数据是所有数据中最重要的数据。

这里举一个最通俗的例子。当我们去图书馆借书时,直接面对数以万计的图书,自然难以寻找,但是你通过在图书馆查询系统中输入这本的书名、作者、出版社等信息,获取就能准确的图书位置。那么这些书名、作者等信息,就可以理解为元数据,而图书的存放位置、借阅历史记录等,则是我们系统中的普通数据。

在数据库中,每一张数据表的表名、创建信息(创建人、创建时间、所属部门)、修改信息、表字段(字段名、字段类型、字段长度等),以及该表与其他表之间的关系等信息都属于这张数据表的元数据。

其实,元数据有多种分类方式,笔者更倾向于按照元数据的用途来区分,总共分为三类:业务元数据、技术元数据和管理元数据。

1、业务元数据:描述数据的业务含义、业务规则等,包括业务规则、数据字典以及安全标准等多项内容。通过明确业务元数据,让人们产生统一的数据认知,消除数据歧义,让不懂数据库的业务方读懂数据表的内容。

2、技术元数据:描述数据源信息、数据流转信息及数据结构化信息,主要服务于数据开发人员,让开发人员明晰数据表结构与所依赖的上下游任务,主要包括库表字段(存储位置、数据库表、字段长度和类型)、数据模型、ETL脚本(调度信息)与SQL脚本等。

3、管理元数据:描述数据的管理归属信息,包括业务归属、系统归属、运维归属以及数据权限归属等信息,是数据安全管理的基础。

所以有人说,元数据记录了数据从无到有的全过程,就像一本有关数据的“字典”,让我们可以查询到每一个字段的含义与出处,同时它又像是一张“地图”,让我们可以追溯数据产生的路径。

通过对数据体系的建设,数据中台的元数据汇聚了企业各业务线与各系统的数据信息,让数据中台具备了提供全域数据资产视图的能力,实现了统一数据资产查询与获取入口的目标

元数据管理包括对元数据增删与编辑管理、版本管理、元数据统计分析与元模型管理。通过上述功能模块,有计划地进行数据体系的落地实施,实现数据中台元数据的结构化与模型化,这样既可以避免元数据出现杂乱与冗余的现象,也便于用户查询与定位数据。

  • 数据模型管理

介绍元数据时,我们提到技术元数据中包括数据模型,这里的数据模型就是指使用元数据进行数据建模的工作产物。

根据底层数据的使用情况,如数据表的关联信息、SQL脚本信息(数据聚合与查询信息等),来获取元数据,可以更好地完成对业务的抽象,提高建模效率。

数据模型是数据整合的有效手段,它完成了各数据源之间的映射关系设计,为数据主题建设提供了“实施图纸”。

同时,在数据建模过程中,通过明确数据标准,可以确保数据的一致性,还可以消化冗余数据。至于数据模型管理,其是指在数据建模过程中,通过既定的数据模型管理制度,实现对数据模型增、删、改、查的管理,同时遵守数据标准化与数据统一化的要求,确保数据质量。

三、数据服务平台

  • 自助分析平台

自助分析平台,也就是商业智能平台(BI平台)。BI平台目前已经是很多企业的标配,目前BI商用市场的行业竞争日趋激烈,进场者可以分为如下3类。

1、国内BI厂商,典型代表为连续多年国内市场占有率第一的帆软

2、国外BI厂商,如Tableau

3、互联网大厂内部孵化

平台是数据中台服务能力的主要输出方,要想让数据中台发挥出应有价值,那么BI平台的建设必不可少,所以需要将BI 平台建设划分在数据中台体系下。综合来看,BI平台应该具备如下能力。

(1)数据接入

除了数据中台的自有数据源,BI平台还需要支持外部数据源的接入。其接入方式,主要有如下3种。

►文件型:支持Excel等文件数据的上传。

►数据连接型:支持MySQL、Oracle等数据库,以及Hadoop、Spark等大数据平台(数据中台的大数据平台也在此列)。

►API读取:支持通过API获取第三方系统数据。

数据中台到底长什么样子?4张图带你详解数据中台架构

图例:帆软BI平台支持的数据源

(2)数据处理

BI 平台需要能为用户提供数据建模工具,帮助用户创建目标数据(数据集),其提供的功能包括拖拽表字段、自动识别维度/指标、自定义视图语句、预览数据、设置虚拟字段、函数计算、设置参数等基本操作,以及多源异构的 JOIN/UNION等数据处理功能。

数据中台到底长什么样子?4张图带你详解数据中台架构

FineBI自助数据集数据处理界面

(3)数据分析与可视化

在数据处理的基础上,BI 平台还需要为用户提供丰富的图表制作和联机分析处理(OLAP)操作,让用户在前端页面完成数据分析与数据可视化等工作。

其操作流程如下:用户选择处理后的数据集,对维度与指标进行筛选过滤,然后通过上卷下钻、图表联动、报表跳转等操作,完成业务需求的分析,同时BI平台会为用户提供可视化图形组件,使其最终完成可视化内容的设计。

数据中台到底长什么样子?4张图带你详解数据中台架构

 

(4)内容分发与基础服务

BI平台需要具备分发可视化内容,并进行查看权限与数据权限控制的能力。主要的分发方式包括BI平台、移动BI(App)、数据大屏、邮件、链接访问,以及第三方嵌入等方式。

同时BI平台还需要具备基础的运营管理、角色管理、帮助中心与消息推送等功能。

只有满足以上功能、具备了多维分析、数据可视化与数据大屏等服务能力的BI平台,才可以最大限度的发挥在数据中台体系中的价值,有效地帮助分析师与运营团队提升工作效率。

  • 标签管理系统

除了BI平台,标签管理系统也是数据服务的重要应用方向之一。目前,业务部门面临着大量的精准营销场景,这些千人千面的推荐、推送需要基于一个完善且准确的用户画像来实现,而用户画像的构成又需要由大量、全面的用户标签来支撑。

因此,标签数据作为个性化业务应用的基础数据,其可信度与有效性就成了衡量用户画像成熟度的关键指标。

我们可以把标签管理系统看作用户画像系统的基座,基于数据中台打造的数据体系,可以顺其自然地打通标签治理中的数据壁垒,构建企业级的、统一认可的用户标签体系,并由此打造一个企业级的用户画像系统。

数据中台的标签管理系统,主要具备以下功能。

(1)用户唯一性识别

很多企业内各业务线都有自己的独立用户识别体系,如在 58 集团内就有 58设备指纹、安居客唯一用户、招聘自然人、金融自然人等多种用户识别方式,但是这些识别方式大部分是服务于单一业务线的,各业务线内的标签也是面向本业务的独立用户标识进行研发的。

数据中台的标签管理体系,可以提供统一的用户识别服务,将各业务线的独立用户标识进行关联和统一,从而打通面向整个企业的独立用户识别和标签交互转换方案。

(2)标签体系管理

标签体系管理的主要工作是制订标签数据和信息交互方案,打通用户画像研发和服务中的信息及数据壁垒,提供标签接入、可视化标签信息展现、可视化标签权限控制、可视化用户标签分析、可视化人群定向提取与可视化相似人群扩展(Lookalike)等功能。

(3)标签数据服务

标签管理系统,需要提供用户画像研发和应用过程中涉及的标签提取与查询等服务,以标准化服务接口(API)的方式将相关解决方案提供给各业务方,支持业务方基于数据中台的能力,打造业务线的个性化服务。

除了商业智能BI和标签管理外,各企业还需根据自身所处行业的特性去进行数据应用价值的最大化挖掘。

文章主体内容来源:《数据中台产品经理:从数据体系到数据平台实战》



Tags:数据中台   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
不知几年前,数据中台这个概念开始变得很热闹,各个机构都要上中台,中台架构意味着先进,人见人爱,也冒出许多以中台为业的软件公司。然而,大概从去年中开始,听说又有好多机构开始忙着...【详细内容】
2021-08-19  Tags: 数据中台  点击:(79)  评论:(0)  加入收藏
数据中台不是一个单纯的系统,而是一套架构、一套数据流转模式。数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业务场景,打造各类数据...【详细内容】
2021-08-16  Tags: 数据中台  点击:(58)  评论:(0)  加入收藏
在人工智能、大数据等技术发展和企业数字化转型加速的双重驱动下,数据中台在众多赛道中脱颖而出,成为行业焦点。除了提供综合解决方案的互联网头部企业之外,专注于某一具体场景...【详细内容】
2021-07-28  Tags: 数据中台  点击:(112)  评论:(0)  加入收藏
当人们谈论数据中台时,他们在谈论什么当下,人人都在谈论数字化转型,但怎么转,做什么,中台有可能成为企业推进数字化转型的有效方法之一。“中台”早期是由美军的作战体系演...【详细内容】
2021-06-11  Tags: 数据中台  点击:(125)  评论:(0)  加入收藏
这几年的数据领域出现好多的概念,例如:人工智能、物联网、边缘计算、数据治理、数据湖、数据中台……可谓是“百花齐放”!一时间大家都在提新概念,但却不是所有人都...【详细内容】
2021-02-25  Tags: 数据中台  点击:(152)  评论:(0)  加入收藏
导读:《终于有人把数据中台讲明白了》一文讲到数据中台的定义和价值,本文将介绍数据中台到底包括什么内容。企业建设数据中台的过程中哪些能力是必选项,哪些是可选的,将在本文一...【详细内容】
2020-11-10  Tags: 数据中台  点击:(113)  评论:(0)  加入收藏
转载本文需注明出处:微信公众号EAWorld,违者必究。 数据中台的概念由来已久,从技术产品构成上来讲,比如数仓、大数据中间件等产品组件相对完备。但是我们认为依然不能把数据中...【详细内容】
2020-10-20  Tags: 数据中台  点击:(77)  评论:(0)  加入收藏
近一年来,由于大家都知晓的原因,大部门行业受到严重冲击,企业们达到了生死存亡之际。然而,眼看着一些企业通过灵活运用互联网和大数据而趁着疫情当口找到自己的突破点,实现蝶变(例...【详细内容】
2020-08-04  Tags: 数据中台  点击:(69)  评论:(0)  加入收藏
Dataphin(智能数据构建与管理)是阿里巴巴数据中台团队研发的数据中台产品,它用于阿里集团(含蚂蚁科技)内部的数据中台建设,即它是阿里巴巴集团自己使用的数据中台产品。。Dataphin...【详细内容】
2020-07-04  Tags: 数据中台  点击:(1564)  评论:(0)  加入收藏
“数据中台”作为2019年科技圈公认的最火概念,当仁不让地占据了各大行业数字化转型舞台的“C位”。众多机构纷纷加紧布局,开启了头部企业对数据中台的探索热潮——...【详细内容】
2020-06-15  Tags: 数据中台  点击:(88)  评论:(0)  加入收藏
▌简易百科推荐
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(9)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(25)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(39)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
本人03年开始从事贸易行业,多年来一直致力于外贸获客和跨境电商选品等领域,最近有些小伙伴反馈海关数据演示的都挺好为啥用起来不是那么回事?大家看到数据时关注的有产品、采购...【详细内容】
2021-10-28  QD云龙    Tags:数据   点击:(33)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条