您当前的位置:首页 > 互联网百科 > 大数据

关于大数据管理,你该知道的

时间:2020-03-16 13:04:59  来源:  作者:

随着大数据时代的悄然来临,大数据的价值逐步得到广泛认可。有效管理大数据,沉淀成数据资产,对内可实现数据资产增值,对外可实现数据共享变现,是企业的通用诉求。

然而,企业在管理底层数据时,经常会面临各种挑战:各业务系统分散,形成信息孤岛;未制定统一的数据标准;数据处理能力薄弱;数据没有互通互联,难以建立数据共享机制。

本文就来聊聊大数据管理的两个重要概念:数据仓库数据治理

(上)数据仓库

| 数据仓库是什么

数据仓库是基于数据库的建设过程,是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

未建设数仓前,需要对多个源表进行查询分析,查询慢,数据质量差,无法进行高价值的数据分析。通过建设数仓,可以在一个地方快速访问多个系统源数据,快速响应OLAP分析;提高数据质量和一致性;能够提供历史的数据存储;更有利于进行数据价值挖掘和数据分析。

| 数据仓库与数据库区别

数据库是面向事物的设计,更关注业务交易处理(OLTP);而数据仓库面向主题设计,更关注数据分析层面(OLAP)。

数据库一般存储在线交易数据,数据仓库反应的是历史信息,存储历史数据,不可修改。

数据库尽量避免冗余,而数据仓库有意冗余,通过空间换时间。

以银行业务为例,客户在银行的每笔交易需要写入数据库记录下来,起到“记账”的作用,是事物系统的数据平台;而数据仓库是分析系统的数据平台,它从事物系统获取数据并汇总加工,支持分析决策,如某分行每月发生多少交易、当前存款余额,以此来决定是否需要增加ATM机。

| 数据仓库整体框架

关于大数据管理,你该知道的

 

数据源层:

盘点数据仓库需要接入的数据源,数据库、结构化电子文件、非结构化数据文件、行为日志等。最终在接入数据仓库时,所有的数据类型都会转化成两种数据格式:数据库表和电子化结构化文件。

数据接入层:

按上层应用场景不同,接入可分为实时接入和批量接入。

实时接入:对于实时接入的数据,以流式的方式写入kafka,创建Topic供后续消费;

批量接入:对于批量接入的数据,主要有4种处理逻辑:

写入Kafka的数据被spark消费,处理后写入HDFS,然后load至hive表;FTP方式批量传输;利用sqoop将数据库数据批量迁移至HDFS或hive;数据共享交换平台提取数据库或文件数据进行入库。

数据计算层:

ETL任务开发,按需生成对应的事实-维度表或集市层表。业内通常将数据仓库构建为4层架构

  • STG层,缓冲层,主要用来接收源头系统提供的数据;
  • ODS层,操作数据存储层,该层存储和源头系统相同的数据结构,方便数据质量稽核和数据处理。缓冲层的增量数据会在该层做数据合并。
  • DW层,数据仓库,对接入数据进行模型化的构建,形成所有主题的通用的集合。
  • DM层,数据集市,面向某个业务应用而构建的局部DW。
关于大数据管理,你该知道的

 

图:ODS到DW的集成示例

数据应用层:

基于数仓的顶层应用有很多,例如:

  • 实时统计类:通过流式处理,将数据进行简单的指标汇总,应用端实时展示指标结果;
  • 多维分析类:提供数据的多维度组合分析(切片、切块、钻取、旋转等),其中多维分析模型可以作为BI的报表数据基础;
  • 产品应用类:标签画像系统可以基于数仓经过处理的数据,提供宏观画像和微观画像分析;知识图谱可以基于数仓清理后的数据,进行实体和关系的构建;
  • 数据服务类:为外部提供接口形式的数据查询和传输,或者进行大批量数据的数据库导入导出服务;

(下)数据治理

| 为什么要进行数据治理

将分散、多样化的核心数据通过数据治理技术手段和产品工具进行优化,形成企业内的数据管理体系,并结合企业组织结构,形成数据管控执行体系,在企业内部持续运行、提升挖掘数据的应用价值。

数据治理最终达成的目标可以归为以下六点:

  • 统一:统一数据标准,建立统一的数据资产管理体系;
  • 质量:提高数据的质量,包括准确性、一致性、及时性;
  • 成本:优化数据生命周期,降低数据管理和运维成本;
  • 安全:确保数据安全性,加强数据访问控制;
  • 增值:保证数据资产的有效利用和价值最大化,保证数据资产的保值和增值;
  • 应用:输出并支撑上层的企业内外部应用。

| 如何进行数据治理?

数据治理的三要素:数据标准数据质量稽核元数据管理。下面逐一展开来讲。

数据标准

从业务角度定义,如设备类、会员类数据,不同渠道来源但同一含义的要统一口径规范、数据与数据之间的规范;

从技术角度定义,表、字段、字段格式等都要统一规范,如:ID信息、手机号、身份证号等。

数据标准来源可以是国家标准、行业标准,也可以是基于业务的企业标准。

定义完数据标准后,对于新新建设的数据平台,要采用统一的数据标准;对于已存在的业务系统,在不影响线上的原则上,逐步数据标准接轨。标准执行后,要长期稽核监测,并输出数据标准校核报告。

关于大数据管理,你该知道的

 

图:数据标准管理周期

数据质量稽核

以数据标准为数据管控的入口,依据数据标准定数据质量检核规则。对于数据的稽核,有以下八类稽核规则,前六类是单表级校验,后两类是多表级校验:

  • 记录数校验:稽核单表内写入的数值是否在指定的阈值范围内;
  • 空值校验:稽核某一列数据是否含有空值;
  • 唯一性校验:稽核某一列的数据是否都唯一;
  • 数据格式校验:稽核某一列的数据是否符合指定格式规范,如手机号格式校验;
  • 准确性校验:稽核某一列的数值是否在一定范围内(包括维度和阈值);
  • 波动值校验:监测某一列的记录数或某字段数据值,与历史的业务周期的数值波动是否异常;
  • 一致性校验(多表):多表间的数据是否一致;
  • 逻辑性校验(多表):校验稽核表与参照表里某一列或某几列数据的表达式进行比较,检查数据逻辑是否正确。例如“可视电话用户情况统计”表中的字段“总的出账用户”>=“可视电话用户使用特征统计”表中的字段“记录中总的出账用户”。

元数据管理

元数据就是定义数据的数据,比如一本书的书名、作者、出版社、出版时间都是元数据。

  • 血缘分析:血缘分析是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口,以衡量数据的置信度、质量等。
  • 影响分析:影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。重点关注数据流向,把控源头实体发生变更时对下游实体的影响。如移动用户话务信息表->移动大客户信息表->前端展示的竞争专题/用户分析 或 决策专题/市场分析。

Garbage in,Garbage out。这个是永恒的真理。只有将底层的基础数据管理好,才能更有效的支撑上层的大数据应用。

作者:Herman Lee 沉淀个人的产品方法论



Tags:大数据管理   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
随着大数据时代的悄然来临,大数据的价值逐步得到广泛认可。有效管理大数据,沉淀成数据资产,对内可实现数据资产增值,对外可实现数据共享变现,是企业的通用诉求。然而,企业在管理底...【详细内容】
2020-03-16  Tags: 大数据管理  点击:(148)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(2)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条