当人们谈论数据中台时,他们在谈论什么
当下,人人都在谈论数字化转型,但怎么转,做什么,中台有可能成为企业推进数字化转型的有效方法之一。“中台”早期是由美军的作战体系演化而来的,使用“中台”这种作战体系,目的就在于给予前方高效、灵活和强大炮火支持。2015年,阿里巴巴率先提出了“中台战略”,以及其有名的“大中台、小前台”的机制。2018年8月,阿里发布“双中台+ET”数字化转型方法论,阿里的双中台包括了数据中台和业务中台。在“业务中台”模式下,前端业务部门可以像搭积木一样调用平台上的产品技术模块,从而快速搭建新业务场景。“数据中台”则打破了不同业务部门之间的烟囱式IT架构,从而打通数据孤岛,实现了“一切业务数据化”的目标。ET大脑是指其面向特定行业的智能化解决方案。
在阿里中台概念的引领下,很多企业也提出了自己的“中台战略”。如把内部一些通用性技术平台、支撑系统打包在一起,称之为技术中台;把一些大的业务服务系统,逻辑上集中起来称之为业务中台;或干脆把现有的数据仓库、数据治理平台、数据运维平台整合称之为数据中台;还有一种更简单的方式,就是把以前内部IT支撑系统的后台直接改名,与数据相关的部分就叫数据中台,与业务耦合度较紧密的就叫业务中台。以上定义,各有各有道理,但有一点大家都有一致的意见,就是建立中台的目的在于:减少冗余,增加复用,快速响应用户需求。
一般来说,数据中台是指企业利用大数据技术,对内外部海量数据统一进行采集、计算、存储,并使用统一的数据规范进行管理,数据规范包括数据口径、数据模型、元数据规范、参考数据标准、主数据标准、业务规则等。更进一步,广义的数据中台,还包括企业长期积累下来与业务有较强关联性的一些技术组件,如业务标签,算法模型,数据产品等。数据中台的主要作用在于将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,对内对外提供一致的、高可用大数据服务。
阿里公司数据中台案例分析
阿里是数据中台概念的首先提出者,其案例更具分析意义。从网络中流传的一幅阿里巴巴数据中台全景图(图1)可以看出,阿里的数据中台包括了计算与存储平台、数据资产管理、智能数据研发、统一数据中心中间件(OneService)四大模块,最上层支撑着阿里数据、数据大屏、生意参谋等大数据应用。
图1: 阿里巴巴数据中台全景图
阿里的统一数据中心中间件又分为萃取数据中心、公共数据中心和垂直数据中心三部分,垂直数据中心负责从阿里旗下各个业务单元采集数据,公共数据中心类似数据仓库,将所有数据按不同主题域(电商、文娱、营销、物流、金融等)分类管理,萃取数据中心负责按照业务需求,将各主题域数据加工处理,建立起消费者、企业、内容、商品、位置五大数据体系。阿里数据中台的目的旨在对内提供数据基础建设和统一的数据服务,对外提供服务商家的统一化数据产品。
通过以上架构,可以看出,阿里提出的数据中台模式有以下一些特点。首先是对全域数据的采集与存储,实现了对企业中各业务类别数据的整合和集中化管理。其次是按照规范化的数据架构(数据仓库规划、数据模型构建、指标定义规范等)统一研发数据,实现数据口径、数据模型标准化。第三是建立业务需求驱动的几大数据体系,深度萃取数据价值;第四是集成数据资产管理能力,从数据的运营、应用、管理、分析、可视化五方面统一管理数据资产。
通过这样的数据中台架构设计,阿里实现了对下屏蔽各数据来源不同的现状,对上提供统一的数据服务接口和标准化数据。数据中台将阿里内部诸如淘宝、天猫、聚划算这些数据孤岛一一打通,将公共数据能力积累沉淀,对内对外提供数据共享服务,新的业务需求再出现的时候,开发人员不用再从头做起,直接基于数据中台提供的能力,就可以快速完成新应用开发。
一种理想的数据中台架构
企业建设数据中台的最终目标还是赋能业务,服务用户。数据中台的建设也不应该只是一个口号,一次运动,或一个项目,而是需要企业不断去投入资源、迭代更新,通过数据中台的建设,驱动企业业务创新和发展。企业建设数据中台,可以通过合理规划、复用内部现有已经完善的大数据处理工具来支撑建设,充分借鉴业界数据中台建设实践,从核心需求出发,以某垂直业务的数据入手,打通数据采集、存储、计算、治理、服务的工作全流程,逐步扩展到全域数据的接入、加工和管理,建设起自有的数据中台。
图2:理想中的数据中台架构
数据中台包括哪些内容,做哪些事情,图2是笔者理想中的数据中台架构。共分为五个大的功能组成。
数据采集。为数据中台提供汇集数据的能力,应提供统一的数据获取接入方式,数据来源包括内部数据和外部数据,数据类型应支持结构化和非结构化数据采集。传统的ETL工具仍然可以复用,实现数据采集、转换、加载等关键处理过程。采集方式上应能支持对周期性接口文件的批量采集,对产生频率高、实时性强的数据以数据流形式采集,针对企业外部互联网数据,使用网页爬虫自动抓取的方式采集。
数据计算。为数据中台提供统一的大数据计算能力,针对不同大数据处理场景,所需提供的数据计算能力也不同,一般主要包括批量离线计算(如MapReduce)、内存计算(如Spark、Ignite)、在线流式计算(如Storm、Samza、Spark Streaming、S4)等。特别是人工智能技术的广泛发展和应用,基于大数据对机器学习算法模型的训练工具(如Mahout、Spark MLib、Caffe、Keras、TensorFlow)也可以归为数据计算工具的类别。
数据存储。数据中台中全域数据的存储中心,按照不同的数据类型,可以采用图2中一种或多种数据存储系统的“混搭”架构。传统数据仓库(如DB2/ORACLE/Teradata)是最为成熟稳定的数据存储方式,承载着及时性、准确性要求高的企业核心应用。分布式关系数据库,也常简称为MPP数据库,相较于传统的关系型数据库,具有高性能处理能力、高数据吞吐能力的优势。NoSQL分布式数据库属于非关系型数据库管理系统,在大数据简单存取上具备关系型数据库无法比拟的性能优势。分布式文件系统(HDFS)是当前最常见的大数据存储方式,它具极高的性价比,扩展性强。数据湖作为一种新的存储大量复杂格式数据,避免企业数据孤岛化的数据架构方案,可用来将不同结构的数据统一聚合和存储。
数据治理。亦称之为数据资产管理,指的是为了实现对企业中数据资产价值的获取、管控、交付等目的,基于制定的数据规范,对数据资产所做的一系列管理活动。数据标准管理指对数据口径、公共术语、参考数据、数据编码等制定和实施标准化的管理活动。数据模型管理负责对系统中核心的逻辑模型、物理模型、数据库表、字段、视图等进行统一管控、促进其规范化。元数据管理的作用是统一管理所有业务系统元数据,包括业务元数据、技术元数据、流程元数据和数据管理制度元数据。数据质量管理,指运用质量管理技术稽核、度量、评估和改进数据的质量水平。数据安全管理,指通过制定和执行数据安全政策和措施,为数据提供的认证、授权、审计等安全管理能力。
数据服务。包括了与业务相关的、可复用的一些公共技术组件或产品,如数据目录、数据标签、数据分析、数据开放接口、机器学习算法模型等,它们可以使用SAAS方式直接对外提供服务,也可以以更小粒度如API、消息接口、文件接口、服务接口、SDK软件包等方式只提供组件能力或数据服务,内部或外部第三方应用不必关心底层数据准备情况,直接调用数据服务模块对外提供的服务接口,就可以方便进行二次开发,借以增强自身的能力。
以上五个功能部分中,数据采集、数据计算、数据存储三部分能力,企业已经都有现成的一些积累,不需要重复开发,只要合理规划进行统一,就很容易获取和建设起来。数据治理的能力,常常分散在各个支撑系统中,需要统一抽取出来,对以前考虑不全的内容需要补充。数据服务能力,则更多是与业务关联的、复用性较好的应用组件,需要企业长期提炼、积累和优化。
结语
大数据时代,数据常被比作石油,数据中台的作用就是炼油厂。在没有数据中台的时候,企业内部、外部数据不断积累,数据采集方式多种多样,数据计算、存储方式各自为政,数据治理只限于某些业务条线或主题域内数据,数据服务方式也是五花八门,造成了企业内部数据口径、数据模型、参考数据、质量标准、服务接口参差不齐,数据加工效率低下,极大制约了数据对应用的支撑能力。有了数据中台,通过对海量数据进行统一采集、计算、存储、治理,进行标准化,形成对企业真正有价值的数据资产,才能为上层大数据应用提供高质量的数据服务。数据中台,未来有望成为企业大数据核心能力掌控的重要抓手。
CIO之家 www.ciozj.com 微信公众号:imciow