“不做会死,做了送命”,大概没有什么信息化建设像中台一样,拥有这如网红般的争议吧。大约从2019年上半年开始,“数据中台”这个词,相信大家或多或少都听到过,俨然已经成为了大数据领域的新任“网红”。那么数据中台究竟是“新瓶装旧酒”,还是真正可以助力企业的“大杀器”?本文主要从数据中台的前世今生,到典型企业的数据中台架构,再到企业究竟需要什么样子的数据中台,多个视角对数据中台进行解读。
在谈论数据中台之前,不妨先看一下大数据的发展历史
大数据编年史
有迹可循的大数据思想萌芽,可追溯至1974年,当时有学者在论文中首次提出了“大数据集”的概念,但一直到1991年,Bill Inmon出版了《建立数据仓库》一书,才真正算是在大数据领域有了被广泛接受的“数据仓库”定义。随后,在20世纪初,数据处理量达到TB级的情况下,数据处理、展现应用于业务带来的提升,学界的广泛认同和商界的快速产品化,证明了数据仓库的历史意义与价值。
2003年,可以被认定是大数据的第一个重要里程碑,在这一年,google公开了一系列其内部实践的“海量数据”处理技术,也就是我们常说的Google三驾马车——基于冗余存储机制的分布式文件系统GFS、用于搜索索引计算的并行处理框架MapReduce、高效数据存储模型BigTable,随后便促进产生了大家更为熟知的分布式系统基础架构——Hadoop。
后面的历史便不多说了,本文的目的毕竟不是为了科普大数据,从大数据发展的编年史,也许能看出一些端倪,为什么数据中台会在短短数年内从默默无闻到炙手可热。从2011年开始,大数据的发展仿佛进入了高速公路,无论是国际知名组织,还是国家层面,都将大数据上升到战略级地位。伴随地位的提升,大数据领域的研究在广度和深度上都不断得到拓展,从早期以硬件、网络为主的单一领域分类,扩展到平台化及场景化的数据仓库、元数据管理、主数据管理、数据质量、数据安全、数据科学等多元的领域分类。与此同时,数据仓库的概念正在被外延——衍生出“大数据平台”、“商业智能”以及“数据湖”的“逻辑数据仓库”概念,数据处理量从TB级跃升至PB级,开源的Hadoop生态正式开始商业化,数据中台在这个时期脱颖而出,也似乎并不突兀。
不过,无论是数据仓库还是大数据平台,商业智能还是数据湖,其发展似乎一直伴随着一面看不见的墙,那便是关于大数据价值的探索。首先我们先看看在当时国内外大数据领域的主要玩家都在干什么。
国内外主要大数据玩家
Amazon、Google、Microsoft、Oralce均在自身强势业务之上,开启商业化的云计算和大数据服务;Informatica聚焦大数据领域,推进其SAAS化的大数据产品及平台;大数据新贵Palantir,则在其助力美国政府抓捕本拉登而一战成名的大数据风控及其第三方数据服务上,不断拓展数据应用的边界;回到国内,阿里云、腾讯云、电信天翼云、华为云等均在云计算及大数据领域投入了大量人力和物力。在这个大数据发展的黄金期,几乎所有的高科技企业都在思考一个问题:
海量数据作为大多数企业发展不可避免的一个趋势之后,企业该怎么去应用这部分数据资产,会对其商业产生什么影响,如何使数据对企业产生正面的推动而不是成为企业的负担。
作为国内的主要大数据玩家,阿里在2015年时提出了“大中台、小前台”的战略,奠定了其内部发展数据中台的基础。其实这件事情毋需过多挑战,国内有很多厂商怀疑数据中台的价值或者认为其是“新瓶装旧酒”,但作为阿里数据中台内部建设和对外商业化的亲历者,笔者确实见识了阿里内部数据中台对其生态带来的巨大推动作用,也见到过其在对外做数据中台商业化输出时遇到的水土不服,为什么会产生这种现象,透过现象看本质,接下来我们就从多个角度来看。
从去年甚至更早开始,很多企业,包括互联网企业和传统企业,开始纷纷的提数字化转型并建设自己的中台模式,那就带来这样一个问题,就是数据中台该如何定义,或者说该怎么理解它,包括我也跟数十家企业的沟通交流过程中,听到过他们很多这样的困惑,比如说数据中台它是不是一个数仓,或者数据湖,它究竟是一个技术体系,还是一个具象的产品或应用,有很多不同的理解。
我们可以先了解一下阿里对数据中台的定义。
数据中台是一套数据资产化和价值化体系。它致力于构建既“准”且“快”的“全”“统”“通”的“智能”大数据体系;它在数据赋能业务中形成业务模式,在推进数字化转型中实现价值。
不难看出,阿里的数据中台主要核心将其定位为数据资产化和数据价值化,那么阿里究竟是怎么做的呢?
阿里数据中台全景
上图是阿里数据中台发展至今的一张全景图,大家应该在云栖大会等多个场合有看到过这张图。阿里数据中台的整体核心其实是位于中间的三层数据中心:垂直数据中心、公共数据中心和萃取数据中心。
仅从这三层数据中心构成的数据资产体系来看,阿里的架构似乎并无太多先进之处,除萃取数据中心外,垂直数据中心和公共数据中心都能在数仓建模中找到其对应的架构,即便是萃取数据中心,在一些企业的商业智能或者大数据平台层面也能找到相应的雏形。所以,阿里数据中台的核心竞争力究竟是什么呢?
答案就是——“方法论”
阿里在建设自身数据中台的同时,花大精力对其数据架构、技术、流程、组织等实践形成了一套完整的方法论,并作为其不断迭代的指导性理论——OneData,其中包括OneModel(用于指导数据采集、数据建模、数据开发的规范性方法论)、OneID(用于指导打破部门墙的数据连通,在业务对象层面形成直接面向业务的数据体系规范性方法论)和OneService(用于指导如何提供数据服务,包括质量安全、资产管理、数据交换、组织协作等流程的规范性方法论)
有了这套方法论,对于阿里来讲,无论对其自身数据中台建设,还是对外输出解决方案,都提供了非常大的助力。
除了阿里,我们再看看其他企业是怎么做的。
典型企业数据中台架构
无论是华为、OPPO为代表的高科技制造行业,还是网易、滴滴为代表的互联网行业,都纷纷在自建或者提出了数据中台的解决方案,但是我们又发现,每一家企业似乎对数据中台都有自己不同的理解,这点从四家企业的数据中台架构图就可以看出。
看到这里,是不是大家对数据中台的定义又更模糊了呢。接下来,我们站在企业用户的角度,从三个维度分析企业理解的或者说想要的数据中台到底是什么样子的。
站在企业用户角度,尤其是中小企业老板,有一个非常关键的问题:“我到底需不需要数据中台?”
当商务同学费尽心思约到了客户老板,售前架构师熬了几个通宵准备了长篇大论的介绍材料,产品技术准备数据和环境,搭建了完善的演示平台,一切似乎都万事俱备,但最后老板听的昏昏欲睡,讲完后拍拍手客套几句,最后仍然不了了之。
相信很多toB的同学都遇到过吧,为什么会出现这种现象,因为绝大多数的企业老板(尤其是传统企业)一般不会关心你讲的是信息化还是云化,是大数据还是AI。但是正视威胁,业务竞争力的提升,以及通过机器长期吸纳业务专家的经验来优化人才结构,最终形成一个有竞争力的组织,这类战略和组织的问题,老板一定关心。
很多老板都在喊数字化转型,那么怎么转,转成什么样?恐怕大多数的老板都回答不上来。
数字化企业模型
数字化企业是以客户中心为基础,以科技为引领,在统一愿景下建立了实时战略机制和敏捷生态的生机型组织。
这段引用自ThoughtWorks对于数字化企业的定义,私以为非常准确,在当今互联网时代,客户是商业战场的中心,而为了快速响应客户需求,必须依靠平台化的力量才可以事半功倍。尤其是随着互联网巨头以平台的方式对各行各业带来的巨大影响,越来越多的企业主有了这样的危机意识:“自家企业要么平台化,要么成为平台的一部分”。
那么如何使自己的企业能够适应平台化,在企业的数字化转型中,客户正在变得越来越重要,不断快速响应、探索、挖掘客户的需求,才是企业得以生存和持续发展的关键因素。当企业与客户的触点越来越多,可以利用的数据越来越丰富,传统数仓或数据平台无法整合和打通拥有如此复杂业务逻辑的数据;企业传统的前台+后台的架构也已经无法做到对业务的快速响应;原有信息化系统与业务KPI脱节的现象也早已不能满足数字化企业的管理需要。
数据中台,在这个角度,正好与企业的需要不谋而合。
数据中台是为前台业务而生,它提供了一种数据与业务之间协作发生化学反应的最佳模式。数据中台形成可共享复用的数据资产,并且拥有与业务更近的关系(一般情况下的数据中台是要扛业务KPI的),让企业首次有了数据驱动业务的能力,以及随之带来的对组织和人才结构的优化,这些才是数据中台真正的竞争力。
数据中台是买不来的,虽然说离不开各种自研或采购的工具平台,但是,唯有管理者认识到,只有建立一个数字化、敏捷化,拥有快速业务响应能力的组织,才有资格进入这场战争;做到尊重客户,不惜调整自己颠覆自己来响应客户的企业,才能在这场以客户为中心的商业战争中得以生存和发展;而拥有一个强大的,足以随时快速和精准提供源源不断弹药的数据中台,才有可能赢得这场战争。
如果一个企业主没有认识到这一点,无论各大云计算或大数据厂商提供的产品多么智能,解决方案多么强大,都无法打通老板的心。
所以与其说是某某厂商提供了“数据中台”,倒不如说是企业用户自己命名了“数据中台”。
从技术视角看,数仓、数据湖和数据中台的区别主要在于其数据加工处理、数据提供服务以及面向对象方面的改变。下面我们分别来看一下其之间的一些差异和对比。
先看数仓和数据中台,20多年前,数据仓库出现,当时主要是应用于大型商业企业,帮助其高管做分析和决策,其展现形式更多是以报表方式实现。传统的数仓还是以TD,Oracle,IBM/DB2等传统数据库为主, 由于受限于数据的处理能力,很少有EDW的数据容量超过1TB。
传统数仓的基本特性可以概括为是一个面向主题的、集成的、具有高度监管性的一体化的用于支持管理人员决策的数据集合。
而数据中台首先在体系架构上与数仓就有很大的不同,数据中台是由多系统组成的,其计算和存储平台是建立在分布式系统之上,以满足不同业务需求和高并发高扩展性需求。除了计算和存储平台外,一般数据中台还应包含数据集成、数据开发、数据建模、数据资产管理、数据治理以及数据服务等多个组件,通过多个维度组件形成一整套方案。
再看数据湖和数据中台,数据湖的概念兴起也是近几年才出现,最早是在 2011 年由 Dan Woods 提出
数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。
数据湖的最初设计是为了作为数据仓库的一个中转区域,它的架构和理念是把原先不存储的基础数据也存储起来,汇总各个数据源的数据方便以后的数据分析和查询,因此数据湖是以数据的聚集、加工为目的数据资源池。当然后来的数据湖发展,也延伸出作为ETL和自助分析平台为目的的数据湖,但是数据湖对比数据中台仍有很多不足,比如说缺乏数据治理和元数据管理等。
不过,两者更大的区别,还是在于其传导的建设理念上,数据中台强调方法论、组织和工具的建设,强调数据赋能业务,通过中台模式更快更好的支持百花齐放的数据应用建设。
那么,数据中台、数仓和数据湖究竟有没有本质上的区别呢?
其实它们并不是一个类型和维度的概念,没有直接的可比性,对于现在数据中台的一些批评和质疑,其实在数据湖概念出来之时,也一样有很多的质疑,感兴趣的同学可以看一下这篇文章:"Are Data Lake Fake News?"。
说到底,三者都是为企业提供数据计算、存储和应用的平台,最终各种平台的目的都是要更好地服务于业务。数据中台概念的产生,正是源于企业用户对于数据仓库或数据湖更深层次的期望,企业用户希望数据中台距离业务更近,能更快速的响应业务需求和满足业务应用。
企业业务需求
通过企业数据中台项目招标书,以及数据中台研究报告,我将其中涉及业务需求部分,通过词云热度分析,可以看到企业对数据中台建设的需求,主要是集中在以下几个核心诉求上:
其中最常被提的便是提升业务价值、提供数据服务和打破部门壁垒,这也正代表了多数企业对数据中台的真正需求。
可以解答最初的问题了,数据中台究竟是什么,或者说企业想要的数据中台究竟是什么样子的。数据中台不是技术体系,也不是一个具象的产品工具,它没有标准化的架构,但是一个成功的数据中台必然有其核心要素:
最后,别再纠结我需要不需要数据中台,我建设的是不是数据中台,或者数据中台这个概念和名字了,你建,或者不建,它都在那里,不来不去。