在人工智能、大数据等技术发展和企业数字化转型加速的双重驱动下,数据中台在众多赛道中脱颖而出,成为行业焦点。除了提供综合解决方案的互联网头部企业之外,专注于某一具体场景的中台服务商,以及转型中的CRM、ERP等企业也纷纷入场,市场竞争愈发激烈。大众对数据中台、数据平台、数据仓库等概念的辨析和理解存在的偏差,一定程度上造成了对数据中台概念的质疑和误读。经历过“追捧”和“质疑”等种种考验后,当前数据中台已经走到验证其价值的关键路口。
数通畅联成立七年来一直致力于提供开放、敏捷的集成产品和解决方案,目前也推出了K8S云管理平台全面助力数据中台,强势参与到这场如火如荼的“上云之战”。SOA数据中台治理方案能帮助企业连接不同的系统,允许部署和维护集成流,改善企业内部数据和应用程序之间的连接和协同,降低成本并提高使用速度,实现企业业务集成和数据集成,让集成更敏捷、让客户使用更便捷。本文将从数据中台的“集”、“存”、“通”、“用”、“治”用途的角度深剖析中台。
数据中台建设体现了数据治理的诉求,二者息息相关,相互促进与补充。企业只有构建和落地了完整的数据治理体系与机制,才能保障数据中台有效、快速解决数据类问题;同样数据中台的建设与应用,也会促进企业关注数据价值,注重积累高质量的数据,并通过数据应用驱动数据治理体系的健壮与完善。
1.管理的要求
随着企业规模的不断扩大和企业信息化建设的不断深入,企业内的信息系统应用越来越多,数据量高速膨胀,这些海量的、分散在不同角落的数据导致了数据资源利用的复杂性和管理的困难。同时,企业内部的业务区分或行政分化也在不断地制造着企业数据交互的断层。这样的趋势使得企业管理者对业务系统中的业务连贯性和数据的完整性予以了前所未有的关注,对核心业务实体的跨业务协同共享产生了具体的要求。
2.监控的要求
随着社会信息化进程的迅速推进,信息系统不单是实现风险评估、控制活动和内部监督的关键工具,更是企业内控体系的监控对象。数据治理保证了企业内数据的一致性、完整性和准确性,不仅能够形成完整、统一的数据视图,而且能够真实地记录变化历史,为管理决策、风险的识别和控制提供了坚实可靠的数据基础。
3.预测的要求
在过去,人们的决策主要是依赖 20% 的结构化数据,而大数据预测则可以利用另外 80% 的非结构化数据来做决策。大数据预测具有更多的数据维度,更快的数据频度和更广的数据宽度。与小数据时代相比,大数据预测的思维具有三大改变:实样而非抽样;预测效率而非精确;相关关系而非因果关系。
4.创新的要求
一切数据都是因为业务目标驱动而形成,产生于业务且又服务于业务。通过数据中台的松耦合数据服务可带来业务的复用,即便业务场景不一样,但很多的基础数据模型及算法可以被重复使用服务。经过清晰的沉淀、算法可以通过重新编排、组合,成为服务接口相应业务的基本需求。由于具备快速创新编排、组合数据服务的能力,企业可以以较小的成本投入来构建的系统中前所未有的,容许快速试错,这符合数据治理的创新要求。
1.体系架构
数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。支持海量数据的存储、计算、产品化包装过程,为前台基于数据的定制化创新及为业务中台基于数据反馈的持续演进提供强大支撑。数据中台可以解决数据孤岛、数据资产流失、数据服务能力不足、数据价值低的问题,最终使数据能够赋能业务场景、产生业务价值。
2.数据架构
企业服务总线将分散在企业各应用中的业务功能包装成标准的业务服务组件,如:ERP系统、仓库管理系统、采购管理系统、质量管理系统、财务管理系统等,通过总线提供的通信协议转换和智能路由,屏蔽企业底层技术架构间的异构性,为用户提供一个统一、标准的应用功能调用框架,将企业的多个隔离业务系统之间形成完全的松耦合关系,也可将网状的应用系统之间的依赖关系扁平化,极大提高应用的可移植性、可扩展性和可靠性。
3.集成架构
数据中台整个架构设计完全遵循SOA(面向服务架构)架构思想,以服务为手段将各种业务需求抽象成粒度不同的服务。在架构中,搭建统一的办公平台,具有对软件全生命周期的能力,从设计、到开发、到测试、到部署、到运维。通过开发平台开发各种服务,或者将购置的标准软件系统进行服务化,所有的服务都在架构中的服务注册库中进行注册,并对服务的全生命周期进行管理。各种应用之间,通过企业服务总线进行通信和消息传输,实现流程与流程的集成。整个架构基于企业服务总线,通过统一的对外接入服务与外部系统进行集成,实现信息的互联互通。
4.功能架构
企业构建数据中台时,要站在整体业务层面,从全局角度出发,基于底层信息化系统满足业务管理需求,数据中心主要通过数据技术,贯穿于业务与信息化系统之间,完成企业业务数据的采集、计算、存储、加工,过程中制定统一编码体系、数据标准和规范,将数据变为核心能力,为大数据管控平台实现及业务处理、场景创新、风险管控、决策反馈持续演进提供强大支撑。数据中台建设部分主要由主数据管理、数据集成服务管理、数据分析展现构成。通过数据分析结合主数据、大数据等技术,发挥数据集成、数据处理、数据存储、数据仓库、数据服务、数据展现能力。
数据源越来越多、越来越复杂,除了传统的应用系统以外,互联网的兴起形成了更为广泛的外部渠道。客户大多已不满足于原本封闭的数据来源,选择打开门户迎接大数据时代,以实现数据的共通共荣。面对如此复杂的数据源,如何有条理地对数据进行选择、采集,已成为数据中台面临的第一大难题。
1.收集的内容
主要根据需要分析的主题来对应收集相关的数据,为数据分析提供依据,数据分析的来源具有很多种,包括公司内部的系统数据、手工数据、公司外部的产业上下游数据、国计民生、社交数据等,根据不同的数据来源需要采用对应的采集工具及手段,保证分析数据的可用性、全面性。
• 系统数据收集
对于企业内部各系统中已经存在的数据,可以直接通过ESB数据总线在数据分析过程中与对应的系统对接,将现有分析的数据注册为数据源,根据分析模型的需要配置、拉取、计算、转换,实现分析模型的数据支撑。
• 线下数据收集
每个企业信息化建设程度不同,不是所有产生的业务数据均为系统提供,很多时候线下手工数据也是数据分析的数据源之一,通常采用DRP数据填报系统作为管理数据录入的重要工具,通过填报系统快速配置数据填报表单,实现数据的填写、修改,查看。
• 外部数据收集
外部数据也是数据分析中重要的数据源,例如互联网数据、市场调研数据、国计民生数据等,可以通过爬虫、网络抓取、平台合作或购买数据等方式获取行业、产业等外部渠道的数据,与企业自身进行对标比较,掌握行业的大方向的动态数据。
2.收集的模式
在数据中台收集数据的过程中,ESB应用集成平台负责实现异构、分布式系统之间互联互通,实现服务API治理以及数据传输交换。通过ESB预置的各种适配器组件,连接现有各孤立应用系统,以图形化、拖拽方式构建集成流程和服务,提高应用系统集成工作效率,降低异构系统集成风险。针对未来可能出现的业务需求变更,在应用集成平台上进行动态调整,实现各应用系统之间的集成策略平滑升级。
3.收集的过程
• 通过ETL进行数据收集
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据,ETL是BI项目重要的一个环节。
• 通过ESB进行数据收集
ESB作为数据交换平台,支持应用间批量数据交换和数据库间的数据交互,包括数据的抽取、转换和导入操作。数据使用系统不需要向不同的业务系统请求主数据的获取、同步,只需要通过ESB进行数据分发、下发等操作即可获取这些数据,帮助企业完成数据整合和数据中台建设。
数据收集之后要更好地为企业所用,就必须在数据中台中进行数据存储。但是,随着社会的发展,一切产品的智能化、数字化、数字量正以前所未有的速度迅速扩张。如果没有完善的预处理系统或存储方案,那么这些数据的堆砌采集是没有任何意义的。所以只有加强这方面的重视,才能更好将数据变成资产。
1.存储的方式
根据存储部分通过建立数据仓库,在数据分析与决策支持等方面为用户或机器学习提供服务,将采集及处理后生成的数据集持久化到计算机中,然而这里的数据仓库技术并不是传统BI商业智能所用到的简单的关系型数据库,而是可以支持大数据量、高实时性的数据分析场景。
项目中对于数据存储部分会采用高性能、高吞吐率、大容量的基础设备来提供及时性或近及时性的数据供于分析,对于简单的结构化数据,一般采用关系数据库,对于半结构化和非结构化的数据,则会根据实际场景使用Hadoop、列存储数据库Cassandra、文档数据库MongoDB、图数据库Neo4j、K/V存储redis等。
2.存储的过程
从各个业务系统中进行数据源的采集,将数据存储到ODS中,基于ODS创建数仓,支持关系型数据库和大数据存储两种形式存储,通过元数据管理对数仓数据进行分类管理。
使用数据建模模块创建数据之间的关系数据模型,在使用数据调动进行手动或者定时地调用ETL或者ESB来进行数据的获取,通过数据调度对参数进行配置并对其调动情况进行监控,数据在分析建模功能中进行数据分析模型的配置、分组等管理,展现配置中预置页面框架及多种组件(图表、表格、列表、查询、地图等组件),对挖掘数据统一配置、建模,最终以图形化、图表化的等多样形式将数据展现出来。
3.存储的结果
数据和数据之间天然存在着显性和隐性的关系,大数据的极致魅力在于通过这些关系的是识别和挖掘,创造前所未有的应用场景,带来预想不到的巨大价值。而要实现这一切,首先需要将数据进行物理层面的汇聚,让有价值的信息自动、快速地整合到统一的存储空间,为后续的数据开发、数据分析打好坚实的基础。
信息化系统的集成正逐步实现更为广泛的连接,万物互联将是未来集成整合的发展趋势。企业内部各个系统间进行集成,对数据进行治理,实现数据的同步和分发,实现信息共享。同时企业内部与外部、线上与线下的集成,能够打通业务边界,实现生态化。
1.连通的模式
从连通模式来看,当前的云平台基于K8S建设,容器化、多租户、微服务、DevOPS、持续交付等技术,可帮助企业快速、敏捷、灵活、高效、安全地交付业务软件。容器化是部署微服务的完美工具,在单个虚拟机上能通过容器化充分利用物力资源;微服务通过将功能模块分解到各个独立的子系统中实现解耦,将整个系统进行拆分,拆分成更小的粒度,保持这些服务独立运行;DevOPS能够快速、频繁且更安全地构建、测试和发布软件,为云原生提供持续交付能力。
2.连通的过程
通过主数据管理进行企业内部统一数据标准,为主数据标准化提供一个统一的集中式管理平台,为所有信息交互和数据交换集成提供统一的编码数据。之后实现主数据的清洗、提取、审查、发布、分发、变更等管理,保证数据质量管控。在主数据治理的过程中,企业服务总线作为辅助工具,完成数据的同步与分发。
数据集成与共享部分,通过服务总线或ETL工具实现各业务系统之间的数据交换与集成。上述操作完成后,以成果为基础,通过主数据标准化管理精确地实现历史数据治理,为数据决策分析奠定基础。
构建数据分析平台、数据仓库,通过元数据管理、数据建模、数据调度、分析建模、展现配置等功能分析掌握企业销售、经营、财务、成本、计划、人力等运营情况,为经营管理、绩效管理、风险管控等工作提供数据支撑。整体上帮助企业治理数据,梳理业务流程,提供战略支撑,为后续信息化建设奠定数据基础。
3.连通的结果
随着互联网的发展,企业所要求的业务连通不仅局限于传统形式下的内部之间的业务集成整合,还包括对外供应商、经销商、客户,企业涉及的行业、产业上下游之间的沟通协作。业务之间的联动是企业各层级统一存在的需求,只有从最基础的数据开始,打好底层基础,之后到系统之间的信息功能整合,屏蔽边界,最后实现整体业务流程的联动,才能避免信息孤岛的产生,真正实现企业内部信息的互联互通。
数据中台建设是一个综合性的系统工程,它本身并不能直接产生业务价值,数据中台的本质是支撑快速孵化数据应用,用技术连接大数据计算储存能力,用业务连接数据应用场景能力的平台。
1.使用的场景
• 分析配置
分析配置主要对数据分析整体布局的样式进行配置,包括导航配置、菜单配置、页面配置等,通过导航菜单配置对应的导航,每个导航能够通过选择主题、配置整体的布局样式,满足领导层级与各部门层级的不同的分析需求;通过页面配置对主题进行管理,包括分析页面整体样式、页面大小、展现方式、背景颜色等,同时可以支持移动端自适应显示,配置后将计算汇总的结果用图形化或表格形式展现。
• 数据服务
数据中台最重要的不是中台而是数据,但“纯粹”的源数据严格来说也不是数据中台的一部分,需要将其加工、处理、标准化形成数据服务和数据产品。数据中台提供多样的数据服务方式,将数据提供给数据应用方使用;数据中台提供定制化模板服务,数据以约定的格式或复杂加工后,提供数据应用放使用;提供数据管理、项目管理、开发管理、运营管理等支撑能力,为数据中台的持续化数据服务保驾护航。
• 计算分析
数据计算即对数据进行处理分析,包括对相关数据集的数据进行排序、归集,执行机器学习算法、实时流处理、分析预测等。在项目中需要根据用户具体的业务需求选择适合的算法,常见的算法包括回归、分类、聚类、关联规则挖掘、时间序列、描述性统计、神经网络等,用于实现对企业内外部数据的深度挖掘、特征提取、行为分析、轨迹预测等。
• 可视化展现
通过多维分析技术实现多维度、多角度、全方位的实时在线分析,包括数据的切片、切块、聚合、钻取、行列转置、钻取联动、层层穿透等多种分析样式,帮助管理者全局性掌握公司运营现状。在数据的配置及交互方面针对用户操作方式,模拟用户分析习惯,提供针对性的交互服务。数据展现部分提供多样化、丰富化的展现方式,包括但不限于饼图、柱状图、折线图、气泡图、面积图、省份地图、词云、瀑布图、漏斗图等酷炫图表。
2. 使用的方式
一方面,数据中台可以在云厂商提供的运行机制和基础架构之上,支撑企业营销业务应用的标准化及快速定制化,同时为企业提供数据采集、清洗、管理和分析能力,实现数据精细化经营。数据中台可以将企业内外割裂的数据进行汇聚、治理、建模加工、消除数据孤岛,实现数据资产化,为企业提供客户立体画像、商品智能推荐、业务员实时监控,助力企业实现数据驱动业务。
另一方面,数据中台不仅可以将原本不同系统相同功能的服务聚合起来,统一标准、统一规范、统一出口,实现业务的整合,还可以通过服务的聚合实现资源与能力共享,支撑新应用与新业务的快速开发与迭代,以满足快速变化的用户需求。
3.使用的规范
• 信息采集规范
数据总线平台的建设与应用并非是不关注业务,数据的随意流通。数据交换需要规范业务系统间交换的属性。信息采集规范就是指规范业务系统数据采集交换的方式、频率、加工策略等规范。例如:哪些业务系统的哪些数据要实现实时交换、哪些是触发交换;采集的数据是全量、增量还是根据某些条件进行交换;是通过数据库采集、文件采集还是服务获取等。
• 数据内容规范
数据内容规范指数据交换过程中数据清洗、转换的标准。要制定重复数据的基准、数据转换的基准、清洗的规则、共享的方式。例如:不同单位的业务系统可能存在对某段同样语义的描述信息,但是因业务系统开发商不同导致其信息存储的格式和内容会有区别,在其他业务系统需要这条数据的时候,此数据应该从哪个业务系统获取,或者是获取出来进行比对、分析、处理之后再交换到其他业务系统。
• 数据维护规范
数据交换的需求可能是多种多样,包括临时的需求和长期的需求。长期需求可能是建立综合数据库、数据中心或是把A系统业务库中的数据长期交换到B系统的业务库中,因此需要制定数据维护的标准,定义不同系统的不同业务数据采用数据维护的方式。
为了凸显数据中台的价值,需对数据中台的数据进行综合治理,构建标准化、流程化、规范化、一体化的数据治理体系,确保数据架构规划合理,数据质量良好、数据可管控、数据知识可传承。有效数据治理可以确保企业数据全面一致可信,从而全面提升数据中台数据资产的价值。
1.治理的作用
数据为企业的重要资产,随着企业信息化进程的推进,企业系统间的数据不能有效地交换与共享,影响数据的实时性、一致性和准确性,形成了数据孤岛。对于企业来说,有价值的数据不仅是各独立系统产生的数据,而是系统之间整合共享所得出的数据,数据孤岛的出现阻碍了这些数据的整合与共享。通过数据中台治理企业数据,梳理业务流程,可以打破数据孤岛,为企业发展提供战略支撑,为后续信息化建设奠定数据基础。
2.治理的内容
• 元数据管理
将数据资产用清晰直观的方式进行呈现,让数据资产真正被读懂、能利用,通过血缘分析和影响性分析,可以直观地了解到数据的来源、数据之间的关系、数据流向、数据被引用次数等重要信息,便于用户直观地把握数据资产状况。
• 数据标准管理
根据标准建设提供全面完整的数据标准管理流程及办法,用于决定和建立单一、准确、权威的事实来源,实现数据中台数据的完整性、有效性、一致性、规范性、开放性和共享性管理,并为数据质量检查、数据安全管理提供标准依据。
• 数据质量管理
数据质量管理以数据标准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。
• 主数据管理
主数据管理对需要共享的数据建立统一视图和集中管理,为各业务系统数据调用提供黄金数据。
• 数据安全管理
数据安全管理贯穿于数据治理全过程,提供对隐私数据的加密、脱敏、模糊化处理、数据库授权监控等多种数据安全管理措施,全方位保障数据的安全运作。
• 数据生命周期管理
数据生命周期记录数据从创建和初始存储,到它过时被删除的整个流动过程,对数据进行近线归档、离线归档、销毁和全生命周期监控。
3.治理的规范
• 制定统一数据标准与规范
通常在主数据管理项目中,典型的编码规则如下,以供应商为例:
(1)编码组成
供应商编码采用大写字母S(代表含义:供应商英文Supplier首字母)+9位无含义数字流水编码。
(2)编码说明
供应商编码由S+9位定长无含义流水码组成,编码顺序递增。
(3)编码结构及表示法
供应商编码结构为:
编码结构及表示法:
• 编制统一信息代码
按照数据标准和规范,对现有数据进行梳理和清理,基于前期对业务梳理与分析,规划设计一套基于统一编码的企业主数据管理模型,形成规范的数据代码库,以提高数据的共享性和唯一性,以供应商为例,具体规范如下:
4.治理的实践
• 业务配合,循序渐进
主数据管理项目具备行业性,相比普通IT治理集成类项目来说,不是实施方单方面就可以解决的项目,阻力风险都更大一些,必须以业务需求作为驱动,真正决定或推动主数据管理项目成功的是业务人员,而不是IT人员,项目中需要多让业务部门人员参与,了解企业的组织架构、业务流程,摸清企业主数据运用现状,实施方对客户业务特征、经营模式、业务流程的熟悉程度等。
• 标杆打造,加重理解
项目实施过程中要注重标杆客户打造。在实施过程中将一些典型的、常用的、标准的功能打造成样例,预置在产品及融入整体解决方案中,一方面为其它相同行业、相似场景企业做为参考样例使其更加理解项目的同时,加强对项目的重视和配合;另一方面预置的功能和熟悉的方案有效增加项目实施成功率及保障项目进度。
• 业务梳理,出具规范
实施前对业务的梳理十分重要,实施方要求具备深厚的行业知识和相关行业项目的交付经验,掌握行业特征、经营模式、运营管理流程,可以快速切入业务,并帮助客户的各部门进行有效的业务梳理,起到指导性作用。无论对于项目最初的调研、实施中的开发、上线前的联测,都需要有输出,出具相关标准规范,如:主数据治理标准规范、主数据清洗标准规范、系统开发规范、平台测试规范等。标准规范要经过严格评审把关,做到可落地,可实施。
• 产品结合,方案合理
有效的解决方案一定是根据企业自身业务情况来进行产品的组合拆分打造出来的,通常数据中台治理方案与ESB企业服务总线产品结合进行,MDM负责数据治理工作,ESB负责数据同步分发工作。数通畅联在任何项目方案的选择上,都会遵守方案合理规划、产品最优组合的模式,在企业信息化能力或业务需求没有达到构建标准的基础上,将合理利用企业现有资源,避免造成资源不必要的浪费。
• 整体规划,逐步上线
对于项目的实施需要按照整体规划、先易后难、逐步上线这几个步骤开展,首先根据项目进行多轮深入调研,了解各部门之间的协作关系、业务流程、数据共用情况,对业务进行梳理,过程中发现及反推业务中存在的问题并明确,基于调研梳理情况进行项目整体架构的规划,包括业务架构、系统架构、数据架构等,根据企业现有情况进行分步实施。之后功能实现先易后难,重点加强难点的攻克,过程中保证部分功能快速上线,用户稳定使用的同时,后续功能全部采用灰度升级,推进项目顺利验收。
• 切合实际,正视冲突
始终以务实的态度实施交付,意在从整体IT架构层面真正解决企业内部数据混乱、重复、不完整等问题,治理成果可以被复用,为后续信息化建设平滑接入奠定良好的基础,而不是限于表面工程,中看不中用。除此之外,项目中不可避免与各部门人员、企业信息部、应用系统厂商进行业务交互、梳理,而部门间的不配合、系统厂商间的相互推诿、信息部的理解不到位很容易发生扯皮冲突的情况,勇于正视这种情况,很多时候这种情况也是推进项目,有效解决问题,沉淀经验教训的一种手段。
1.数据的延展
随着数据中台建设进程的深入,大数据分析给传统数据分析和处理技术带来了很多挑战。云计算和开源技术的发展推动了大数据落地,分布式存储、非关系型数据库和并行处理技术逐步成为大数据应用实施过程中的关键技术。大数据可以对采集到的所有海量数据进行分析,分析用的数据有由采样数据扩展至全部数据;其次,分析用的数据源从传统单一领域的数据扩展到跨领域的数据,大数据可以将不同领域的数据组合后进行分析;再次,大数据基于有关关系的数据源相同可以分析预测出正确的结果。
2.连接的延展
中国经济发展已进入以“中高速、优结构、新动力、多挑战”为特点的新常态。“产业规模第一,门类最为齐全”既是中国工业的优势,也是全球面临的资源问题在中国更为严峻,走新型工业化道路的需求也更为迫切。数据中台的风靡加速了各行业各领域的融合并向工业互联网转变。推动互联网与工业的融合创新,形成多重优势叠加,驱动工业数字化、网络化、智能化发展,让物联网产业迎来加速发展契机。
3.智慧的延展
随着数字经济热度攀升,各行各业积极把握时代机遇,大力推动新基建、大数据中心建设,加快推进各产业的数字化进程。数据中台不仅能挖掘数据价值为目标,而且能以开放的形式集合多厂商智慧,将势能转化为动能,形成驱动力,全面应用于新型智慧城市、公共安全、社会治理、数字政府、城市大脑、智慧交通等领域。数据中台的快速落地应用,能全面提升立体化治安防控体系建设及精细化社会治理水平,支撑服务国家治理体系及能力现代化升级。
在市场红利逐步放缓的前提下,数据中台将最终成为企业苦练内功过程中的抓手。而进入稳定期的企业往往到了该拼精细运营的时候了,所以大家都将希望寄于数据中台技术,来帮助企业最大化内部能力复用,从而实现高效的运作以及成本的压缩。
但是从布局到实践,数据中台虽然经历了疫情时市场的空白期,可是未必所有的企业在未来几年中都能够依靠数据中台来拼精细化运营,其中的步骤、实际情况也可能不适用于每个企业的所有阶段。因此,适合自身业务架构和组织架构,以及随之构建的技术架构才是最适合企业成长的架构,面对数据中台也不能一窝蜂地追捧,需要冷静对待,将之化整为零,从中选取部分的需求。
本文由@数通畅联原创,欢迎转发,仅供学习交流使用,引用请注明出处!谢谢~