腾讯面试官:“ 我们部门是AI组下面NLP全栈,包括前台、中台、后台.....,你做过数据中台么?“
我:”.....(啥是中台??)“那不好意思,到此你的面试就结束了。
造概念这个词,IT行业的各位可能并不陌生。中文博大精深,我很佩服可以发明出新名词、新概念的人,这些词简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏、各有趣味。
比如“中台”这个词就是其中之一,自从阿里提出的“大中台,小前台”之后,各种中台概念就被生造出来了,鱼龙混杂;许多旧的架构也摇身一变,被包装成各色中台……这不禁让我们深深怀疑:中台这东西,到底靠谱吗?
在回答这个问题之前,我们先看看数据中台应该怎么理解?
它是工具?是方法?还是组织架构?我的回答是:都有,但都不全是。
企业所属行业不同,经营策略不同,从而数据场景也千差万别。再加上企业人员运用数据的能力参差不齐,这就导致了每一家企业的数据中台都是独一无二的,不是购买一个所谓的数据中台工具就能解决的。
数据中台的本质就是“数据仓库+数据服务中间件”。中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。
图片来源于网络
给大家举个生动形象的例子吧:小渔村的改革自强之路。
1. 海边有个小渔村,准备搞市场经济,把村子发展为鱼塘,大家可以把这个“鱼”想象成“数据”。
2 由于每位村民捕鱼技巧和喜好不同,所以他们从大鱼塘捞上来的海鲜品种也不一样,于是最原始的业务数据积累就产生了。同时,海鲜腐烂,就是业务数据多源异构的问题,质量和时效参差不齐。
3. 整个村子生意越做越不错,很多临近的村子前来主动采购,于是“数据需求”开始呈现出卖方市场的迹象。因此村长又决定海鲜市场做销售批发,并成立专门的运输团队。这样不仅保证了时效有统一保障,大家的货损都少了,这可以理解为数据平台成立了。
4. 村长又发现,由于客户对于海鲜的做法不同,有些人并不太在意新鲜程度,因此决定建立一个大型冷库,这就是我们常说的数据仓库的构建。
5. 整个村子奔小康,而且贸易更加频繁、市场成长很快,因此村子里铺设了符合国家标准的铁轨、修建了车站,还兴建了国际港口,符合万吨轮级别的航运要求。这就是中台提供标准的数据接口,不仅执行数据接入,还提供数据订阅、数据消费的作用。
1. 在中台能力及资源充足的情况下(包括业务知识、技术能力、人才积累),提供数据产品、数据服务。
一般而言,数据应用是上层的概念,让用户去使用的东西,无非不过是:
2. 在中台业务能力及人力资源不充分、但体系相对成熟的情况下(包括数据体系、技术体系),提供平台级别的能力,包括数据平台能力、技术平台能力、建模平台能力等,甚至是数据本身。
以前当我们可以提供较完备的数据仓库/集市的时候,产生了自助式的BI分析,解决了业务人员需求报表,但技术人员来不及做的尴尬;现在我们也理应打造这样的中台,通过这样的能力,给业务人员提供自助式的、一站式的、从产生数据到产生价值的完整通路。
3. 在中台人力资源和对业务领域知识理解不充分,平台级别能力也无法满足要求的情况下,作为算力基础平台提供服务。
当提供这一种能力的时候,数据中台的人力投入应该是最低的,但需要进行资源的日常监控和任务管理。
很多人会疑惑这个点,同样是很火的东西,大数据平台与数据中台的差别在哪里呢?
其实,数据中台与大数据平台最本质的区别在于数据中台是具备业务属性的,输入的是原始数据,输出的是指标。
如果我们把数据中台看作是一个汽车工厂,那大数据平台就是工厂中的设备,Hadoop 集群则是工厂运作所必须的水、电、煤。
Hadoop提供的是大数据生产所必须的计算和存储资源,大数据平台使得数据开发人员具备了对数据的加工和处理能力,但还不能提供产品,这么多的原始数据,要按照一定的方法论,进行良好的组织,加工,才能生成最终的指标。