其实大数据行业发展到现在,最大的痛点并不是数据的可视化和分析问题。而是庞大业务数据的预处理。
NO.1 80%-90%的项目时间大量花费在将不同来源的业务系统中的数据传输到同一个地方进行整合的过程中。
这里面存在的时间成本、用工成本、实施成本问题(规则定义、清洗、字典转换、传输、安全、性能……)亟待解决。
而一旦数据进入企业数据网络信息中心仓库后,不管是分析还是可视化的问题都有解决方案,而在如何快速精准处理这些业务数据上却鲜有解决之道。
ETL就是解决这个问题的关键工具。
ETL,Extraction-Transformation-Loading的缩写,中文名为数据抽取、转换和加载。
ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
NO.2
如果说数据仓库的模型设计是一座大厦的设计蓝图,
数据是砖瓦的话,
那么ETL就是将砖瓦分类、清洁、运输、存储的过程。
在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%,工作时间占到整个项目时间的三分之一。这是国内外从众多实践中得到的普遍共识。
大数据ETL工程师到底有多稀缺?
拿招聘企业举例,很多企业明明知道自己缺这个人,也知道这个人要什么样的,以及他需要掌握哪些技术,但就是招不来。
社会上会这个技术的人太少了,我们合作的一家企业岗位挂了两个多月了,只收到了1个简历,更别说在行业里深耕五六年甚至更久的技术人才了,那基本上都是公司的“珍宝”。
大数据这个方向还是缺少底蕴。对比其他行业方向,十年以上的专家比比皆是!大数据这个技术方向满打满算才发展不到六七年,所以说十年以上的大数据专家非常之稀缺。
1、在这个行业里,真正五年以上的大数据背景的人,已经可以算的上是半个专家了,业内绝对是稀有动物;
2、而诸如三四年的,会点数据架构,又会点上层数据应用挖掘的,估计至少也能算的是半个中坚了,这种人不算太少,但也绝对不算多;
3、最多的是那种不到两年大数据行业背景的,特别是那种听闻大数据行情好,纷纷转过来一两年左右的,再就是那种一毕业就立志投身大数据行业的新人朋友,这类型的人应该是占据大数据从业人士中的绝大部分。
巨大的人才缺口问题一直悬而不决,这也给了我们转行大数据ETL行业一个契机。
这样的情况意味着你作为一个新人有相当大的机会能够脱颖而出,成为行业里的精英。