数据挖掘会饱和吗?学大数据还有机会吗?这是很多计算机专业的学生,编程和算法技术员考虑的问题。
数据挖掘不是独立市场,而是解决各领域问题的方法和工具,生物、制造、零售、金融等等领域都越来越依仗对数据的利用和挖掘,数据挖掘所面对的市场是很多行业的市场。
要说数据挖掘应用饱和,除非各个领域都已经发展到了瓶颈没有上升空间,而这是不可能的。要说数据挖掘人才饱和,数据科学家/分析师已经成为各企业的标配,现在看离这个标准还差得远呢。
但也不得不说现在数据挖掘发展情况没有很理想,这也和数据挖掘人才不足有一定关系。
数据挖掘是泡沫吗?你说它是泡沫,那它却有一些如智能推荐、风险捕捉等高价值场景你不能视而不见吧。但你若说它不是泡沫,却有太多的灌水论文是关于它的,这些论文只有作者自己写很嗨,等拿到生产环节中一试,这什么XX玩意儿。
说到应用,除了那几个经典的场景外,身边没有什么实实在在的、落地的案例,这样的应用量级与它在舆论中的地位比起来,可以说是有些丢人。这好比一个隐居的大名士,大家都说这人厉害,不出山都是一种损失,终于他在一众追捧之中出山之后,却发现这人只能做个县令。
我的看法,数据挖掘不是泡沫。
第一,它背后是数据库技术,是统计学,这些都是硬的不能再硬的知识。它的核心是对数据进行深度的计算,让数据展示其潜在的信息,这一处理过程就是使用数学、统计学方法对数据进行计算,数据经过这样的加工之后,确实会展示出其隐藏的一面,所以他的本质并不泡沫。
第二、有很多人使用这样的方法来帮助自己工作,这是从上个世纪就有的,今天依然很多,数据挖掘这样的技术确实帮他们解决了问题,带来了价值。还有,我也是相信高校一定看的比我要远的多的。
那么,如果数据挖掘不是泡沫,是什么原因造成了当前这种模糊的状态呢?
第一、人才缺失
这一条应该很多人不服,一板砖拍到程序员堆里都要有两个是做数据挖掘的,怎么还会缺人呢,甚至知乎中已经有“做数据挖掘/机器学习的人是不是饱和了”这样的问题。我们需要更细一层的分析,数据挖掘的人才可以分成三类:
- 第一类是研究型,研究算法做本质上突破的人,这类人在任何时候都是紧缺的,当然大部分人都不属于这一类人才。
- 第二类是应用型,能够跨领域将数据挖掘技术应用到自己所在领域的人。对算法内部原理不需要很懂,技术上只需要知道怎样应用就够了,重要的是能够熟悉某一业务领域,并且能够针对业务领域的问题提出解决方案,使用数据挖掘技术来解决。这一类人才是目前最为紧缺的,数据挖掘应用现在很少,主要是由于这一类人才的缺少。
- 第三类是数据挖掘技术使用人群,有学生、有程序员,会用数据挖掘技术解决手头的问题,但是对算法没有深入的研究,也没有将数据挖掘落地到生产的能力。
所以,现在依然是缺少人才的,尤其是应用型人才。
第二、网络或舆论氛围浮躁。
浮躁是几个原因造成的
- 需求氛围上,多数人也不过是叶公好龙,很多技术概念都是这样,去年的数据中台被阿里提出来之后,很多企业好像一下子就懂了,也纷纷跟着搞数据中台一个样子,实际上很多企业到底什么是数据中台也没搞明白。
- 知识氛围上,研究算法、机器学习、人工智能等等这些技术的人越来越多,这好事没毛病。另一方面灌水的论文也确实不少,论文中算法调来调去预测准确性到90%都可以,但这些论文真的有几个可以拿到生产中去验证和使用?
- 商业环境上,软件公司也加了一把火。近年来有很多资本投资机器学习相关的初创公司,这些公司为了拿到投资也“制造”了很多案例,我见过很多宣传诸如“算法准确率超过google”、“500强企业xxx在用我们产品预测xxx”,和灌水的论文一样。
虽然现在还有各种各样的问题,但毕竟数据挖掘本身是一个很实用的应用型技术,它给社会给企业带来的价值早晚会得到更多企业的认可。数据挖掘冲出泡沫的方式,我觉得会有这样两种。
第一,通过更多基于数据挖掘技术的应用软件走进企业。虽然已经有一些企业开发并应用了推荐、风控等场景,但企业数量还是很少的,并且这些应用通用性不强。
若要让更多的企业享受数据挖掘技术的福利,需要有类似于OA、CRM这样的有更强的通用性,可以被更多企业接受和使用的软件。
第二,企业中有自己的应用型人才,能够搭建企业内部的挖掘应用。不同于OA、CRM或ERP之类的软件使用,这种模式更类似于现在企业中数据分析系统,例如报表平台或bi平台,这些数据分析应用,往往由企业自己通过一些比较好用的工具如finereport/finebi自己建设起来的。
(此处已添加小程序,请到今日头条客户端查看)数据的分析和应用灵活且多变,即便企业开始是由软件公司开发的报表或bi系统,多年之后这个系统也不会是项目当初的样子了。正因为企业自己在数据分析应用中发挥着主导作用,数据分析在企业中发展非常迅速,也受到很大认可。
数据挖掘的应用也有类似的特点,数据挖掘的应用点不会是单一的,很多数据深度挖掘后会展示出新的一面,企业中的数据也有不同的维度和模块需要深度挖掘。并且随着企业的发展,数据会跟着变化,挖掘应用也需要随之调整,企业自身有能力开发并维护挖掘应用,更有利于数据挖掘在企业中推广和应用。
这两个相比较,我更期待第二种情形的出现,这会有更多的可能性,也一定能给企业带来更大的价值。但这也有一些条件现在还没有满足,主要还是人才问题,当前企业中能够使用数据挖掘的人很少,能够将技术和业务痛点结合起来形成落地应用的人更少。满足这一条件有两种方式:
第一是大量的数据挖掘技术人才走进企业,这点还是比较困难的,一方面短期内看不出企业中有哪些数据挖掘的用武之地,企业本身就不会在此投入太多,另一方面供需双方对收入的期待水平相差太大。
还有另一种方式,就是企业原有的it人才可以掌握数据挖掘技术,这一个方向我觉得是可行的。一方面很多企业的it人员对业务是有一定理解的,并且长期负责企业数据,有很强的数据思维,具有针对业务痛点形成解决方案的基础。
另一方面当前很多企业的it人员有意愿学习更多的数据技术,提升自身竞争力,这种驱动力是不缺的。