你点开这文章,说明你清晰知道了数据才是一切的基础。马运说:数据是信息时到的石油,确实如此。
人工智能、机器学习、**行业大数据等应用的基础都是基于这样的一个流程,万变离其宗。只是说运用领域不同,那么偏重点不同。另外,不要动不动就说大数据,现在绝大多数只是大量数据,还没到大数据的程度。还有一些只是小数据,甚至小数据都没到。
本文从数据采集到数据报告,详细说明了大数据运用过程与环节,为大家树立整体的意识。
第一步:数据采集(DAQ)
没有数据,也就是食材,后面的工作都无从谈起。所以,第一步是数据采集,又称数据获取,这就是数据的来源,一般数据是来源于自身业务开展中的信息,比如自己的数据库日志,交易流水等;另外就是除了自身数据外,可以使用第三方外部网络数据,比如爬虫抓取、引用外部API接口等。采集什么数据,由业务决定,需要做什么事,就采集什么数据。数据有内部数据,有外部数据,看你要做什么菜,给谁吃,从而决定准备什么食材,采集什么数据,以及从哪采集,怎么采集。
第二步:数据预处理
不管是内部数据,还是外部数据,在实际场景中,结构化数据与非结构化数据都是大量存在的,并且直接面临的问题就是数据的多、杂、乱、错、冲突、歧义等情况。针对这些第一手数据进行整合优化,根据相应的目标清洗垃圾,统一格式规范,验证数据可靠性,筛选对应需求的数据。
目前存在四种主流的数据预处理技术
1、数据清理:
数据清理例程通过填写缺失值、光滑噪声数据、识别或者删除离群点并且解决不一致性来“清理数据”。
1)数据清理方法
(1)缺失值
对于缺失值的处理一般是想法设法把它补上,或者干脆弃之不用。一般处理方法有:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的中心度量填充缺失值、使用与给定元组属同一类的所有样本的属性均值或中位数、使用最可能的值填充缺失值
(2)噪声数据
噪声是被测量变量的随机误差或方差。去除噪声、使数据“光滑”的技术:分箱、回归、离群点分析
2)数据清理的过程
数据清理过程主要包括数据预处理、确定清理方法、校验清理方法、执行清理工具和数据归档。数据清理的原理是通过分析“脏数据”产生的原因和存在形式,利用现有的技术手段和方法去清理“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。
3) 数据清理的工具
采取高效的处理工具对数据进行处理。其中常用的工具有Excel、Access、SPSS Modeler、SAS、SPSS Statistics等。
2、数据集成:
数据集成过程将来自多个数据源的数据集成到一起。
3、数据规约:
数据规约的目的是得到数据集的简化表示。数据规约包括维规约和数值规约。
4、数据变换:
据变换使用规范化、数据离散化和概念分层等方法使得数据的挖掘可以在多个抽象层上进行。数据变换操作是引导数据挖掘过程成功的附加预处理过程。
第三步:数据分析
数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。
从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。
数据统计: 数据统计包括数据分析与结果分析,基本的分析方法有:
对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析对比从中挑选一定的模型。
从上面我们可以看出,统计学概念在数据分析中的作用:比如方差、标准差、相关系数、均方根误差等; 集中数据分析的基本方法:假设检验、回归分析、误差分析等; 统计图形分析:散点图、直方图等来探索数据中隐藏的规律; 数据库以及数据整理。
在数据分析的过程中,应用场景不同,侧重点不同,那么算法也不同,深度分析就会是数据挖掘;不需要人的参与,那么就变成了人工智能,在整个过程中,更多涉机器学习,算法训练等领域的内容,后续展开说明。
第四步:数据呈现
数据呈现,通过一些可视化图形或者报表形式进行展示,增强对分析结果的理解。可以以报表形式或PPT形式展示结果。针对结果进行数据再分析,使得整个业务环节形成闭环。
例:知识图谱
最后:
如何成为一名出色的数据PD/PM/leader
①懂业务。从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。
②懂管理。一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。
③懂分析。指掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
④懂工具。指掌握数据分析相关的常用工具。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,我们不能依靠计算器进行分析,必须依靠强大的数据分析工具帮我们完成数据分析工作。
⑤懂设计。懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。