很多人在做数据分析的时候,不知道怎么去开展,或者怀疑自己做出的分析报告是否合理、是否全面,这是因为你对这一套标准化流程没有真正的理解。
如何通过科学的流程,来得出有价值的分析和建议?今天我们就来讲一下。
来看一下标准化流程的九个步骤:
明确问题——先把问题定义清楚,因为很多人还没理清问题就直接去看数据了;
搭建框架——定义问题之后再把问题考虑全面、找到一条分析主线;
数据提取——用 MySQL、Hive 等工具提取相关数据;
数据分析——以数据分析方法论为主来分析数据;
数据展现——用 Tableau、Excel、R、Python 工具把你的数据展现出来;
撰写报告——考验你的文笔功底以及整体逻辑性;
报告演讲——考验你沟通能力,表达能力,被提问能力。所有的报告撰写完成之后不要直接去讲,还是要和业务方进行大量的沟通,如果不提前做好沟通,你在会议或公众场合上讲时很容易被别人挑战;
报告闭环——这是最难也是最大价值的地方。
这里面的数据提取、数据处理、数据展现是数据分析师前期的基本功,以工具为主,都是比较容易学到的,也比较容易完成。而明确问题、搭建框架、撰写报告、报告演讲、报告闭环更多是考验分析师的综合能力以及智商、情商,所以这块往往需要很多时间去沉淀。
基于数据分析这一套标准化流程,其中涉及一些行业常用的工具,这些工具都能做什么?如何匹配不同的场景去使用?下面我简单讲一下。
1、MySQL、Hive:
基本上所有的数据获取方式都是通过 MySQL、Hive 这两种语言来实现,同时你要学习一些 linux 命令,因为在排查数据异常时会用到。你需要对这两门工具超级熟练,因为数据提取环节是不能出错的,这一步有问题,后面就都有问题。
2、Excel:
Excel 是最高频的数据处理工具。工作中你经常遇到的一种情况,你的 leader 直接让你现场画个图,这时你最有可能用 Excel 而不是 R、Python。
3、R:
R 是一门统计型语言,专门为数据分析而生,简单易学,但缺点是计算能力确实比较差,你导入两个 GB 数据就有可能导致死机。
4、Python:
一门脚本型语言,可扩展性极强,算法必备,但是计算能力确实比较差,你导入两个 GB 数据就有可能导致死机。
作为数据分析中最常用的两种编程语言,一直有同学好奇 Python 和 R 有何异同。
Python 和 R 相比, R 的机器学习算法语言 Python 都能很快实现,而对于下面所说的几种情况,R 稍微来说就有一点难度了。
爬虫:爬虫在工作中价值很大,比如爬取一些竞品的数据,用 R 不方便。
比如资讯类 App 的很多文章是通过爬虫下发给大家,像今日头条的一些文章。
文本挖掘:对评论数据研究价值很大,比如对 App 评论数据的分析,从而知道如何去做评论运营闭环。
如京东网易 App 的评论运营,其他 App 的热点评论置前。
UDF 函数:Hive 自定义函数有时并不能满足需求,此时就需要自己定义函数来实现需求,这时就可以用 Python 写个 UDF。
如计算机尼系数,在 Hive 中直接调用 UDF 能够很快输出。
对于算法研发同学:个性化推荐、底层运维、Web 开发都是通过 Python 来实现。
总而言之,Python 是非常强大的第三方库。
不管什么样的工具,都是为实现目标所用的“术”,但若想完整的跑通业务,还需要数据思维、业务拆解、方法论这种“道”,希望同学们都能既掌握“术”,更掌握“道”,成长为优秀的数据分析人才!
本文转自公众号:勾勾谈数据分析
欢迎大家去找勾勾畅谈数据分析哦