您当前的位置:首页 > 互联网百科 > 大数据

数据分析师必备的9大技能,大多数人只知道一半

时间:2019-10-18 16:34:06  来源:  作者:

昨天有位刚入行数据分析的朋友跟我吐槽,自己入门到现在只会用Excel做做分析图表,但是感觉越做越没有价值,数据分析似乎就是业务数据的分析员,不知道该如何提升自己。

这是因为他没有完全把数据分析的价值挖掘出来,数据分析是为了通过对数据现象的查看来完成对产品、营销策略、运营策略的优化,不仅是对业务,更重要的是要掌握数据分析的各种技能,从能力增长上突破职业的天花板。

根据我总结的经验,一个合格的、高级的大数据分析师必须要掌握以下9种技能:

  1. 统计分析:大数定律、抽样推测规律、秩和检验、回归、预测;
  2. 可视化辅助工具:excel、BI工具、Python
  3. 大数据处理框架:Hadoop、storm、spark
  4. 数据库:SQL、MySQL、DB
  5. 数据仓库:SSIS、SSAS
  6. 数据挖掘工具:Matlab、R语言、python
  7. 人工智能:机器学习
  8. 挖掘算法:数据结构、一致性
  9. 编程语言JAVA、python
数据分析师必备的9大技能,大多数人只知道一半

 

一、统计分析

众所周知,统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不那么准确,比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的的。而统计学可以帮助我们以更科学的角度看待数据,逐步接近这个数据背后的“真相”。

大部分的数据分析,都会用到统计方面的以下知识,可以重点学习:

  • 基本的统计量:均值、中位数、众数、方差、标准差、百分位数等
  • 概率分布:几何分布、二项分布、泊松分布、正态分布等
  • 总体和样本:了解基本概念,抽样的概念
  • 置信区间与假设检验:如何进行验证分析
  • 相关性与回归分析:一般数据分析的基本模型

了解统计学的原理之后,你不一定能够通过工具实现,那么你需要去对应的找网上找相关的实现方法,也可以看书。

先推荐一本非常简单的:吴喜之-《统计学·从数据到结论》;也可以看《商务与经济统计》,结合业务能更容易理解。

另外,如果想要更进一步,请掌握一些主流算法的原理,比如线性回归、逻辑回归、决策树、神经网络、关联分析、聚类、协同过滤、随机森林。

数据分析师必备的9大技能,大多数人只知道一半

 

再深入一点,还可以掌握文本分析、深度学习、图像识别等相关的算法。关于这些算法,不仅需要了解其原理,你最好可以流畅地阐述出来,还需要你知晓其在各行业的一些应用场景。如果现阶段不是工作刚需,可不作为重点。

二、可视化辅助工具

数据可视化主要通过编程和非编程两类工具实现,对于普通行业的数据分析师来说,不需要掌握编程类的可视化工具,学习麻烦而且没有必要,掌握下面几种即可:

1、excel

别以为EXCEL只会处理表格,你可以把它当成数据库,也可以把它当成IDE,甚至可以把它当成数据可视化工具来使用。它可以创建专业的数据透视表和基本的统计图表,但由于默认设置了颜色、线条和风格,使其难以创建用于看上去“高大上”视觉效果。尽管如此,我仍然推荐你使用Excel。

2、BI工具

近几年冒出来的BI之秀,如TB、qlk都强调可视化,一改传统BI工具SAP BO、IBM家的cognos(不过近几年貌似都在研发云BI)。这里不谈开源,还没见到能成熟应用的BI。成熟的BI工具如 FineBI (国内)和 Tableau(国外),都很推荐。

数据分析师必备的9大技能,大多数人只知道一半

 

tableau可视化探索分析很赞,数据量多的时候性能较差,企业用多并发价格贵。FineBI 国产帆软,为数不多能占据世界领先地位的数据工具,重在数据处理性能和企业应用的复杂情况(市场步伐很快),自带ETL,可视化还行,价格良心,个人用免费。

3、python

学过Python数据分析的朋友都知道,在可视化的工具中,有很多优秀的三方库,比如matplotlib,seaborn,plotly,Boken,pyecharts等等,这些可视化库都有自己的特点,在实际应用中也广为大家使用。

如果你不知道数据分析该学什么工具,就直接学python吧,万能语言学了不亏。

三、大数据处理框架

如果你想脱离普通业务的束缚,做一名大数据分析师,首先就要了解大数据框架的基础。

大数据处理框架负责对大数据系统中的数据进行计算,数据包括从持久存储中读取的数据或通过消息队列等方式接入到系统中的数据,而计算则是从数据中提取信息的过程。

我们按照对所处理的数据形式和得到结果的时效性进行分类,分为批处理系统、流处理系统和混合式系统。典型的批处理系统就是Apache Hadoop;典型的流处理系统有Apache Storm,Apache Samza;混合处理系统比如Apache Spark,Apache Flink。

数据分析师必备的9大技能,大多数人只知道一半

 

四、数据库

数据分析是分等级的,有只负责清洗数据的,比较少,工作也比较简单;还有就是负责建模的,掌握常用的十多个机器学习算法就能是二流的了,要做到一流的就要熟练掌握各个算法的本质了,也就是要掌握数据库的基础。

sql在数据库里是核心技术,在数据分析学习时一定要重视这些内容,主要以MySQL为主,MySQL就是互联网行业的通用标准。

当然,如果你想要快速掌握数据库的知识,一定要进行系统化的学习以及大量的练习,在网上寻找一些数据库的练习题,先从简单的题开始,循序渐进,这样才能够慢慢的深入数据库的核心知识。

五、数据仓库/商业智能

在进行数据分析的时候,我们总会遇到一些名词,比如数据仓库。数据仓库是数据分析中一个比较重要的东西,数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。

数据分析中的工作最重要的就是数据处理工作,根据我做数据分析的经验,在整个数据分析流程中,用于数据处理的时间往往要占据70%以上,而数据仓库具有集成、稳定、高质量等特点,基于数据仓库为数据分析提供数据,往往能够更加保证数据质量和数据完整性。

数据分析师必备的9大技能,大多数人只知道一半

 

六、数据挖掘工具

在做数据分析时,数据挖掘软件是其中必不可少的工具之一。它是大多数商业智能计划中的核心应用程序,数据挖掘软件同样也能够从大量数据中提取洞察力。

直接说需要学习的语言:MATLAB、Python、R。

1、MATLAB

虽然偏学术性,但是好上手,上手以后就可以跑一些算法,提高一些信心和学习的乐趣。教材看官方手册的Primer,然后就开始写脚本和函数,如果有看不懂的直接百度、google或者help。

2、Python和R

这两个放在一起,是因为网上关于这两个的争论太多了。我的顺序是首先学python,其次再是R。首先python,先看《Head First Python》,简单易懂,然后是《利用Python进行数据分析》和《机器学习实战》。第一本书主要是利用Python做数据挖掘的,基本提到Python学习都会推荐这本。第二本是理解机器学习的佳作,书中用到的语言就是Python,一边学语言,一边理解机器学习。

数据分析师必备的9大技能,大多数人只知道一半

 

七、人工智能

严格意义上,人工智能与数据分析有着明显的界限,不属于同一领域,因此这一条是针对大数据分析科学家来说的,当你的分析能力还比较低时,可以略过不看此章。

机器学习、人工智能涵盖的知识层面太广太深,所以会建议采取 problem-based learning 的学习方式,先选定问题,然后找到资源来解问题,再更深入的去了解,解问题过程中,遇到的名词与知识。

数据分析师必备的9大技能,大多数人只知道一半

 

八、挖掘算法

很多人认为数据挖掘需要掌握复杂高深的算法,需要掌握技术开发,才能把数据挖掘分析做好,实际上并非这样,其实算法并不难,只需要结合实际业务背景、以解决问题为导向就简单很多了,主要包括分类算法,聚类算法,关联分析,连接分析等,是学习数据挖掘必须要掌握的算法基础。

九、编程语言

比如python、r语言、java等等,你该使用哪种语言用于数据分析?恐怕这还得“视情况而定”。

如果你对晦涩的统计运算进行繁重的数据分析工作,那么你不青睐R才怪。如果你跨GPU进行NLP或密集的神经网络处理,那么Python是很好的选择。如果想要一种加固的、面向生产环境的数据流解决方案,又拥有所有重要的操作工具,Java或Scala绝对是出色的选择。



Tags:数据分析师   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
1 内容总概不管是数据分析还是数据运营,少不了做分析报告,通常一份简洁的分析报告总是令人眼前一亮,但是,大部分同学拿到一组数据时,不能很好的应用,没有思路、想法和头绪,这里作者...【详细内容】
2021-09-14  Tags: 数据分析师  点击:(46)  评论:(0)  加入收藏
随着数据分析岗位招聘越来越内卷,问“你用过/建过什么模型”的也越来越多。这个问题很容易给人“面试造航母,工作拧螺丝”的感觉。实际工作中,真的要搞那么多模型???搞得很多同学...【详细内容】
2021-07-13  Tags: 数据分析师  点击:(70)  评论:(0)  加入收藏
明确目的带着问题出发,明确我们的目的是探索不同岗位、城市、公司数据人薪资是怎样的,所以是一个探索性分析。数据处理1、查看并理解字段拿到数据,大概看一下,总共有184条记录,量...【详细内容】
2021-07-06  Tags: 数据分析师  点击:(90)  评论:(0)  加入收藏
数据分析师的真实现状 近几年很多人想转行数据分析,不少人坚信可以在数据分析师这条职业之路上跑的远,跳的更高。可惜,现实中在企业公司中张嘴闭嘴提到的“数据分析师”,远远不...【详细内容】
2021-04-07  Tags: 数据分析师  点击:(176)  评论:(0)  加入收藏
一、漏斗模型1898 年,一个美国人提出了漏斗模型的概念,后来被总结为AIDA模型,从吸引客户的注意,到引起客户的兴趣,再到产生拥有的欲望,最后形成购买的行动,每个环节都会有客户流失,...【详细内容】
2021-03-16  Tags: 数据分析师  点击:(146)  评论:(0)  加入收藏
这几年越来越多的小伙伴涌入数据分析行业,呈现出井喷现象。每每有读者和学员问我如何转行、行业发展前景和个人发展路径,我都会提醒大家大家透过现象看本质,不要只是被表面光环...【详细内容】
2020-09-17  Tags: 数据分析师  点击:(140)  评论:(0)  加入收藏
引言很多年后,回想起今天努力学习新技能的自己,我会对自己说,“当初就是从一份免费课程开始,让我抓住了这个时代的机会”。 基础准备数据分析培训基础免费学。本章导览在互动模...【详细内容】
2020-07-17  Tags: 数据分析师  点击:(93)  评论:(0)  加入收藏
我今年30岁了,已经工作了快8年,上有老下有小,但是我看不到自己工作的未来,想辞职又不敢,这种情况下可以转行吗?一般情况下,我不告诉当事人晚或者不晚这个非黑即白的答案。因为懂的...【详细内容】
2020-03-11  Tags: 数据分析师  点击:(103)  评论:(0)  加入收藏
昨天有位刚入行数据分析的朋友跟我吐槽,自己入门到现在只会用excel做做分析图表,但是感觉越做越没有价值,数据分析似乎就是业务数据的分析员,不知道该如何提升自己。这是因为他...【详细内容】
2019-10-18  Tags: 数据分析师  点击:(140)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(4)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条