您当前的位置:首页 > 互联网百科 > 大数据

数据分析一定要知道的概率分布知识

时间:2019-10-31 10:44:54  来源:  作者:

Data Science (数据科学)作为现如今最炙手可热的领域之一,越来越受到人们的关注。而数据分析背后充满了概率统计的知识。因此,打下良好的概率论基础是必须的。

数据分析一定要知道的概率分布知识

 

数据类型

‘巧妇难为无米之炊’,数据分析的‘主料’即为数据。当我们对一组数据作分析的时候,一定要明确的是,这组数据只是研究对象(population)中的一部分样本(sample)。我们只是对一部分样本进行分析,然后去推测出整个对象的规律。

首先,需要明确的是:数据分析中,数据量越多,样本越大,结果越准确

那有人会问,既然这样,为什么不搜集海量的数据呢?大部分的工作只是为了找到一个近似的规律,而且过大的数据量会带来收集费用的飙升、处理难度和时间的增加。因此,数据处理第一步,我们要试着去平衡数据量和处理的耗费(金钱与时间)。

数据类型大体分为两种:数值(如房价)和类别(如品牌,姓名等)。

而数值型数据可细分为离散(不连续)连续数据

数据分析一定要知道的概率分布知识

图1: 概率分布类型

概率分布可以很好的展现数据的内在规律,图1中就总结归纳了大部分的概率分布类型。接下来,我们就简单的理解一下这些概率分布。

伯努利分布(Bernoulli Distribution)

伯努利分布是概率分布中最简单、最基本也是最基础的分布形式之一。我们从图1可以看到很多复杂的概率分布都是基于伯努利分布。

怎么理解伯努利分布呢?单次实验两种情况

数据分析一定要知道的概率分布知识

伯努利分布代码


数据分析一定要知道的概率分布知识

伯努利分布

举例说明:假如女人生孩子,生男孩概率是60%,生女孩概率是40%。那么,伯努利分布就是--- 生一次孩子,生男孩的概率为 p = 60%, 而生女孩的概率为 1 - p = 40%。如上图所示。

关键词:单次实验,两种情况分类

二项式分布(Binomial Distribution)

基于前面介绍的伯努利分布,可以衍生出二项式分布:n重伯努利试验「成功」次数的离散概率分布。继续以生孩子为例:

生一次孩子,生男孩的概率为 p = 60%, 而生女孩的概率为 1 - p = 40%。

假如生了 n 个孩子,其中男孩为 x 个,女孩为(n - x)的概率。

重点:

  • 单次试验重复多次;
  • 单次试验为伯努利分布;
  • 各次试验相互独立。也就是说每次生孩子,生男孩和生女孩概率不变,都是60%和40%。
数据分析一定要知道的概率分布知识

二项式分布公式

如果我们假定生了 n 个孩子,其中男孩是4个(固定值),那么随着n的变化,二项式分布的概率图会怎么变呢?

数据分析一定要知道的概率分布知识

二项式分布代码


数据分析一定要知道的概率分布知识

二项式分布图

如上图所示,如果生了4孩子且全是男孩,概率0.6的四次方 = 0.1296。 当生了6个孩子的时候,有四个是男孩的概率达到了0.311。并且随着孩子越来越多,几乎不可能保证只生了4个男孩,其他都是女孩,毕竟单次生男孩的概率要大一些

正态分布(高斯分布)

正态分布是最最最重要的分布之一,在数据分析领域也是最常见的分布之一。我们生活中很多常见现象都遵循正态分布,比如说收入分布,身高分布等等。

数据分析一定要知道的概率分布知识

正态分布

举个例子,比如说你去相亲,而你最在意的标准是相亲对象的身高,所以你对相亲对象的身高做了统计,你会发现大部分人的身高会集中在一定的范围呢,而只有很少的人会很高或者很矮。

数据分析一定要知道的概率分布知识

身高分布

大部分的女生会集中在155到160 cm之间,这也很符合我们日常所见。

正态分布的特点

  • 正态分布左右对称;
  • 正态分布曲线下的面积为1,也就是说正态分布的所有情况出现的概率之和为1。
数据分析一定要知道的概率分布知识

正态分布

正态分布中,最重要的两个参数是 平均值 μ 和标准差 σ。也就是说如果告诉我们这两个参数,我们就可以知道正态分布下每种情况出现的概率。

数据分析一定要知道的概率分布知识

正态分布

上面这张图是什么意思呢?具体来说就是,满足正态分布,68.27%的情况都会出现在平均值正负1个标准差以内。比如说,女生身高平均值是160 cm, 标准差为5 cm。那么,68.27%的女生的身高会在155 到 165 cm之间。95.45%的女生身高在150 (平均值减去2个标准差)到170 cm之间。

在机器学习领域,很多的机器学习模型也是遵循正态分布的,比如说:

  • 高斯朴素贝叶斯分类器 (Gaussian Naive Bayes Classifier)
  • 线性判别分析(Linear Discriminant Analysis)
  • 二次判别分析(Quadratic Discriminant Analysis)
  • 基于最小二乘法的回归模型(Least Squares based regression models)

泊松分布(Poisson Distribution)

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。 --------------维基百科

数据分析一定要知道的概率分布知识

泊松分布

泊松分布的计算公式如上。λ是单位时间(或单位面积)内随机事件的平均发生率,比如说你预测一天平均有300人来医院就诊。而医院医生的满负荷量是400人,那么出现一天有400人就诊的概率则满足泊松分布。

数据分析一定要知道的概率分布知识

泊松分布

知道泊松分布有什么用呢?根据单位时间内出现概率的大小可以做出决策。比如说,当你举办一次抽奖活动,你的设计是平均每天只有5(λ)个一等奖产生,那么,就可以算出来一天产生了10个一等奖概率是多少?0.018132788707821854。

也就是说一天出现10次一等奖概率只为1.8%。 可以放心了,不会超预算了!

总结

概率学在人类生活决策中随处可见。很多人过着不满意的生活,可能就是放弃了概率选择权的原因。什么概率选择权呢?

比如说,有个富豪说给你两种选择:

  1. 直接给你500万;
  2. 你可以抽奖,概率是50%机会拿到2000万,而50%概率什么也没有;

那么你会选择什么呢?

大部分人会选择第一种。因为落袋为安,我可承受不起第二种什么也没抽到的情况,我会后悔死。

但是,我们从概率学来说,第一种的期望值是500万 (出现的情况 * 出现的概率 之和: 500 * 100%),而第二种的期望值是(50% * 2000 + 50% * 0 = 1000万)。第二种选择的期望值明显要高于第一种。这个比较抽象,和具体现实没联系。

那么,这种情况呢?

比如说:你在大公司年薪10万,工作稳定。现在有一个创业公司过来挖你,给出的工资是5万,但是有股票(股票只能上市之后兑现,价值5000万)。但是创业都是九死一生,成功上市的概率可能只有1%。

这种情况你会如何选择呢?如果可以,请留言告诉我你的答案,我们也好看看你是否也放弃了概率选择权。



Tags:数据分析   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  Tags: 数据分析  点击:(26)  评论:(0)  加入收藏
最近有一位刚入行的朋友跟我吐槽,说他提交了一份8月的经营数据分析报告给领导,报告里面放了很多图表,也罗列了很多数据,结果却被老板痛批了一顿,说分析了半天也看不懂他的分析逻...【详细内容】
2021-09-17  Tags: 数据分析  点击:(44)  评论:(0)  加入收藏
老李最近在后台看到很多想进入数据分析领域的朋友私信我,让我帮忙解答一些职业问题。在跟他们的交流中,我发现他们之中70%都是一无所知或刚入门的数据小白,但是都特别积极主动,...【详细内容】
2021-09-16  Tags: 数据分析  点击:(81)  评论:(0)  加入收藏
1 内容总概不管是数据分析还是数据运营,少不了做分析报告,通常一份简洁的分析报告总是令人眼前一亮,但是,大部分同学拿到一组数据时,不能很好的应用,没有思路、想法和头绪,这里作者...【详细内容】
2021-09-14  Tags: 数据分析  点击:(46)  评论:(0)  加入收藏
在不久前结束的东京奥运会女子10米气步枪赛场上,杨倩以251.8环破了奥运记录,代表中国拿下东京奥运会首金。她又与杨浩然一起,顶住压力拿下10米气枪混合团体赛金牌。在感受到强...【详细内容】
2021-08-16  Tags: 数据分析  点击:(53)  评论:(0)  加入收藏
随着数据分析岗位招聘越来越内卷,问“你用过/建过什么模型”的也越来越多。这个问题很容易给人“面试造航母,工作拧螺丝”的感觉。实际工作中,真的要搞那么多模型???搞得很多同学...【详细内容】
2021-07-13  Tags: 数据分析  点击:(70)  评论:(0)  加入收藏
明确目的带着问题出发,明确我们的目的是探索不同岗位、城市、公司数据人薪资是怎样的,所以是一个探索性分析。数据处理1、查看并理解字段拿到数据,大概看一下,总共有184条记录,量...【详细内容】
2021-07-06  Tags: 数据分析  点击:(90)  评论:(0)  加入收藏
本文讲解窗口函数的概念,窗口函数与数据分组的功能相似,可以指定数据窗口进行统计分析,但窗口函数与数据分组又有所区别,窗口函数对每个组返回多行,而数据分组对每个组只返回一行...【详细内容】
2021-06-25  Tags: 数据分析  点击:(66)  评论:(0)  加入收藏
数据分析思维九段路线1. 初段:目标思维做数据分析,首先要一定明确目标,以终为始。只有明确目标,才不会迷失方向,就像导航软件,如果没有设置目的地,那么它是没法告诉你路线图的。目...【详细内容】
2021-06-25  Tags: 数据分析  点击:(105)  评论:(0)  加入收藏
缺失的原因1)有些信息暂时无法获取,或者获取信息的代价太大2)有些信息是被遗漏的。3)属性值不存在。缺失值的影响1)数据挖掘建模将丢失大量的有用信息。2)数据挖掘模型所表现出的...【详细内容】
2021-05-20  Tags: 数据分析  点击:(366)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(4)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条