几种常见的分布.docx
《几种常见的分布.docx》由会员分享,可在线阅读,更多相关《几种常见的分布.docx(10页珍藏版)》请在冰豆网上搜索。
几种常见的分布
、常见数据类型
在正式的解释分布之前,我们先来看一看平时遇到的数据。
数据可大致分为离散型数据和连续型数据。
离散型数据
离散型数据顾名思义就是只取几个特定的值。
例如:
当你掷骰子的时候,结果只
有123,4,5,6,不会出现类似1.5,2.5。
连续型数据
这个范围可以是有限的或者是
54kg,54.4kg,54.33333kg等
在一个给定的范围内,连续型数据可以取任意值。
无穷的。
例如:
一个人的体重或者身高,可以取值等都没有问题。
F面就开始介绍分布的类型。
、分布类型
伯努利分布(BernoulliDistribution
首先从最简单的分布开始,伯努利分布实际上是一个听起来最容易理解的分布。
伯努利分布一次实验有两个可能的结果,比如1代表success及0代表failure。
随机变量Xx一个取值为1并代表成功,成功概率为pp,—个取值为0表示失败,失败概率为qq或者说1-P1-p。
这里,概率分布函数为px(1-p)1-xpx(1-p)1-x,其中X€(0,1)x€(0,1),我们也可以写成如下形式:
P(x)={1-p,p,X=0x=1P(x)={1-p,x=0p,x=1
成功和失败的概率没必要相同,也就是没必要都是0.5,但是这俩概率加和应该
为1,比如可以是下面的图:
IF
这个图就是P(success)=o.15p(failure)=0.85p(success)=0.15,p(failure)=0.85。
下面说一下随机变量的期望,一个分布的期望就是这个分布的均值。
服从伯努利分布的随机变量Xx的期望值就是:
E(X)=1?
p+0?
(1-p)=pE(X)=1?
p+o?
(i-p)=p
服从伯努利分布的随机变量的方差是:
V(X)=E(X2)-[E(X)]2二p-p2=p(1-p)V(X)=E(X2)-[E(X)]2=p-p2=p(1-p)
比如说明天是否会下雨,今天会不会去健身,明天
还有许多伯努利分布的例子,乒乓球比赛是不是会赢。
当你掷骰子的时候,结果出现
率都是相同的,这就是均匀分布最原始的雏形。
1到6中的任何一个,而任何一个结果出现的概
你可能看出来了,与伯努利分布
不同的是,这nn个出现的结果的概率都是相同的。
一个随机变量Xx为均匀分布是指密度函数如下:
f(x)=1b-a-Xa<)vy(x)=1b-a-g下图为均匀分布的密度图的样子:
■XJ
咱们可以看出来均匀分布的密度图是个矩形,这也就是为啥均匀分布的昵称是矩形分布。
对于均匀分布来说aa和bb都是参数,分布的参数。
例子:
假如花店每日销售的花束数量均匀分布,最多40只,最少10只。
我们来尝试计算每日卖花数量在15到30之间的概率。
由于随机变量所有可能发生的事件的概率和为1,并且卖花数量是均匀分布,所有在15到30之间的概率为(30-15)?
1(40-10)=0.5(30-15)?
1(40-10)=0.5。
类似的对于每日卖花数量大于20发生的概率就是1-(20-10)?
1(40-10)=231-(20-10)?
1(40-10)=23。
若随机变量XX服从均匀分布,那么它的均值和方差分别为:
Mean->E(X)=(a+b)2E(X)=(a+b)2
Variance-〉V(X)=(b-a)212V(X)=(b-a)212
标准的均匀分布的密度参数为a=0a=0和b=0b=0,所以对于标准的均匀分布
的密度函数为:
f(x)={1,0,0gwbtherwise(x)={1,0项分布(BinomialDistribution)
我们假定一个随机变量,比如Xx,表示你赢得比赛的次数。
Xx可能的值是什么?
它可以是任何数字,赢得比赛的次数。
如果就两个可能的结果。
成功,失败。
因此,成功概率=0.5,失败的概率可以容易地计算为:
q=p-1=0.5q=p-1=0.5。
只有两种结果是可能的分布,如成功或失败,以及所有试验的成功和失败概率相同的情况称为二项分布。
发生结果的可能性不同时,前面的例子如果实验成功的概率是0.2,那么失败的概率可以很容易地计算出来,q=1-0.2=0.8q=1-0.2=0.8。
只有两次
每次试验都是独立的,因为之前的结果并不决定或影响当前的结果。
重复n次的可能结果的实验称为二项式。
二项分布的参数是nn和Pp,其中nn是试验的总数,PP是每个试验中成功的概率。
基于上述解释,二项分布的性质是:
P(X)二n!
(n-x)!
x!
pxqn-xP(x)=n!
(n-x)!
x!
pxqn-x
一个二项分布图,其中成功的概率不等于失败的概率长这样:
BinomialDistribution
0.35
0.3
0.25—
0.2
0.15
0.1_
0.05
0_———
12J4567e91011
成功概率与失败概率相等,长这样:
BinomialDistribution
oj
0.25
0.2
(U5
Oil
OO%
O'
1011
二项分布均值和方差:
Mean->p=n?
Pu=i?
p
Varianee->Var(X)=n?
p?
qVar(X)=n?
p?
q
正态分布(NormalDistribution)
正态分布可以表示宇宙中大多数的事件发生情况。
如果任何分布具有以下特征,
则称为正态分布:
1.均值、中位数、众数在一个分布中取相同的值;
2.分布曲线关于X=必=卩对称;
3.曲线下面的面积总和为;
4.中心位置的左半边和右半边对应位置的概率取值相同。
正态分布与二项分布有很大的不同。
但是,如果试验次数接近无穷大,则形状
将非常相似。
服从正态分布的随机变量XX的密度函数为:
f(x)=12nc---e{/12(x-p)2}-g服从均匀分布的随机变量XX的均值和方差,如下:
Mean->E(X)=jJE(X)=卩
Varianee->Var(X)=c2Var(X)=c2这里pXmean)和(ro(standarddeviation)是两个参数,随机变量X~N(p,o)X
TN(p,的不同取值的变化图如下:
标准正态分布的均值为0,方差为1,密度图如下:
ne-x22gf(x)=12n--&x22X<
standardNormalDistribution
其中我们的兴趣仅
泊松分布适用于事件发生在任意随机时间点或者空间的情况,在于事件的发生次数。
当以下假设有效时,分布称为泊松分布:
任何成功的事件都不应该影响另一个成功事件的结果。
在较短的时间间隔内成功的概率必须等于在较长的时间间隔内成功的概率。
泊松分布中使用的一些符旦曰
入入是事件发生的速率
tt是时间间隔的长度
Xx是在时间间隔tt内事件发生的次数
这里XX叫做泊松随机变量,同时XX的概率分布就叫做泊松分布。
我们用卩卩表示时间tt内时间发生的平均次数也就是均值,所以尸?
?
切=?
to
服从泊松分布的随机变量XX的PMF为:
P(X=x)=e-u卩xXX=0,1,2,P(X=x)=e-ug!
x=0,1,2,
均值口卩是分布的参数,口卩也被定义为在一个时间段内发生入入次。
泊松分布图
如下:
PoilssonDistribution
0-13;
0-16i
0.14i
0.12i'
0.1i/I
o.osi
■Probabilityofx
0.06]/
0.04
o
01234567s91011121314151617131920
下图显示了均值增加而导致的曲线移动:
0J4
0.12
0.1
O.OS
Oij06
0.04
0.02
0
□1234567331011121314151617131920
可以感觉到,随着平均值的增加,曲线向右移动。
服从泊松分布的随机变量XX的均值和方差:
Mean->E(X)=匡(X)=卩
Variance->Var(X)=Nar(X)=卩
指数分布(ExponentialDistribution)
我们再来考虑一下呼叫中心的例子。
想想通话间的时间间隔是多少?
指数分布来解决我们的问题。
指数分布对呼叫之间的时间间隔建模。
其他例子:
1.两站地铁到达之间的时间长度
2.到达加油站的时间长度
3.空调的使用寿命指数分布广泛用于生存分析。
从机器的预期寿命到人的预期寿命,指数分布可用来传递这些结果。
随机变量XX服从指数分布,它的PDF为:
f(x)=入ex>0x)=入e入x,x>0
参数?
>0入>0也叫做速率。
对于生存分析,血被称为设备在任何时间tt的故障率,假设它存活到to服从指数分布的随机变量XX的均值和方差:
Mean->E(X)=1E(X)=1入
Variance->Var(X)=(1?
)2Var(X)=(1入)2
此外,速率越大,曲线越下降快,速率越低,曲线越平滑。
下图显示了这一点:
ExponerUialDistrllbution
12
e-入X{Xwx}=1-e-入xX寸应
为了简化计算,下面给出了一些公式。
P{X$}=1-
于Xx左边密度曲线下的面积。
P{X>x}=1-e-入P{X>x}=1-e-入X对应于Xx右侧密度曲线下的面积。
P{X1之间密度曲线下的面积。
三、分布之间的关系
伯努利分布和二项分布
1.伯努利分布是二项分布的一个特例,只有一次试验。
2.伯努利和二项分布只有两种可能的结果,即成功和失败。
泊松分布和二项分布
泊松分布是二项分布的极限分布,条件如下:
1.试验次数足够多或者说nn->
2.每次试验成功的概率相同,无穷小或者Pp->03.np=?
np二入,有限。
正态分布和二项分布&正态分布和泊松分布
正态分布是在以下条件下二项分布的另一种极限形式,条件如下:
1.试验次数无限大nn->2.pp和qq都不是无限小的。
正态分布也是参数U>gg的泊松分布的一个极限情况。
指数分布和泊松分布
如果随机事件之间的时间遵循速率为XX的指数分布,那么长度为tt的时间段内
的事件总数遵循具有参数入X的泊松分布。
总结
概率分布在许多领域都很普遍,即保险学,物理学,工程学,计算机科学甚至社会科学,其中心理学和医学学生广泛使用概率分布。
它有一个简单的应用程序
和广泛的使用。
这篇文章强调了在日常生活中观察到的六个重要分布,并解释了它们的应用。
现在你将能够识别,关联和区分这些分布。