数据分析分布类别Word文档下载推荐.docx
《数据分析分布类别Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据分析分布类别Word文档下载推荐.docx(5页珍藏版)》请在冰豆网上搜索。
泊松分布与二项分布
当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。
通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。
事实上,泊松分布正是由二项分布推导而来的。
泊松分布可作为二项分布的极限而得到。
一般的说,若
其中n很大,p很小,因而
不太大时,X的分布接近于泊松分布
。
这个事实有时可将较难计算的二项分布转化为泊松分布去计算。
应用示例
泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。
如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,某放射性物质发射出的粒子,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。
卡方分布
卡方分布(
分布)是概率论与统计学中常用的一种概率分布。
n个独立的标准正态分布变量的平方和服从自由度为n的卡方分布。
卡方分布常用于假设检验和置信区间的计算。
若n个相互独立的随机变量ξ₁、ξ₂、……、ξn,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-squaredistribution),即
分布(chi-squaredistribution),其中参数n称为自由度。
正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个
分布。
记为
或者
卡方分布与正态分布
卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,
分布近似为正态分布。
对于任意正整数x,
自由度为
k的卡方分布是一个随机变量X的机率分布。
期望和方差
分布的均值为自由度n,记为E(
)=n。
分布的方差为2倍的自由度(2n),记为D(
)=2n。
均匀分布
均匀分布(UniformDistribution)是概率统计中的重要分布之一。
顾名思义,均匀,表示可能性相等的含义。
(1)如果
,则称X服从离散的均匀分布。
(2)设连续型随机变量X的概率密度函数为
,则称随机变量X服从[a,b]上的均匀分布,记为X~U(a,b)。
均值
,即数学期望位于区间(a,b)的中间。
方差
伯努利分布
一个离散型机率分布,是二项分布的特殊情况。
伯努利分布是一种离散分布,有两种可能的结果。
1表示成功,出现的概率为p(其中0<
p<
1)。
0表示失败,出现的概率为q=1-p。
分布律:
性质
均值:
E(X)=p。
方差:
var(X)=p(1-p)。
二项分布
二项分布即重复n次独立的伯努利试验。
在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。
概率为:
表示组合数,n为试验次数,k为成功次数,p为成功概率。
期望与方差
E(X)=E[X
(1)+X
(2)+X(3)....X(n)]=np.
D(X)=D[X
(1)+X
(2)+X(3)....X(n)]=np(1-p).
分布区别
两点分布又称伯努利分布。
两点分布的分布列就是
x
1
P
1-p
p
而二项分布的可能结果是不确定的甚至是没有尽头的。
两点分布是一种特殊的二项分布。
二项分布是离散型分布,概率直方图是跃阶式的。
因为x为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形象些。
1.当p=q时,图形是对称的。
2.当p≠q时,直方图呈偏态,p<
q与p>
q的偏斜方向相反。
如果n很大,即使p≠q,偏态逐渐降低,最终成正态分布,二项分布的极限分布为正态分布。
故当n很大时,二项分布的概率可用正态分布的概率作为近似值。
何谓n很大呢?
一般规定:
当p<
q且np≥5,或p>
q且nq≥5,这时的n就被认为很大,可以用正态分布的概率作为近似值了。