第四章常用概率分布.docx

资源描述

第四章常用概率分布.docx

《第四章常用概率分布.docx》由会员分享，可在线阅读，更多相关《第四章常用概率分布.docx（34页珍藏版）》请在冰豆网上搜索。

第四章常用概率分布.docx

第四章常用概率分布第四章常用概率分布第四章常用概率分布第四章常用概率分布为了便于读者理解统计分析的基本原理，正确掌握和应用以后各章所介绍的统计分析方法，本章在介绍概率论中最基本的两个概念一一事件、概率的基础上，重点介绍生物科学研究中常用的几种随机变量的概率分布一一正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。

第一节事件与概率第一节事件与概率一、事件一、事件

（一）必然现象与随机现象在自然界与生产实践和科学试验中，人们会观察到各种各样的现象，把它们归纳起来，大体上分为两大类：

一类是可预言其结果的，即在保持条件不变的情况下，重复进行试验，其结果总是确定的，必然发生（或必然不发生）。

例如，在标准大气压下，水加热到100C必然沸腾；步行条件下必然不可能到达月球等。

这类现象称为必然现象（inevitablephenomena）或确定性现象（definitephenomena）。

另一类是事前不可预言其结果的，即在保持条件不变的情况下，重复进行试验，其结果未必相同。

例如，掷一枚质地均匀对称的硬币，其结果可能是出现正面，也可能出现反面；孵化6枚种蛋,可能“孵化出0只雏”，也可能“孵化出1只雏”，也可能“孵化出6只雏”，事前不可能断言其孵化结果。

这类在个别试验中其结果呈现偶然性、不确定性现象，称为随机现象（randomphenomena）或不确定性现象（indefinitephenomena）。

人们通过长期的观察和实践并深入研究之后，发现随机现象或不确定性现象，有如下特点：

在一定的条件实现时，有多种可能的结果发生，事前人们不能预言将出现哪种结果；对一次或少数几次观察或试验而言，其结果呈现偶然性、不确定性；但在相同条件下进行大量重复试验时，其试验结果却呈现出某种固有的特定的规律性一一频率的稳定性，通常称之为随机现象的统计规律性。

例如，对于一头临产的妊娠母牛产公犊还是产母犊是事前不能确定的，但随着妊娠母牛头数的增加，其产公犊、母犊的比例逐渐接近1:

1的性别比例规律。

概率论与数理统计就是研究和揭示随机现象统计规律的一门科学。

（二二）随机试验与随机事件随机试验与随机事件1、随机试验通常我们把根据某一研究目的，在一定条件下对自然现象所进行的观察或试验统称为试验（trial）。

而一个试验如果满足下述三个特性，则称其为一个随机试验（randomtrial），简称试验:

（1）试验可以在相同条件下多次重复进行；

（2）每次试验的可能结果不止一个，并且事先知道会有哪些可能的结果；（3）每次试验总是恰好出现这些可能结果中的一个，但在一次试验之前却不能肯定这次试验会出现哪一个结果。

如在一定孵化条件下，孵化6枚种蛋，观察其出雏情况；又如观察两头临产妊娠母牛所产犊牛的性别情况，它们都具有随机试验的三个特征，因此都是随机试验。

2、随机事件随机试验的每一种可能结果，在一定条件下可能发生，也可能不发生，称为随机事件（randomevent），简称事件（event）,通常用A、B、C等来表示。

（1）基本事件我们把不能再分的事件称为基本事件（elementaryevent），也称为样本点（samplepoint）。

例如，在编号为1、2、3、10的十头猪中随机抽取1头，有10种不同的可能结果：

“取得一个编号是1”、“取得一个编号是2”、“取得一个编号是10”，这10个事件都是不可能再分的事件，它们都是基本事件。

由若干个基本事件组合而成的事件称为复合事件（compoundevent）。

如“取得一个编号是2的倍数”是一个复合事件，它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。

（2）必然事件我们把在一定条件下必然会发生的事件称为必然事件（certainevent）,用Q表示。

例如，在严格按妊娠期母猪饲养管理的要求饲养的条件下，妊娠正常的母猪经114天左右产仔，就是一个必然事件。

（3）不可能事件我们把在一定条件下不可能发生的事件称为不可能事件（impossibleevent）,用Q表示。

例如，在满足一定孵化条件下，从石头孵化出雏鸡，就是一个不可能事件。

必然事件与不可能事件实际上是确定性现象，即它们不是随机事件，但是为了方便起见，我们把它们看作为两个特殊的随机事件。

二、概二、概率率

（1）概率的统计定义研究随机试验，仅知道可能发生哪些随机事件是不够的，还需了解各种随机事件发生的可能性大小，以揭示这些事件的内在的统计规律性，从而指导实践。

这就要求有一个能够刻划事件发生可能性大小的数量指标，这指标应该是事件本身所固有的，且不随人的主观意志而改变，人们称之为概率（probability）。

事件A的概率记为P（A）。

下面我们先介绍概率的统计定义。

在相同条件下进行n次重复试验，如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率（frequency）;当试验重复数n逐渐增大时，随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。

这样定义的概率称为统计概率（statisticsprobability）,或者称后验概率（posteriorprobability）。

例如为了确定抛掷一枚硬币发生正面朝上这个事件的概率，历史上有人作过成千上万次抛掷硬币的试验。

在表41中列出了他们的试验记录。

表41抛掷一枚硬币发生正面朝上的试验记录实验者投掷次数发生正面朝上的次数频率（m/n）蒲丰404020480.5069k.皮尔逊1200060190.5016k.皮尔逊24000120120.5005从表4-1可看出，随着实验次数的增多，正面朝上这个事件发生的频率越来越稳定地接近0.5，我们就把0.5作为这个事件的概率。

在一般情况下，随机事件的概率p是不可能准确得到的。

通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。

即P（A）=pm/n（n充分大）（4-1）

（2）概率的古典定义上面介绍了概率的统计定义。

但对于某些随机事件，用不着进行多次重复试验来确定其概率，而是根据随机事件本身的特性直接计算其概率。

有很多随机试验具有以下特征：

1、试验的所有可能结果只有有限个，即样本空间中的基本事件只有有限个；2、各个试验的可能结果出现的可能性相等，即所有基本事件的发生是等可能的；3、试验的所有可能结果两两互不相容。

具有上述特征的随机试验，称为古典概型（classicalmode）。

对于古典概型，概率的定义如下：

设样本空间由n个等可能的基本事件所构成，其中事件A包含有m个基本事件，则事件A的概率为m/n，即P（A）=m/n（4-2）这样定义的概率称为古典概率（classicalprobability）或先验概率（priorprobability）。

【例4.1】在编号为1、2、3、10的十头猪中随机抽取1头，求下列随机事件的概率。

（1）A=“抽得一个编号w4”；

（2）B=“抽得一个编号是2的倍数”。

因为该试验样本空间由10个等可能的基本事件构成，即n=10,而事件A所包含的基本事件有4个，既抽得编号为1,2,3,4中的任何一个，事件A便发生，即mA=4,所以P（A）=mA/n=4/10=0.4同理，事件B所包含的基本事件数mB=5，即抽得编号为2,4,6,8,10中的任何一个，事件B便发生，故P（B）=mB/n=5/10=0.5。

【例4.2】在N头奶牛中，有M头曾有流产史，从这群奶牛中任意抽出n头奶牛，试求：

（1）其中恰有m头有流产史奶牛的概率是多少？

（2）若N=30,M=8,n=10,m=2，其概率是多少？

我们把从有M头奶牛曾有流产史的N头奶牛中任意抽出n头奶牛，其中恰有m头有流产史这一事件记为A，因为从N头奶牛中任意抽出n头奶牛的基本事件总数为CN，事件A所包含的基本事件数为CmCN；，因此所求事件A的概率为mn-mCMCNCnCN将N=30,M=8,n=10,m=2代入上式，得即在30头奶牛中有8头曾有流产史，从这群奶牛随机抽出10头奶牛其中有2头曾有流产史的概率为6.95%。

（3）概率的性质根据概率的定义，概率有如下基本性质:

1、对于任何事件A,有0wP（A）w1;2、必然事件的概率为1,即P（Q）=1;3、不可能事件的概率为0，即P

（2）=0。

三、小概率事件实际不可能性原理三、小概率事件实际不可能性原理随机事件的概率表示了随机事件在一次试验中出现的可能性大小。

若随机事件的概率很小，例如小于0.05、0.010.001，称之为小概率事件。

小概率事件虽然不是不可能事件，但在一次试验中出现的可能性很小，不出现的可能性很大，以至于实际上可以看成是不可能发生的。

在统计学上，把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理，亦称为小概率原理。

小概率事件实际不可能性原理是统计学上进行假设检验（显著性检验）的基本依据。

在下一章介绍显著性检验的基本原理时，将详细叙述小概率事件实际不可能性原理的具体应用。

第二节概率分布第二节概率分布事件的概率表示了一次试验某一个结果发生的可能性大小。

若要全面了解试验，则必须知道试验的全部可能结果及各种可能结果发生的概率，即必须知道随机试验的概率分布（probabilitydistribution）。

为了深入研究随机试验，我们先引入随机变量（randomvariable）的概念。

一、随机变量一、随机变量作一次试验，其结果有多种可能。

每一种可能结果都可用一个数来表示，把这些数作为变量x的取值范围，则试验结果可用变量x来表示。

【例4.3】对100头病畜用某种药物进行治疗，其可能结果是“0头治愈”、“1头治愈”、“2头治愈”、“”、“100头治愈”。

若用x表示治愈头数，则x的取值为0、1、2、100。

【例4.4】孵化一枚种蛋可能结果只有两种，即“孵出小鸡”与“未孵出小鸡”。

若用变量x表示试验的两种结果，则可令x=0表示“未孵出小鸡”，x=1表示“孵出小鸡”。

【例4.5】测定某品种猪初生重，表示测定结果的变量x所取的值为一个特定范围（a,b），如0.51.5kg,x值可以是这个范围内的任何实数。

如果表示试验结果的变量x，其可能取值至多为可列个，且以各种确定的概率取这些不同的值，则称x为离散型随机变量（discreterandomvariable）;如果表示试验结果的变量x,其可能取值为某范围内的任何数值，且x在其取值范围内的任一区间中取值时，其概率是确定的，则称x为连续型随机变量（continuousrandomvariable）。

引入随机变量的概念后，对随机试验的概率分布的研究就转为对随机变量概率分布的研究了。

二、离散型随机变量的概率分布二、离散型随机变量的概率分布要了解离散型随机变量X的统计规律，就必须知道它的一切可能值Xi及取每种可能值的概率Pi。

如果我们将离散型随机变量x的一切可能取值Xi（i=1,2,），及其对应的概率Pi，记作P（x=Xi）=Pii=1,2,（43）则称（43）式为离散型随机变量x的概率分布或分布。

常用分布列（distributionseries）来表示离散型随机变量：

lX1X2Xn=-PlP2Pn-显然离散型随机变量的概率分布具有Pi0和工Pi=1这两个基本性质。

三、连续型随机变量的概率分布连续型随机变量（如体长、体重、蛋重）的概率分布不能用分布列来表示，因为其可能取的值是不可数的。

我们改用随机变量x在某个区间内取值的概率P（awXb）来表示。

下面通过频率分布密度曲线予以说明。

由表27作126头基础母羊体重资料的频率分布直方图，见图41，图中纵座标取频率与组距的比值。

可以设想，如果样本取得越来越大（n+R），组分得越来越细（0）,某一范围内的频率将趋近于一个稳定值概率。

这时，频率分布直方图各个直方上端中点的联线频率分布折线将逐渐趋向于一条曲线，换句话说，当nt+8、it0时，频率分布折线的极限是一条稳定的函数曲线。

对于样本是取自连续型随机变量的情况，这条函数曲线将是光滑的。

这条曲线排除了抽样和测量的误差，完全反映了基础母羊体重的变动规律。

这条曲线叫概率分布密度曲线，相应的函数叫概率分布密度函数。

若记体重概率分布密度函数为f（x），则x取值于区间a,b）的概率为图中阴影部分的面积，即bP（ax0;2、当随机变量x取某一特定值时，其概率等于0;即cP（x=c）二二cf（x）dx=0（c为任意实数为任意实数）因而，对于连续型随机变量，仅研究其在某一个区间内取值的概率，而不去讨论取某一个值的概率。

3、在一次试验中随机变量X之取值必在-8VxV+8范围内，为一必然事件。

所以bop（_：

：

X：

：

）=f（x）dx=1（4-5）（45）式表示分布密度曲线下、横轴上的全部面积为1。

第三节正态分布第三节正态分布正态分布是一种很重要的连续型随机变量的概率分布。

生物现象中有许多变量是服从或近似服从正态分布的，如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含量等。

许多统计分析方法都是以正态分布为基础的。

此外，还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。

因此在统计学中，正态分布无论在理论研究上还是实际应用中，均占有重要的地位。

一、正态分布的定义及其特征一、正态分布的定义及其特征（）正态分布的定义若连续型随机变量x的概率分布密度函数为1_（出出（4-16）f（x）=荷:

2二二其中为平均数，（T2为方差，则称随机变量x服从正态分布（normaldistribution）,记为xN（卩,（T2）。

相应的概率分布函数为

（二）正态分布的特征由（46）式和图42可以看出正态分布具有以下几个重要特征：

1、正态分布密度曲线是单峰、对称的悬钟形曲线，对称轴为X=y；2、f（x）在X=u处达到极大，极大值f（.!

）=1；crV2n3、f（x）是非负函数，以x轴为渐近线，分布从-g至+8;4、曲线在x=卩b处各有一个拐点，即曲线在（-g,-d）和（+c，+g）区间上是下凸的，在i-d,1+d区间内是上凸的；5、正态分布有两个参数，即平均数1和标准差do1是位置参数，如图43所示。

当d恒定时，1愈大，则曲线沿x轴愈向右移动；反之，1愈小，曲线沿x轴愈向左移动。

d是变异度参数，如图44所示。

当1恒定时，d愈大，表示x的取值愈分散，曲线愈“胖”；d愈小，x的取值愈集中在1附近，曲线愈“瘦”。

（x_.）24.122e纭dx=1-:

c2二二、标准正态分布二、标准正态分布由上述正态分布的特征可知，正态分布是依赖于参数1和d2（或d）的一簇分布，正态曲线之位置及形态随1和d2的不同而不同。

这就给研究具体的正态总体带来困难，需将一般的N（1,d2）转换为1=0,d2=1的正态分布。

我们称1=0,d2=1的正态分布为标准正态分布（standardnormaldistribution）。

标准正态分布的概率密度函数及分布函数分别随机变量u服从标准正态分布，记作uN（0,1），分布密度曲线如图45所示。

图45标准正态分布密度曲线2对于任何一个服从正态分布N（卩,（T）的随机变量x,都可以通过标准化变换：

u=（x-）/er（4-10）将其变换为服从标准正态分布的随机变量u。

U称为标准正态变量或标准正态离差（standardnormaldeviate）。

按（4-9）式计算，对不同的u值编成函数表，称为正态分布表，见附表1,从中可查到u在意一个区间内取值的概率。

这就给解决不同1、e2的正态分布概率计算问题带来很大方便。

三、正态分布的概率计算三、正态分布的概率计算关于正态分布的概率计算，我们先从标准正态分布着手。

这是因为，一方面标准正态分布在正态分布中形式最简单，而且任意正态分布都可化为标准正态分布来计算；另一方面，人们已经根据标准正态分布的分布函数编制成正态分布表（附表1）以供直接查用。

（一）标准正态分布的概率计算设u服从标准正态分布，则u在U1,U2内取值的概率为：

u=1.75,1.7放在第一列，0.05放在第一行。

在附表1中，1.7所在行与0.05所在列相交处的数值为0.95994,即（1.75）=0.95994。

有时会遇到给定（u）值，例如（u）=0.284,反过来查u值。

这只要在附表1中找到与0.284最接近的值0.2843，对应行的第一列数-0.5,对应列的第一行数值0.07，即相应的u值为u=-0.57，亦即（-0.57）=0.284。

如果要求更精确的u值，可用线性插值法计算。

表中用了象.032336,.937674这种写法，分别是0.0002326和0.9997674的缩写，03表示连续3个0,93表示连续3个9。

由（4-11）式及正态分布的对称性可推出下列关系式，再借助附表1,便能很方便地计算有关概率：

P（0wuvui）=q（ui）-0.5P（uui）=（-ui）P（|u|u1）=2（-u1）（4-12）P（|u|vu1）=1-2（-u1）P（uiwuvu2）=Q（u2）-（u1）【例4.6】已知uN（0,1），试求：

（1）P（uv-1.64）=?

（2）P（u2.58）=?

（3）P（|u|2.56）=?

（4）P（0.34wuv1.53）=?

利用（4-12）式，查附表1得：

（1）P（uv-1.64）=0.05050

（2）P（u2.58）=（-2.58）=0.024940（3）P（|u|2.56）=2（-2.56）=2X0.005234=0.010468（4）P（0.34wuv1.53）=（1.53）-（0.34）=0.93669-0.6331=0.30389关于标准正态分布，以下几种概率应当熟记：

P（-1wuv1）=0.6826P（-2wuv2）=0.9545P（-3wuv3）=0.9973P（-1.96wuv1.96）=0.95P（-2.58wuv2.58）=0.99u变量在上述区间以外取值的概率分别为：

P（|u|1）=2（-1）=1-P（-1wuv1）=1-0.6826=0.3174P（|u|2）=2（-2）=1-P（-2wuv2）=1-0.9545=0.0455P（|u|3）=1-0.9973=0.0027P（|u|1.96）=1-0.95=0.05P（|u|2.58）=1-0.99=0.01

（二）一般正态分布的概率计算正态分布密度曲线和横轴围成的一个区域，其面积为1,这实际上表明了“随机变量x取值在-R与+R之间”是一个必然事件，其概率为1。

若随机变量X服从正态分布N（卩,CT2），则X的取值落在任意区间1xX2）的概率，记作P（X1wxvx2），等于图4-7中阴影部分曲边梯形面积。

即：

这表明服从正态分布N（卩,d2）的随机变量X在X1,X2）内取值的概率，等于服从标准正态分布的随机变量U在（X1-卩）/d,（X2-卩）/d）内取值的概率。

因此，计算一般正态分布的概率时，只要将区间的上下限作适当变换（标准化），就可用查标准正态分布的概率表的方法求得概率了。

P（21.64wxv32.98）。

【例4.7】设x服从卩=30.26,d2=5.102的正态分布，试求令口=x-30.26,则u服从标准正态分布，故5.10=0.7019-0.04551=0.6564（即随机变量X落在卩加减不同倍数（T区间的概率）关于一般正态分布，以下几个概率是经常用到的。

P（a-dwxv+d）=0.6826P（a-2dwxva+2d）=0.9545P（a-3dwxva+3d）=0.9973P（a-1.96dwxva+1.96d）=0.95P（a-2.58dwxva+2.58d）=0.99上述关于正态分布的结论，可用一实例来印证。

从图2-7可以看出，126头基础母羊体重资料的次数分布接近正态分布，现根据其平均数X=52.26（kg），标准差S=5.10（kg），算出平均数加减不同倍数标准差区间内所包括的次数与频率，列于表42。

表42126头基础母羊体重在X土kS区间内所包括的次数与频率由表42可见，实际频率与理论概率相当接近，说明126头基础母羊体重资料的频率分布接近正态分布，从而可推断基础母羊体重这一随机变量很可能是服从正态分布的。

生物统计中，不仅注意随机变量x落在平均数加减不同倍数标准差区间（卩-kb,卩+k（T）之内的概率而且也很关心x落在此区间之外的概率。

我们把随机变量x落在平均数加减不同倍数标准差d区间之外的概率称为双侧概率（两尾概率），记作a。

对应于双侧概率可以求得随机变量X小于卩-kd或大于卩+kd的概率，称为单侧概率（一尾概率），记作a/2。

例如，x落在（-1.96d,卩+1.96d）之外的双侧概率为0.05，而单侧概率为0.025。

即P（xv卩-1.96d）=P（x卩+1.96d）=0.025双侧概率或单侧概率如图48所示。

x落在（卩-2.58d,卩+2.58d）之外的双侧概率为0.01,而单侧概率P（xv卩-2.58d）=P（x+2.58d）=0.005图48双侧概率与单侧概率附表2给出了满足P（|u|u：

.）=a的双侧分位U：

.的数值。

因此，只要已知双侧概率a的值，由附表2就可直接查出对应的双侧分位数u-.,查法与附表1相同。

例如，已知UN（0,1）试求：

（1）P（uV-u：

.）+P（uU：

.）=0.10的u：

（2）P（-uu：

）=1-P（-u：

uvu：

）=0.10=a由附表2查得：

u0.10=1.644854

（2）P（-u：

12）=0.03,求li,12。

由题意可知，a/2=0.03,a=0.06又因为P（x:

：

l1x-12.86丨1-12.86）=P（-）=P（u：

_u一）二0.031.331.33aP（x丨2）：

-12.8612-12.86、=P

（2）=P（u_u-）=0.031.331.33a故P（XV11=+P（x丨2）=P（uv-U-.=+P（uu）=1-P（-u口WPv七）=0.06=a由附表2查得：

U0.06=1.880794,所以（11-12.86）/1.33=-1.880794,（12-12.86）/1.33=1.880794即l110.36,l215.36。

第四节二项分布第四节二项分布一、贝努利试验及其概率公式一、贝努利试验及其概率公式将某随机试验重复进行n次，若各次试验结果互不影响，即每次试验结果出现的概率都不依赖于其它各次试验的结果，则称这n次试验是独立的。

对于n次独立的试验，如果每次试验结果出现且只出现对立事件A与A之一，在每次试验中出现A的概率是常数p（0p1）,因而出现对立事件A的概率是1-p=q，则称这一串重复的独立试验为n重贝努利试验，简称贝努利试验（Bernoullitrials）。

在生物学

展开阅读全文