统计学讲义最新稿Word文件下载.docx
《统计学讲义最新稿Word文件下载.docx》由会员分享,可在线阅读,更多相关《统计学讲义最新稿Word文件下载.docx(12页珍藏版)》请在冰豆网上搜索。
由于样本是从总体中随机抽取的,抽取前无法预知它的数值,每个Xi(1,2,…n)都是一个随机变量,样本(X1,X2,…,Xn)则是一个n维随机向量。
样本在抽取后就有确定的观测值,表现为n个具体的数据(x1,x2,…,xn)。
3.简单随机样本
抽取样本是手段,推断总体才是目的。
为使样本更好的反映总体的信息,对样本抽取有两个基本要求。
一是样本具有随机性,总体中每个个体都有同等可能性进入样本,即每个Xi与总体X具有相同的分布F(x)。
二是样本满足独立性,即X1,X2,…,Xn相互独立,每一Xi的取值不影响另一Xi的取值。
如果从总体中抽取样本(),其每个分量()都与总体具有相同的概率分布,且相互独立,则这样的抽样方法称为简单随机抽样,而如此得到的样本,称为简单随机样本。
如果总体具有分布函数或概率密度,显然来自总体的简单随机样本()具有联合概率分布或联合概率密度。
4.总体分布函数与样本分布函数
样本是总体的代表,简单随机样本能较好的代表总体,其代表性到底如何呢?
设x1,x2,…,xn是取自分布函数为F(x)的总体的样本,将样本观测值按升序排列,记为x
(1),x
(2),…,x(n),定义如下函数
则Fn(x)是一非减右连续函数,且满足
Fn(-)=0Fn(+)=1
由此可见,Fn(x)是一个分布函数,称为样本分布函数(经验分布函数)。
对于每一固定的x,Fn(x)是事件{Xx}发生的频率,当n固定时,不同的样本观测值x1,x2,…,xn将有不同的Fn(x),Fn(x)是一随机变量。
格里纹科定理:
设x1,x2,…,xn是取自总体分布函数(理论分布函数)为F(x)的样本,Fn(x)是样本分布函数,有
定理表明,当n充分大时,样本分布函数是总体分布函数的一个良好的近似,这就是为什么我们用样本推断总体的理由。
第二节统计量及其分布
1.统计量
设()为来自总体的一个样本,则称不包含任何未知参数的实值函数为一个统计量。
例如,是从正态总体中抽出的样本,其中,是未知参数,则,,都是统计量,因为它们不含有未知参数。
而,则不是统计量。
必须注意,统计量中不能含有未知参数,但允许含有已知参数。
例如:
设总体X~N(μ,σ2),从中抽取一个样本(X1,X2,…,Xn),那么,当μ,σ2已知时,是一个统计量,而当μ,σ2中有一个未知时,就不是统计量了。
虽然统计量的构造不依赖于未知参数,但统计量的分布一般是依赖未知参数的。
统计量是一个随机变量,统计量的分布称为抽样分布。
2.常用统计量
设()是从总体中抽取的样本,称统计量
为样本均值,称统计量
为样本方差;
而称
为样本标准差;
称统计量
为样本阶原点矩;
为样本阶中心矩。
显然
3.样本均值的数学期望与方差
设是来自具有均值及方差的总体的简单随机样本()的均值,则,
证明
由此可知,不论总体的分布如何,从中抽样,其样本均值的数学期望与总体的期望相等,而方差则是总体方差的倍。
当样本()是由有限总体的无放回抽样所得的样本时,由于它的个分量()不能假定为相互独立,因此定理中的第2个公式不再成立,而需要乘上一个修正因子,即有以下定理。
设()是取自容量为且有均值及方差的有限总体的无放回样本,则
,
证明从略。
由于当时,修正因子的数值接近1,故修正因子一般在总体有限而样本容量大于总体的5%的情况下使用。
第三节抽样分布
1.三大抽样分布
(1)若随机变量,则其密度函数为
。
在数理统计中,经常假定总体所服从的分布是正态分布,其主要的原因自然是这个正态分布的常见性。
另一方面,正态总体的情形比较容易处理,而总体服从其它分布的统计量的精确分布往往是非常复杂的。
(2)若是相互独立的随机变量,且均服从于标准正态分布,则服从分布。
分布的密度函数为
其中是它的参数,称为自由度。
随机变量是服从自由度为的分布,以后简记为,下图是分布的密度函数曲线。
(3)若,,且与相互独立,则随机变量服从自由度为的分布,且记为。
下图是分布的密度函数曲线。
(4)若与是相互独立的随机变量,分别服从自由度为m和n的分布。
则随机变量服从自由度为的分布,简记为,分布的密度函数为
如果,由定义易知
对给定的,应有
即
从而得
又因为
比较两式可得
如。
分布,分布和分布的密度函数中都出现了函数,它是数学分析中的一种特殊函数,形式为。
上式中的积分很难直接计算,同样这三种分布的分布函数也是很难直接求解,因为采用制表的方法给出它的数值,在实际应用中可查表求的随机变量落在各区间中的概率。
这里特别提请注意的是分布的对称性,它的密度函数曲线是关于直线对称的,因此一般只给出的数值,这一点与这个态分布的情形相似。
2.来自正态总体的统计量的分布
本节介绍取自正态总体的一些统计量的精确分布,这些分布在后面的统计推断中常常要用到。
定理1设()是来自正态总体的一个样本,则
(1)样本均值
(2)统计量
证明前已证得
又由概率论的知识知,服从正态分布的随机变量的线性函数仍服从正态分布,故
所以
定理2设()是来自正态总体的一个样本,则样本均值与样本方差相互独立,并且有
定理3设()是来自正态总体的一个样本,则统计量
证明由定理1知
由定理2知
且与相互独立。
因为相互独立的随机变量的线性函数依然相互独立,故与相互独立。
再由三大抽样分布知
定理4设()和分别是来自正态总体和的两个样本,它们相互独立,则统计量
其中,
证明易知
由给定的条件及定理知
并且他们相互独立,再由分布的可加性知
于是,由定义知
显然,当时应有
定理5设()和分别是来自正态总体和的两个样本,它们相互独立,则统计量
证明由定理知
因两个样本相互独立,所以与也相互独立,从而由定义可知
3.来自非正态总体的样本均值的近似分布
当样本来自非正态总体时,其样本均值的抽样分布又是怎样的呢?
为了回答这一问题,先来回顾概率论中的独立同分布中心极限定理。
设随机变量相互独立,服从同一分布,且具有有限的期望和方差,,则随机变量
的分布函数对任意,满足
当很大时,近似地有
而由可知,当很大时,近似地有
这就是说,若容量为的简单随机样本取自有限均值及方差的总体,无论这个总体服从何种分布,当很大时,其样本均值均近似服从正态分布,这一结论有广泛的适用性。
因为就实际情况而论,一般变量的变化围都是有限的,故其均值和方差必定是有限的。
中心极限定理的条件,应用时容易被满足。
一般情况下,当样本容量时,的抽样分布均能很好地接近正态分布。
但总体方差往往未知,这时如何求的近似分布呢?
考虑统计量
当很大时(一般即可),近似于正态分布,所以近似于分布,又当很大时,分布近似于,故当很大时,近似地有
从而近似地有
4.比率的抽样分布
如果一个随机变量试验只有两种结果与,则这样的试验称为贝努利试验,若记随机变量
则所服从的分布为贝努利分布或分布,其分布律为
,,
式中参数为出现事件(即状态1)的概率,为出现事件(即状态0)的概率。
当所考察的总体只有两种状态时,则总体服从贝努利分布。
如产品检验时,任取1件产品,可以是合格品也可以是不合格品。
若记
则服从贝努利分布,而参数便是这批产品的不合格品率。
若从总体中抽取一个容量为的样本(),则每个也只能取1或0两个值中的一个,从而的和
实际表示状态1在样本中出现的次数,进而样本平均值则表示状态1在容量为的样本中出现的比率;
若状态1表示不合格品出现,则这样D的便表示样本中的不合格品比率。
这就是说,当总体服从贝努利分布时,样本均值实际表示的是一种比率,那么它的抽样分布又是何种形式呢?
容易看出,和数与比率之间有一一对应关系,即
:
所以欲求的分布,只需求的分布,因为两者是相同。
而和数就是个样本值中恰好有个等于1,个等于0,它实际服从二项分布,即
因而
于是比率的概率分布为
由于,
于是当很大时,亦应近似有
或