抽样误差-PPT课件.ppt

资源描述

抽样误差-PPT课件.ppt

《抽样误差-PPT课件.ppt》由会员分享，可在线阅读，更多相关《抽样误差-PPT课件.ppt（50页珍藏版）》请在冰豆网上搜索。

抽样误差-PPT课件.ppt

第七章参数估计SamplingError&EstimationofParameter,南方医科大学生物统计学系DepartmentofBiostatisticsSouthernMedicalUniversity,抽样误差与标准误t分布可（置）信区间,主要内容,变异,“世界上没有两片完全相同的叶子”-植物学家“世界的丰富多彩来源于其多样性”-哲学家“个体差异是生物医学领域里普遍存在的现象”-医学家统计学就是研究变异（variation）的科学。

抽样误差,变异-抽样误差（variation）-（samplingerror）,联系?

抽样实验,例1：

假定某地正常成年男子的红细胞计数服从正态分布N（5.00，0.502）的总体，单位1012/L。

用计算机模拟从该总体中随机抽样，每次抽10例组成一个样本，重复100次抽样。

结果见表1。

抽样实验,抽样实验,抽样误差,由于事物间普遍存在着变异，由此产生了这么一个现象：

由于抽样而引起的误差抽样误差,抽样误差,定义：

抽样误差（samplingerror）：

是指由于样本的随机性引起的统计量与参数的差别，或同一总体的相同统计量之间的差别。

由于抽样而引起的样本指标（统计量）与总体指标（参数）的差异。

属随机误差：

特点：

无倾向性；不可避免。

抽样误差,统计学的分析思路,总体population,样本sample,sampling,inferring,抽样误差,在实际工作中,由于各种条件所限,一般不可能也没有必要观察总体中的每一个个体,常常是通过抽样来进行研究的。

虽然抽样误差是不可避免的,但其大小是可以度量的。

问题：

如何度量抽样误差的大小？

抽样误差,由表1可见，各个样本均数Xi并不等于相应的总体均数5.00，相互间也不完全相同。

由数理统计可证明，这些样本均数服从均数为（本例为5.00），标准差为X的正态分布。

其中，X的计算公式为：

一种统计量,抽样误差,标准误（StandardError,SE）统计学上将样本均数X、样本率P等统计量的标准差称为标准误，它可用于说明抽样误差的大小。

抽样误差,样本均数的标准误：

即样本均数的标准差，说明样本均数抽样误差的统计指标。

总体：

样本:

不同样本量抽样实验结果图示,与n成反比，n，SX；,n时，SX0，而S趋近于稳定。

抽样误差,由可见：

当样本量n一定时，越大，即个体变异越大，则样本均数的抽样误差X就越大;反之,当固定时,n越大,则X就越小。

样本均数的分布,若原始分布服从正态分布，则其样本均数服从正态分布。

若原始分布不服从正态分布，当样本量够大时（如n60），其样本均数一般服从正态分布（中心极限定理）。

抽样误差,由数理统计的中心极限定理可知，无论原始总体为何种分布，只要它具有总体均数和标准差，当样本含量足够大时（n60）,X都近似服从均数为,标准差为X的正态分布。

中心极限定理（centrallimittheorem）,当n足够大，样本均数逐渐趋于正态分布,任一分布的总体,这一点具有很高的实用价值的。

因为在实际工作中,许多医学测量结果,我们并不知道它的确切分布。

有了这条性质，就可以利用正态分布原理对其特征进行推断。

抽样误差,标准差VS标准误,t分布tDistribution,希尔米特,哥赛特,早在1875年，德国天文学家、测量学家F.R.Helmert就在数学上发现了t分布。

1908年Gosset以Student为笔名发表的论文,提出了t分布的概念，从而开创了小样本统计推断的新纪元。

t分布的发现,t分布,标准化变换抽样实验中，各个X也服从总体均数标准差为的正态分布，对各个Xi也做一下标准化变换,在实际工作中,s通常是未知的,用各个样本标准差Si估计s，则得到该式已经不服从标准正态分布了,而是t分布,t分布,t分布,Z转换,估计,t分布,三条t分布密度曲线,v=1,v=5,v=,分布特征t分布曲线是单峰的关于t=0对称t分布与标准正态分布的关系自由度n较小时，t分布与标准正态分布相差较大，并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积当自由度时，t分布逼近于标准正态分布。

t分布,t分布与标准正态分布的区别在于：

中间小，两尾翘（大）。

t分布与Z分布曲线下面积均为1。

0,t分布,t界值表,给定自由度n，t分布曲线的双侧尾部面积为时对应的t值，记为t2,n并称其为t的双侧界值.单侧界值：

一侧尾部面积为时对应的t值t2,n对称性：

2单侧曲线下面积=双侧曲线下面积，同一t值单侧概率是双侧概率的一半。

给定曲线下面积对应的界值与自由度n有关。

同样的尾部面积，t分布的界值要大于标准正态分布的界值,t界值表,t界值表,单侧（one-sided/tailed）:

双侧（two-sided/tailed）:

t界值表,t分布界值示意图，表示阴影的面积,t分布曲线下面积,双侧t0.05/2，1.96单侧t0.025，,规律：

1.同一下，t值增加，P值减小2.同一P值下，增加，t值减小,反向关系,参数估计EstimationofParameter,参数估计,参数估计（estimationofparameter）：

用样本统计量估计总体参数。

参数估计,点估计,区间估计,总体均数的估计,置信上限,点估计：

pointestimation区间估计：

intervalestimation,点估计（pointestimation）,直接用样本均数作为总体均数的估计值,不足之处在于：

它没有考虑到抽样误差。

在大样本情况下，用X和S作为和的估计值计算参考值范围。

总体均数的点估计：

总体率的点估计：

即样本均数和样本率分别是总体均数和总体率的估计值。

区间估计（intervalestimation）,指给出一个区间（常称为可信区间,confidenceinterval,CI）,并同时给出该区间包含总体均数的概率（即：

可能性，一般取95%）。

重复试验时该区间包含总体均数的概率表示为1-或100（1-）%常用的有99%,95%,90%相应的为0.01，0.05，0.10,置信水平/可信度,总体均数的区间估计,总体均数的双侧1-置信区间为：

例2,由例1中的第二个样本计算总体均数的95可信区间。

（X5.03,S0.52,n10）查附表2的t界值表，得双侧，即95可信区间为：

从总体中作随机抽样，如：

100次，得100个可信区间，平均有95个可信区间包括总体均数m（估计正确），只有5个可信区间不包括总体均数m（估计不正确）。

实际中，只作一次抽样，只得到一个可信区间，作为未知总体均数的可能范围的估计，理论上有95的可能是正确的，而5的可能发生错误。

95可信区间的含义：

精密度（precision）,可靠（reliability）1-a,增大样本量,不同置信度下可信区间的对比,参考值范围与可信区间的区别,例：

已知某市100名健康成年男性工人血红蛋白量资料服从正态分布,其X=141.8g/L，S=12.2g/L。

试计算双侧95%参考值范围及95%可信区间。

解:

由题意可知，用正态分布法计算双侧95%参考值范围：

95%可信区间用公式计算：

本例n100,100199,t1.66标准误,则,参考值范围与可信区间的区别,我们估计该市95%成年男性工人血红蛋白量在117.9165.7g/L之间。

我们有95%的把握,他们的平均血红蛋白量在139.8143.8g/L之间。

显然后者范围要窄于前者。

参考值范围与可信区间的区别,（1-a）100%参考值范围与可信区间的区别,含义：

参考值范围指该区间包含了（1-a）100%的观察值。

参考区间指该区间包含总体均数的可能性是（1-a）100%。

计算（双侧）：

参考值范围：

可信区间：

展开阅读全文