抽样误差-PPT课件.ppt
《抽样误差-PPT课件.ppt》由会员分享,可在线阅读,更多相关《抽样误差-PPT课件.ppt(50页珍藏版)》请在冰豆网上搜索。
![抽样误差-PPT课件.ppt](https://file1.bdocx.com/fileroot1/2022-10/5/964ec52c-64b9-4b10-89f6-47d219fcc140/964ec52c-64b9-4b10-89f6-47d219fcc1401.gif)
第七章参数估计SamplingError&EstimationofParameter,南方医科大学生物统计学系DepartmentofBiostatisticsSouthernMedicalUniversity,抽样误差与标准误t分布可(置)信区间,主要内容,变异,“世界上没有两片完全相同的叶子”-植物学家“世界的丰富多彩来源于其多样性”-哲学家“个体差异是生物医学领域里普遍存在的现象”-医学家统计学就是研究变异(variation)的科学。
抽样误差,变异-抽样误差(variation)-(samplingerror),联系?
抽样实验,例1:
假定某地正常成年男子的红细胞计数服从正态分布N(5.00,0.502)的总体,单位1012/L。
用计算机模拟从该总体中随机抽样,每次抽10例组成一个样本,重复100次抽样。
结果见表1。
抽样实验,抽样实验,抽样误差,由于事物间普遍存在着变异,由此产生了这么一个现象:
由于抽样而引起的误差抽样误差,抽样误差,定义:
抽样误差(samplingerror):
是指由于样本的随机性引起的统计量与参数的差别,或同一总体的相同统计量之间的差别。
由于抽样而引起的样本指标(统计量)与总体指标(参数)的差异。
属随机误差:
特点:
无倾向性;不可避免。
抽样误差,统计学的分析思路,总体population,样本sample,sampling,inferring,抽样误差,在实际工作中,由于各种条件所限,一般不可能也没有必要观察总体中的每一个个体,常常是通过抽样来进行研究的。
虽然抽样误差是不可避免的,但其大小是可以度量的。
问题:
如何度量抽样误差的大小?
抽样误差,由表1可见,各个样本均数Xi并不等于相应的总体均数5.00,相互间也不完全相同。
由数理统计可证明,这些样本均数服从均数为(本例为5.00),标准差为X的正态分布。
其中,X的计算公式为:
一种统计量,抽样误差,标准误(StandardError,SE)统计学上将样本均数X、样本率P等统计量的标准差称为标准误,它可用于说明抽样误差的大小。
抽样误差,样本均数的标准误:
即样本均数的标准差,说明样本均数抽样误差的统计指标。
总体:
样本:
不同样本量抽样实验结果图示,与n成反比,n,SX;,n时,SX0,而S趋近于稳定。
抽样误差,由可见:
当样本量n一定时,越大,即个体变异越大,则样本均数的抽样误差X就越大;反之,当固定时,n越大,则X就越小。
样本均数的分布,若原始分布服从正态分布,则其样本均数服从正态分布。
若原始分布不服从正态分布,当样本量够大时(如n60),其样本均数一般服从正态分布(中心极限定理)。
抽样误差,由数理统计的中心极限定理可知,无论原始总体为何种分布,只要它具有总体均数和标准差,当样本含量足够大时(n60),X都近似服从均数为,标准差为X的正态分布。
中心极限定理(centrallimittheorem),当n足够大,样本均数逐渐趋于正态分布,任一分布的总体,这一点具有很高的实用价值的。
因为在实际工作中,许多医学测量结果,我们并不知道它的确切分布。
有了这条性质,就可以利用正态分布原理对其特征进行推断。
抽样误差,标准差VS标准误,t分布tDistribution,希尔米特,哥赛特,早在1875年,德国天文学家、测量学家F.R.Helmert就在数学上发现了t分布。
1908年Gosset以Student为笔名发表的论文,提出了t分布的概念,从而开创了小样本统计推断的新纪元。
t分布的发现,t分布,标准化变换抽样实验中,各个X也服从总体均数标准差为的正态分布,对各个Xi也做一下标准化变换,在实际工作中,s通常是未知的,用各个样本标准差Si估计s,则得到该式已经不服从标准正态分布了,而是t分布,t分布,t分布,Z转换,估计,t分布,三条t分布密度曲线,v=1,v=5,v=,分布特征t分布曲线是单峰的关于t=0对称t分布与标准正态分布的关系自由度n较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积当自由度时,t分布逼近于标准正态分布。
t分布,t分布与标准正态分布的区别在于:
中间小,两尾翘(大)。
t分布与Z分布曲线下面积均为1。
0,t分布,t界值表,给定自由度n,t分布曲线的双侧尾部面积为时对应的t值,记为t2,n并称其为t的双侧界值.单侧界值:
一侧尾部面积为时对应的t值t2,n对称性:
2单侧曲线下面积=双侧曲线下面积,同一t值单侧概率是双侧概率的一半。
给定曲线下面积对应的界值与自由度n有关。
同样的尾部面积,t分布的界值要大于标准正态分布的界值,t界值表,t界值表,单侧(one-sided/tailed):
双侧(two-sided/tailed):
t界值表,t分布界值示意图,表示阴影的面积,t分布曲线下面积,双侧t0.05/2,1.96单侧t0.025,,规律:
1.同一下,t值增加,P值减小2.同一P值下,增加,t值减小,反向关系,参数估计EstimationofParameter,参数估计,参数估计(estimationofparameter):
用样本统计量估计总体参数。
参数估计,点估计,区间估计,总体均数的估计,置信上限,点估计:
pointestimation区间估计:
intervalestimation,点估计(pointestimation),直接用样本均数作为总体均数的估计值,不足之处在于:
它没有考虑到抽样误差。
在大样本情况下,用X和S作为和的估计值计算参考值范围。
总体均数的点估计:
总体率的点估计:
即样本均数和样本率分别是总体均数和总体率的估计值。
区间估计(intervalestimation),指给出一个区间(常称为可信区间,confidenceinterval,CI),并同时给出该区间包含总体均数的概率(即:
可能性,一般取95%)。
重复试验时该区间包含总体均数的概率表示为1-或100(1-)%常用的有99%,95%,90%相应的为0.01,0.05,0.10,置信水平/可信度,总体均数的区间估计,总体均数的双侧1-置信区间为:
例2,由例1中的第二个样本计算总体均数的95可信区间。
(X5.03,S0.52,n10)查附表2的t界值表,得双侧,即95可信区间为:
从总体中作随机抽样,如:
100次,得100个可信区间,平均有95个可信区间包括总体均数m(估计正确),只有5个可信区间不包括总体均数m(估计不正确)。
实际中,只作一次抽样,只得到一个可信区间,作为未知总体均数的可能范围的估计,理论上有95的可能是正确的,而5的可能发生错误。
95可信区间的含义:
精密度(precision),可靠(reliability)1-a,增大样本量,不同置信度下可信区间的对比,参考值范围与可信区间的区别,例:
已知某市100名健康成年男性工人血红蛋白量资料服从正态分布,其X=141.8g/L,S=12.2g/L。
试计算双侧95%参考值范围及95%可信区间。
解:
由题意可知,用正态分布法计算双侧95%参考值范围:
95%可信区间用公式计算:
本例n100,100199,t1.66标准误,则,参考值范围与可信区间的区别,我们估计该市95%成年男性工人血红蛋白量在117.9165.7g/L之间。
我们有95%的把握,他们的平均血红蛋白量在139.8143.8g/L之间。
显然后者范围要窄于前者。
参考值范围与可信区间的区别,(1-a)100%参考值范围与可信区间的区别,含义:
参考值范围指该区间包含了(1-a)100%的观察值。
参考区间指该区间包含总体均数的可能性是(1-a)100%。
计算(双侧):
参考值范围:
可信区间: