抽样误差-PPT课件.ppt

上传人:b****1 文档编号:1202998 上传时间:2022-10-18 格式:PPT 页数:50 大小:899.50KB
下载 相关 举报
抽样误差-PPT课件.ppt_第1页
第1页 / 共50页
抽样误差-PPT课件.ppt_第2页
第2页 / 共50页
抽样误差-PPT课件.ppt_第3页
第3页 / 共50页
抽样误差-PPT课件.ppt_第4页
第4页 / 共50页
抽样误差-PPT课件.ppt_第5页
第5页 / 共50页
点击查看更多>>
下载资源
资源描述

抽样误差-PPT课件.ppt

《抽样误差-PPT课件.ppt》由会员分享,可在线阅读,更多相关《抽样误差-PPT课件.ppt(50页珍藏版)》请在冰豆网上搜索。

抽样误差-PPT课件.ppt

第七章参数估计SamplingError&EstimationofParameter,南方医科大学生物统计学系DepartmentofBiostatisticsSouthernMedicalUniversity,抽样误差与标准误t分布可(置)信区间,主要内容,变异,“世界上没有两片完全相同的叶子”-植物学家“世界的丰富多彩来源于其多样性”-哲学家“个体差异是生物医学领域里普遍存在的现象”-医学家统计学就是研究变异(variation)的科学。

抽样误差,变异-抽样误差(variation)-(samplingerror),联系?

抽样实验,例1:

假定某地正常成年男子的红细胞计数服从正态分布N(5.00,0.502)的总体,单位1012/L。

用计算机模拟从该总体中随机抽样,每次抽10例组成一个样本,重复100次抽样。

结果见表1。

抽样实验,抽样实验,抽样误差,由于事物间普遍存在着变异,由此产生了这么一个现象:

由于抽样而引起的误差抽样误差,抽样误差,定义:

抽样误差(samplingerror):

是指由于样本的随机性引起的统计量与参数的差别,或同一总体的相同统计量之间的差别。

由于抽样而引起的样本指标(统计量)与总体指标(参数)的差异。

属随机误差:

特点:

无倾向性;不可避免。

抽样误差,统计学的分析思路,总体population,样本sample,sampling,inferring,抽样误差,在实际工作中,由于各种条件所限,一般不可能也没有必要观察总体中的每一个个体,常常是通过抽样来进行研究的。

虽然抽样误差是不可避免的,但其大小是可以度量的。

问题:

如何度量抽样误差的大小?

抽样误差,由表1可见,各个样本均数Xi并不等于相应的总体均数5.00,相互间也不完全相同。

由数理统计可证明,这些样本均数服从均数为(本例为5.00),标准差为X的正态分布。

其中,X的计算公式为:

一种统计量,抽样误差,标准误(StandardError,SE)统计学上将样本均数X、样本率P等统计量的标准差称为标准误,它可用于说明抽样误差的大小。

抽样误差,样本均数的标准误:

即样本均数的标准差,说明样本均数抽样误差的统计指标。

总体:

样本:

不同样本量抽样实验结果图示,与n成反比,n,SX;,n时,SX0,而S趋近于稳定。

抽样误差,由可见:

当样本量n一定时,越大,即个体变异越大,则样本均数的抽样误差X就越大;反之,当固定时,n越大,则X就越小。

样本均数的分布,若原始分布服从正态分布,则其样本均数服从正态分布。

若原始分布不服从正态分布,当样本量够大时(如n60),其样本均数一般服从正态分布(中心极限定理)。

抽样误差,由数理统计的中心极限定理可知,无论原始总体为何种分布,只要它具有总体均数和标准差,当样本含量足够大时(n60),X都近似服从均数为,标准差为X的正态分布。

中心极限定理(centrallimittheorem),当n足够大,样本均数逐渐趋于正态分布,任一分布的总体,这一点具有很高的实用价值的。

因为在实际工作中,许多医学测量结果,我们并不知道它的确切分布。

有了这条性质,就可以利用正态分布原理对其特征进行推断。

抽样误差,标准差VS标准误,t分布tDistribution,希尔米特,哥赛特,早在1875年,德国天文学家、测量学家F.R.Helmert就在数学上发现了t分布。

1908年Gosset以Student为笔名发表的论文,提出了t分布的概念,从而开创了小样本统计推断的新纪元。

t分布的发现,t分布,标准化变换抽样实验中,各个X也服从总体均数标准差为的正态分布,对各个Xi也做一下标准化变换,在实际工作中,s通常是未知的,用各个样本标准差Si估计s,则得到该式已经不服从标准正态分布了,而是t分布,t分布,t分布,Z转换,估计,t分布,三条t分布密度曲线,v=1,v=5,v=,分布特征t分布曲线是单峰的关于t=0对称t分布与标准正态分布的关系自由度n较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积当自由度时,t分布逼近于标准正态分布。

t分布,t分布与标准正态分布的区别在于:

中间小,两尾翘(大)。

t分布与Z分布曲线下面积均为1。

0,t分布,t界值表,给定自由度n,t分布曲线的双侧尾部面积为时对应的t值,记为t2,n并称其为t的双侧界值.单侧界值:

一侧尾部面积为时对应的t值t2,n对称性:

2单侧曲线下面积=双侧曲线下面积,同一t值单侧概率是双侧概率的一半。

给定曲线下面积对应的界值与自由度n有关。

同样的尾部面积,t分布的界值要大于标准正态分布的界值,t界值表,t界值表,单侧(one-sided/tailed):

双侧(two-sided/tailed):

t界值表,t分布界值示意图,表示阴影的面积,t分布曲线下面积,双侧t0.05/2,1.96单侧t0.025,,规律:

1.同一下,t值增加,P值减小2.同一P值下,增加,t值减小,反向关系,参数估计EstimationofParameter,参数估计,参数估计(estimationofparameter):

用样本统计量估计总体参数。

参数估计,点估计,区间估计,总体均数的估计,置信上限,点估计:

pointestimation区间估计:

intervalestimation,点估计(pointestimation),直接用样本均数作为总体均数的估计值,不足之处在于:

它没有考虑到抽样误差。

在大样本情况下,用X和S作为和的估计值计算参考值范围。

总体均数的点估计:

总体率的点估计:

即样本均数和样本率分别是总体均数和总体率的估计值。

区间估计(intervalestimation),指给出一个区间(常称为可信区间,confidenceinterval,CI),并同时给出该区间包含总体均数的概率(即:

可能性,一般取95%)。

重复试验时该区间包含总体均数的概率表示为1-或100(1-)%常用的有99%,95%,90%相应的为0.01,0.05,0.10,置信水平/可信度,总体均数的区间估计,总体均数的双侧1-置信区间为:

例2,由例1中的第二个样本计算总体均数的95可信区间。

(X5.03,S0.52,n10)查附表2的t界值表,得双侧,即95可信区间为:

从总体中作随机抽样,如:

100次,得100个可信区间,平均有95个可信区间包括总体均数m(估计正确),只有5个可信区间不包括总体均数m(估计不正确)。

实际中,只作一次抽样,只得到一个可信区间,作为未知总体均数的可能范围的估计,理论上有95的可能是正确的,而5的可能发生错误。

95可信区间的含义:

精密度(precision),可靠(reliability)1-a,增大样本量,不同置信度下可信区间的对比,参考值范围与可信区间的区别,例:

已知某市100名健康成年男性工人血红蛋白量资料服从正态分布,其X=141.8g/L,S=12.2g/L。

试计算双侧95%参考值范围及95%可信区间。

解:

由题意可知,用正态分布法计算双侧95%参考值范围:

95%可信区间用公式计算:

本例n100,100199,t1.66标准误,则,参考值范围与可信区间的区别,我们估计该市95%成年男性工人血红蛋白量在117.9165.7g/L之间。

我们有95%的把握,他们的平均血红蛋白量在139.8143.8g/L之间。

显然后者范围要窄于前者。

参考值范围与可信区间的区别,(1-a)100%参考值范围与可信区间的区别,含义:

参考值范围指该区间包含了(1-a)100%的观察值。

参考区间指该区间包含总体均数的可能性是(1-a)100%。

计算(双侧):

参考值范围:

可信区间:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 辩护词

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1