参数估计基础课件.docx
《参数估计基础课件.docx》由会员分享,可在线阅读,更多相关《参数估计基础课件.docx(21页珍藏版)》请在冰豆网上搜索。
![参数估计基础课件.docx](https://file1.bdocx.com/fileroot1/2023-2/11/af17f08f-3af7-446a-8624-e4c423085ab2/af17f08f-3af7-446a-8624-e4c423085ab21.gif)
参数估计基础课件
参数估计基础
抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数
常用的统计推断方法有参数估计(总体均数和总体概率的估计)和假设检验
内容复习
第6章 总体均数估计
抽样分布与抽样误差t分布 总体均数及总体概率的估计案例讨论
掌握:
均数和率抽样误差的概念;均数和率标准误的意义和计算;总体均数和总体率区间估计的意义、计算及其适用条件。
熟悉:
总体均数的点估计;t0.05,(ν)的概念,标准误和标准差的区别;置信区间与医学参考值范围的区别。
复习一些概念
参数(parameter)与统计量(statistics)
参数获取的途径对总体进行研究抽样研究
抽样误差(samplingerror)
1.抽样误差的概念:
由个体变异产生的,随机抽样引起的样本统计量与总体参数间的差异。
(抽样误差=总体参数-样本统计量)
2.抽样误差产生的原因:
3.抽样误差的特点:
随机,不可避免,有规律可循。
4.在大量重复抽样的情况下,可以展示其规律性
第一节 抽样分布与抽样误差
一、均数的抽样分布与抽样误差
二、频率的抽样分布与抽样误差
(一)样本均数的抽样分布
1.抽样模拟实验
假定总体:
某年某地13岁女学生身高值
X~N(155.4,5.3)
随机抽样:
n=30,K=100
将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。
2.样本均数的抽样分布特点
●各样本均数未必等于总体均数;
●样本均数之间存在差异;
●样本均数的分布规律:
围绕着总体均数155.4cm,中间多,两边少,左右基本对称,服从正态分布;
●样本均数的变异较原变量的变异减小。
3.抽样误差
1)概念:
由于抽样造成的样本统计量与统计量以及样本统计量与总体参数之间的差异叫作抽样误差。
2)抽样误差产生的基本条件
●抽样研究
●个体差异
3)表现形式
●样本统计量与样本统计量之间的差异
●样本统计量与总体参数之间的差异
(二)均数的抽样误差
1.概念:
由个体变异产生的,随机抽样引起的样本均数与总体均数间的差异。
(均数的抽样误差=总体均数-样本均数)
2.表现形式:
●样本均数与总体均数间存在差异
●样本均数与样本均数间存在差异
●均数的抽样误差可表现为样本均数与总体均数的差值
●均数的抽样误差也可表现为多个样本均数间的离散程度
如何度量抽样误差的大小?
如何揭示抽样分布的规律?
中心极限定理为我们提供解决办法:
3.中心极限定理(centrallimittheorem)
从均数为、标准差为的总体中独立随机抽样,当样本含量n增加时,样本均数的分布将趋于正态分布,此分布的均数为,标准差为
4.标准误(standarderror,SE)
●样本统计量的标准差称为标准误,用来衡量抽样误差的大小。
●样本均数的标准差称为标准误。
此标准误与个体变异成正比,与样本含量n的平方根成反比。
5.均数的标准误(standarderror)
(1)概念:
将样本均数的标准差称为均数的标准误,它是描述均数抽样误差大小的指标
(2)计算:
实际工作中,往往是未知的,一般可用样本标准差s代替:
(3)统计学意义
均数的标准误越大,样本均数的分布越分散,样本均数离总体均数就越远,样本均数与总体均数的差别越大,抽样误差越大;抽样误差越大,由样本均数估计总体均数的可靠性越差。
反之,亦然。
(4)影响抽样误差大小的因素
●标准差
●样本含量n
实际工作中,可通过适当增加样本含量n来减少均数的标准误,从而降低抽样误差
3个抽样实验结果图示
6.总体分布非正态分布时,样本均数的分布规律中心极限定理表明,即使从非正态总体中随机抽样,只要样本含量足够大,样本均数的分布也趋于正态分布.
●样本均数的总体均数仍等于μ;
●样本均数的标准误仍满足均数标准误的计算式;
●当n较小时,样本均数的分布是偏态的;
●当n足够大(n≥50)样本均数的分布近似正态分布
7.非正态总体样本均数的抽样实验
下图是一个正偏峰的分布,
用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图
●影响抽样误差大小的因素有:
⑴样本标准差。
S越大,也就越大。
⑵样本含量。
n越大,抽样误差越小。
因此如在一定标准差条件下,加大样本含量,可减少抽样误差,以保证的样本均数的代表性和可靠性。
8.例6-12000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125g/L,标准差为15g/L。
试估计该样本均数的抽样误差。
===2.89g/L
二.样本频率的抽样分布与抽样误差
例1.在一口袋内装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率π=20%),从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n=35), 计算摸到黑球的百分比(样本频率pi)。
重复这样的实验100次,每次得到100个黑球的比例分别为14.4%,19.8%,20.2%,22.5%,······等,将其频数分布列于表6-3。
●频率的抽样误差:
这种样本率样本频率与样本率样本频率之间、样本率样本频率与总体率总体概率之间的差异。
●频率的标准误:
表示频率的抽样误差的指标
样本频率的总体均数参数为π,
率的标准误计算公式
公式
例2某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。
p=41.5%=0.415,n=776
=
思考题:
●什么是抽样误差?
决定抽样误差大小的因素有哪些?
●抽样误差能避免么?
抽样误差有规律么?
●标准误和标准差有何区别与联系?
✓标准误和标准差有何区别与联系
第二节 t分布
一、t分布的概念
1.t分布
设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为和s,设:
则t值服从自由度为n-1的t分布(t-distribution)。
Gosset于1908年在《生物统计》杂志上发表该论文时用的是笔名“Student”,故t分布又称Studentt分布。
2.t值与t分布
学习t分布的意义
●事实上,任何一个样本统计量均有其分布的特点和规律。
统计量的抽样分布规律是进行统计推断的理论基础。
●t分布是十分有用的,它是总体均数的区间估计和假设检验的理论基础。
从前述实验的13岁女学生身高这个正态总体中分别作样本量为3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。
对它们分别作t变换,并将t值绘制相应的直方图,可得到t值分布曲线图
二、t分布的特征
1.t分布
t值的分布与自由度有关(实际是样本含量n不同)。
t分布的图形不是一条曲线,而是一簇曲线。
2.t分布的特征
●t分布为一簇单峰分布曲线
●t分布以0为中心,左右对称
●t分布只有一个特征参数,即为自由度(υ)。
t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高,;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。
3.t分布曲线下的面积规律
●同标准正态分布一样,统计应用中最关心的是t分布曲线下的尾部面积(即概率)与横轴t值间的关系。
●每一自由度下的t分布曲线都有其自身分布规律
●t界值表(tcriticalvalue)统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度下的t界值表(附表2)
横标目为自由度(υ=n-1)
纵标目为概率P(即曲线下尾部阴影部分面积)
表中的数字为相应的t界值(t≥0)
单侧概率(one-tailedprobability)所对应的t界值记为tα,ν
双侧概率(two-tailedprobability)所对应的t界值记为tα/2,ν
更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:
单侧:
P(tt,)=和P(tt,)=
双侧:
P(tt/2,)+P(tt/2,)=
不同自由度下的t界值表:
附表2
查t0.05,16=1.746(单侧)
P(t≥1.746)=0.05或P(t≤-1.746)=0.05
查t0.05/2,16=1.746(双侧)
P(t≥1.746)+P(t≤-1.746)=0.05 或 P(-1.746 t分布曲线的两端尾部面积表示在随机抽样中获得的等于及大于某|t|值(界值)的概率,即P值。
三.t界值表(tcriticalvalue)
1.t界值表的特点
●同一自由度下,t值越大则P值越小;
●P值相同时,υ越大,则t值越小;
●在相同的t值时,双侧概率为单侧概率的两倍
即t0.10/2,16=t0.05,16=1.746υ→∞时,t界值为Z界值
2.t界值表的用途
●已知υ和P(α),可查到相应的t界值;
●已知υ和t界值,可确定单侧或双侧概率P
●进行总体均数估计和均数的假设检验
第三节 总体均数及总体概率的估计
●抽样研究:
从总体到样本
●实际工作:
由样本推断总体
●统计推断(statisticalinference)就是根据样本所提供的信息,以一定的概率推断总体的性质。
(一)总体均数估计
参数估计(parameterestimation)的概念:
用样本统计量估计总体参数
方法
●点估计(pointestimation)
●区间估计(intervalestimation)
1、点估计
●直接用样本统计量作为总体参数的估计值
●方法简单,但未考虑抽样误差的大小
●在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。
而样本统计量随样本的不同而不同,属随机的。
2、区间估计
按一定的概率或可信度(1-),用一个区间估计总体参数所在范围,这个范围称作可信度为1-的可信区间(confidenceinterval,CI),又称置信区间。
这种估计方法称为区间估计。
通常用样本均数和均数的标准误估计总体均数的95%(或99%)置信区间
总体均数置信区间的计算需考虑:
(2)总体标准差是否已知,
(2)样本含量n的大小
通常有两类方法
(1)t分布法——未知
(2)正态近似法——已知
未知但n足够大
(二)总体均数的置信区间
1.t分布法
适用条件:
σ未知时,且n较小(n≤50)按t分布原理估计总体均数的置信区间。
计算公式:
例1:
为了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿35人,测得其血红蛋白均数为123.7g/L,标准差为11.9g/L。
试估计该地1岁婴儿的血红蛋白平均浓度。
分析:
已知样本标准差s,样本例数n=35,
不知道总体的信息,选用t分布法估计总体均数的可信区间。
95%的CI公式为:
例2:
某地抽得正常成人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计该地正常成人血清胆固醇均数的95%和99%置信区间
例3随机抽取12名口腔癌患者,检测其发锌含量,得均数为253.05g/g,标准差为27.18g/g,求发锌含量总体均数95%的可信区间。
本例自由度=12-1=11,经查表得t0.05,11=2.201,则:
即口腔癌患者发锌含量总体均数的95%可信区间为:
193.23~321.87(g/g)。
用该区间估计口腔癌患者发锌含量总体均数的可信度为95%。
例4某地120名12岁男孩身高均数为142.67cm,标准差为0.5477cm,计算该地12岁男孩身高总体均数90%的可信区间。
因n=120>100,故可以用标准正态分布代替t分布,u0.10=1.64
即该地12岁男孩平均身高的90%可信区间为:
141.77~143.57(cm),可认为该地12岁男孩平均身高在141.77~143.57(cm)之间。
2.总体概率的置信区间
根据样本含量n和样本频率p的大小,可以采用查表法和正态近似法计算总体概率的置信区间。
1)、查表法
当样本含量n较小,比如n50,特别是p很接近0或100%时,可以通过查相应统计用表,确定总体概率的置信区间。
例某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。
解:
查概率的置信区间表,在n=39的横行,X=2的纵列交叉处的数值为1~17
即该手术合并症发生概率的95%置信区间为1%~17%
注意:
附表中仅列出Xn/2部分;当X>n/2时,应以nX值查表,然后从100中减去查得的数值即为所求的置信区间。
2)、正态近似法
当n足够大,且样本频率p和(1p)均不太小时,如np与n(1p)均大于5时,p的抽样分布接近正态分布,此时总体概率的置信区间
pz/2Sp
例1.用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌患者94例,检出率为78.3%。
估计该仪器乳腺癌总体检出率的95%置信区间。
解:
本例n比较大,且np=94及n(1p)=26均大于5,
pz/2Sp=pz0.05/2
=0.7831.96=0.709~0.857
即该仪器乳腺癌总体检出率的95%可信区间置信区间为(70.9%,85.7%)。
●作业:
在某地随机抽取329人,作血清登革热血凝抑制抗体反应检验,结果29人阳性,问
(1)调查的329人的抗体阳性率是多少?
(2)抗体阳性率的抽样误差是多少?
(3)试估计该地人群血清登革热血凝抑制抗体阳性率?
(三)、应注意的一些问题
●置信区间和置信限的关系
●准确度与精密度的关系
1.正确理解可信区间的涵义
●可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。
所谓95%的可信度是针对可信区间的构建方法而言的。
●以均数的95%可信区间为例,其涵义是:
如果重复100次抽样,每100个样本所算得的100个可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。
2.可信区间和可信限的关系
●可信限:
分别指两个点值,分别称为下限值和上限值。
●可信区间:
是指以上、下可信限为界的一个范围。
●
用公式表示可信限;
用表示可信区间。
3.置信区间的解释:
总体均数的95%置信区间:
如果从总体中重复抽取100份样本含量相同的独立样本,每份样本可分别计算一个置信区间,那么在100个置信区间中,大约有95个置信区间包括μ(估计正确),只有5个置信区间不包括μ(估计错误)。
或者说对于某一个区间而言,它包含总体均数的可能性为95%,而不包含总体均数的可能性仅为5%。
因此在实际应用中,以这种方法估计总体均数犯错误的概率仅为5%。
4.可信区间意义:
虽然不能知道某校全体女大学生身高均数的确切数值,全体女大学生身高均数在163.0--164.5cm之间的可能性是95%,在162.7–164.7cm之间的可能性是99%。
换句话说,做出校全体女大学生身高均数为163.0--164.5cm的结论,说对的概率是95%,说错的概率是5%;做出校全体女大学生身高均数为162.7–164.7cm的结论,说对的概率是99%,说错的概率是1%。
5.可信区间的两个要素
●准确度:
反映为可信度1-的大小,即区间包含总体均数的概率大小,越接近1越好
●精密度反映为区间的宽度,区间越窄越好
在可信度确定的情况下,增加样本含量可减小可信区间的宽度
95%可信区间99%可信区间
公式
区间范围窄宽
估计错误的概率大(0.05)小(0.01)
6.可信区间与参考值范围的区别
●可信区间用于估计总体参数,总体参数只有一个。
●参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。
●95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%
●95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。
7.总体均数置信区间与参考值范围的区别