正态分布及均数抽样误差.pptx
《正态分布及均数抽样误差.pptx》由会员分享,可在线阅读,更多相关《正态分布及均数抽样误差.pptx(61页珍藏版)》请在冰豆网上搜索。
例例2.12.1某地用随机抽样方法检查了某地用随机抽样方法检查了140140名成年男子的名成年男子的红细胞数,检测结果如表红细胞数,检测结果如表22115.953.82正态分布和医学参考值范围正态分布和医学参考值范围1红细胞数红细胞数组中值组中值频数频数频率()频率()3.803.803.903.90221.41.44.004.004.104.10664.34.34.204.204.304.3011117.97.94.404.404.504.50252517.917.94.604.604.704.70323222.922.94.804.804.904.90272719.319.35.005.005.105.10171712.112.15.205.205.305.3013139.39.35.405.405.505.50442.92.95.605.605.705.70221.41.45.805.806.006.005.905.90110.70.7某地某地140140名正常男子红细胞数频数表名正常男子红细胞数频数表2直方图3f(x)=(fi/n)以频率为纵坐标以频率为纵坐标以频率为纵坐标以频率为纵坐标4随随着着组组段段不不断断分分细细和和观观察察人人数数的的增增多多,直直条条顶顶端端将将逐逐渐渐接接近近于于一一条条光光滑滑的的曲曲线线,如如下下图图。
这这条条曲曲线线称称为为频频率率密密度度曲曲线线,呈呈中中间间高高、两两边边低低、左左右右对对称称,形形状状似似座座钟钟。
类类似似于于数数学学上上的的正正态态分布曲线。
分布曲线。
因为频率的总和等于因为频率的总和等于因为频率的总和等于因为频率的总和等于1111,故横轴上曲线下的面积等于,故横轴上曲线下的面积等于,故横轴上曲线下的面积等于,故横轴上曲线下的面积等于1111。
频率密度f(x)=(fi/n)/i(i0.1)56这条所描述的分布,便近似于我们通常所说的正态概率分布,简称正态分布。
正态分布是自然界最常见的一正态分布是自然界最常见的一种分布,例如,测量的误差、种分布,例如,测量的误差、人体的身高、体重、许多生化人体的身高、体重、许多生化指标的值(例如血压、血红蛋指标的值(例如血压、血红蛋白含量、红细胞数等等)等都白含量、红细胞数等等)等都属于正态分布或近似正态分布。
属于正态分布或近似正态分布。
还有些偏态资料可经数据转换还有些偏态资料可经数据转换成正态或近似正态分布,例如成正态或近似正态分布,例如抗体滴度、血铅值等。
抗体滴度、血铅值等。
7ll一、正态分布的密度函数式中式中为总体均数,为总体均数,为总体标准差,为总体标准差,为圆周为圆周率,率,ee为自然对数的底,为自然对数的底,xx为变量,当为变量,当、已知,已知,以以xx为横轴,为横轴,ff(x)(x)为纵轴,即可给出正态分布曲线为纵轴,即可给出正态分布曲线的图形。
的图形。
8ll二、正态分布的特征1.1.正态分布在横轴上方,均数处最高,以均数正态分布在横轴上方,均数处最高,以均数为中心,左右对称。
为中心,左右对称。
2.2.正态分布的正态分布的XX取值范围理论上没有边界,取值范围理论上没有边界,XX离离越远,越远,f(X)f(X)值越接近值越接近00,但不会等于,但不会等于00。
3.3.正态分布曲线下的面积分布有一定的规律。
正态分布曲线下的面积分布有一定的规律。
所有的正态分布曲所有的正态分布曲所有的正态分布曲所有的正态分布曲线,在线,在线,在线,在左右任意左右任意左右任意左右任意个标准差范围内面个标准差范围内面个标准差范围内面个标准差范围内面积相同。
积相同。
积相同。
积相同。
94.4.正态分布完全由两个参数即均数正态分布完全由两个参数即均数与标准差与标准差决定,其中决定,其中是位置参数,是位置参数,是变异参数。
是变异参数。
常用常用N(,N(,22)来表示。
来表示。
1000、11的标准正态分布的标准正态分布11标准正态分布曲线及其面积分布标准正态分布曲线及其面积分布12l三、正态分布的应用不少医学现象服从正态分布或近似正态分布不少医学现象服从正态分布或近似正态分布ll估计医学参考值范围估计医学参考值范围ll质量控制质量控制正态分布是很多统计方法的理论基础正态分布是很多统计方法的理论基础13医学参考值范围的估计医学参考值范围的估计ll1.1.医学参考值范围的概念医学参考值范围的概念指特定的指特定的指特定的指特定的“正常正常正常正常”人群的解剖、生理、生化指人群的解剖、生理、生化指人群的解剖、生理、生化指人群的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的标及组织代谢产物含量等数据中大多数个体的标及组织代谢产物含量等数据中大多数个体的标及组织代谢产物含量等数据中大多数个体的取值所在的范围。
取值所在的范围。
取值所在的范围。
取值所在的范围。
ll2.2.医学参考值范围的确定要求医学参考值范围的确定要求确定研究总体,例如确定研究总体,例如“正常人正常人”。
选择足够数量的观察对象。
选择足够数量的观察对象。
统一测定方法,控制实验误差,保证数据的可靠性。
统一测定方法,控制实验误差,保证数据的可靠性。
决定取单侧范围还是双侧范围值决定取单侧范围还是双侧范围值选择恰当的百分范围选择恰当的百分范围14医学参考值范围的估计医学参考值范围的估计ll3.医学参考值范围的计算方法正态分布法百分位数法15正态分布法适用于正态或近似分布资料适用于正态或近似分布资料式中为均数,s为标准差,u值可根据要求查表14-5。
公式为:
16常用的u界值参考值范围参考值范围(%)单侧单侧双侧双侧9095991.2821.6452.3261.6451.9602.5761718例某地调查正常成年男子某地调查正常成年男子144144人的红细胞数近似人的红细胞数近似正态分布,得均数为正态分布,得均数为5.385.38(10101212/L/L),标准差标准差为为0.440.44(10101212/L/L),试估计该地成年男子红细),试估计该地成年男子红细胞数的胞数的95%95%参考值范围。
参考值范围。
19百分位数法:
适用于偏态分布资料适用于偏态分布资料例如白细胞数的95参考值范围:
因为白细胞数无论过高或过低均属异常,则分别计算P2.5和P97.5,这是双侧95参考值范围。
百分范围百分范围(%)单侧单侧双侧双侧下限下限上限上限下限下限上限上限9595PP55PP9595PP2.52.5PP97.597.59999PP11PP9999PP0.50.5PP99.599.520例7.13某年某市调查了200例正常成人血铅含量(g/100g)如下,试估计该市成人血铅含量95医学参考值范围(用百分位数法计算)。
2122练习1:
调查某地120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,其血红蛋白平均值为117.4(g/L),标准差为10.2(g/L),试估计该地健康女性血红蛋白的95医学参考值范围。
血红蛋白过高、过低均为异常,应按双侧计算:
血红蛋白过高、过低均为异常,应按双侧计算:
23一、均数的抽样分布与抽样误差一、均数的抽样分布与抽样误差ll抽样研究的目的就是要用样本信息来推断总体特征。
由于存在个体变异,样本均数(X)往往不等于总体均数(),因此抽样后各个样本均数也往往不等于总体均数,且各个样本均数间也不一定都相等。
这种由抽样造成的样本均数与总体均数的差异或各样本均数之间的差异称为抽样误差,抽样误差是不可避免的。
第第1515章章数值变量的统计推断数值变量的统计推断242526110110名名2020岁健康男大学生的身高均数为岁健康男大学生的身高均数为172.73cm172.73cm。
27ll已知已知ff110110,fXfX1900019000,需要在该表中增加,需要在该表中增加fxfx22栏,由第栏,由第(3)(3)、(4)(4)栏相乘,再将该栏数据相加,栏相乘,再将该栏数据相加,将将fXfX2232836463283646代入公式代入公式28110名20岁男大学生的平均身高X172.73cm,标准差s4.09cm。
假设该假设该110110个身高数值作为假设的有限总体,即:
个身高数值作为假设的有限总体,即:
172.73cm172.73cm,4.09cm4.09cm现在从该总体现在从该总体中随机抽中随机抽1010个个学生身高为学生身高为11号号样本。
样本。
计算得:
X1=173.22s1=4.0529计算得:
X1=173.22s1=4.0511号样本号样本30重复重复重复重复100100次刚才的抽样,得到次刚才的抽样,得到次刚才的抽样,得到次刚才的抽样,得到100100个样本(每个样本个样本(每个样本个样本(每个样本个样本(每个样本含量均为含量均为含量均为含量均为1010个),可算得个),可算得个),可算得个),可算得100100个样本均数个样本均数个样本均数个样本均数XX。
31各样本均数的均数各样本均数的均数X172.66(cm)172.73cm172.73cm3233总体均数为,标准差样本1(,s)样本2(,s)样本3(,s)样本m(,s)抽样,样本量为n34根据正态分布原理,若随机变量根据正态分布原理,若随机变量X服服从正态分布,则样本均数从正态分布,则样本均数X也服从正也服从正态分布。
态分布。
随机变量X:
N(,2)样本均数X:
N(,x2)35样本均数的抽样分布具有以下特点:
1.各样本均数未必等于总体均数;2.样本均数之间存在差异;3.样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;4.样本均数的变异较之原变量的变异大大缩小。
36均数的标准误及计算均数的标准误及计算反映均数抽样误差大小的指标是样本均数X的标准差简称标准误(理论值),用表示,或SE、SEM。
37由于在实际抽样研究中往往未知,通常用某一样本标准差s来替代,得标准误的估计值(通常也简称为标准误),其计算公式为:
以以XX11=173.22=173.22,ss11=4.05=4.05为例:
为例:
38一般情况下未知,常用估计抽样误差的大小。
作为的估计值。
例2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125g/L,标准差为15g/L。
试估计该样本均数的抽样误差。
将X=125g/L,s=15g/L,n=27代入39例:
已知s6.85,n100则样本均数的抽样误差为多少?
40标准误的应用1.反映样本均数的可靠性;标准误反映抽样误差的大小。
标准误反映抽样误差的大小。
标准误大,表标准误大,表示抽样误差大,则样本均数估计总体均数的可靠性示抽样误差大,则样本均数估计总体均数的可靠性差。
反之,标准误小,抽样误差小,样本均数估计差。
反之,标准误小,抽样误差小,样本均数估计总体均数的可靠性好。
总体均数的可靠性好。
2.估计总体均数的可信区间;3.用于均数的假设检验。
41二、总体均数的可信区间估计即用样本指标(统计量)估计总体指标(参数)有两种常用方法:
点估计和区间估计。
(一)点估计:
样本均数(X)就是总体均数的点估计值()该法简单,但未考虑抽样误差,而抽样误差在抽样研究中是不可忽视的。
42
(二)区间估计:
结合样本统计量和标准误可以确定一个具有一定可信度的包含总体参数的区间,该区间称为总体参数的1可信区间(confidenceinterval,CI)43即按一定的概率估计未知总体均数的所在范围。
习惯上用总体均数的95%(或99%)可信区间,表示该区间包含总体均数的概率为95%(或99%),用此范围估计总体平均数,表示100次抽样中,有95(99)次包含总体均数。
例如:
总体均数的可信区间例如:
总体均数的可信区间44
(1)未知,但样本例数n足够大(如n50),总体均数的1双侧可信区间为总体均数95%的双侧可信区间为:
1.96总体均数可信区间的计算总体均数99%的双侧可信区间为:
2.5845例某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,试估计该市2000年19岁健康男大学生平均身高的95可信区间。
本例本例nn9090,可按正态分布近似法计算,可按正态分布近似法计算故该市2000年19岁健康男大学生平均身高的95可信区间为(171.3,173.1)cm。
46tt分分布布47前面讲过,通过u变换,可将正态分布N(,2)转换成标准正态分布N(0,1)。
同样,若从正态分布N(,2)总体中随机抽样并算得多个样本均数Xj,它们仍服从总体均数为、总体标准差为的正态分布N(,x2),则服从48标准正态分布N(0,1)。
在实际工作中,往往是未知,常用替代,即这时,对正态变量X采取的不是u变换而是t变换了,t值的分布为t分布。
49501.单峰分布,以0为中心,左右对称;2.t分布是一簇曲线,其形态变化与自由度的大小有关n-1。
越小,越大,t值越分散,曲线的峰部越矮,尾部越粗。
越大,t分布越接近于标准正态分布。
t分布的特征:
51图图2-12-1自由度分别为自由度分别为11、55、的的tt分分布布52由于t分布不是一条曲线,而是一簇曲线(如图82)。
因此,t分布曲线下面积的95%或99%界值不是一个常量,而是随着自由度大小而变化的。
为便于使用,可根据t值表查找。
查t界值表(附表8-1)5354
(2)未知,且n较小时,总体均数可信区间的计算或简写为:
55t分布分布56df5时,时,若“砍去”t分布双侧尾部面积0.055,则有95的t值满足:
57例53已知例51中某地27名健康成年男子的血红蛋白量的均数为125g/L,标准差为15g/L。
试问该地健康成年男子的血红蛋白平均含量的95可信区间和99可信区间各是多少?
将将X=125g/L,s=15g/LX=125g/L,s=15g/L,n=27n=27代入代入同时查同时查tt界值表:
界值表:
tt0.05/2,260.05/2,26=2.056,t=2.056,t0.01/2,260.01/2,26=2.779=2.77958练习练习11要减小抽样误差,最切实可行的方法是要减小抽样误差,最切实可行的方法是。
(11)增加观察数)增加观察数(22)控制个体变异)控制个体变异(33)遵循随机化原则)遵循随机化原则(44)严格挑选观察对象)严格挑选观察对象59练习练习22某地调查正常成年男子某地调查正常成年男子144144人的红细胞数近似正态分人的红细胞数近似正态分布,得均数为布,得均数为5.38105.38101212/L,/L,标准差为标准差为0.44100.44101212/L/L,试估计该该样本均数的抽样误差。
试估计该该样本均数的抽样误差。
将s=0.441012,n=144代入60练习3某地抽得正常成人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计该地正常成人血清胆固醇均数的95CI。
本例虽未知,但n较大该该地地正正常常成成人人血血清清胆胆固固醇醇均均数数的的9595CICI为为3.473.473.81mmol/L3.81mmol/L。
61