卫生统计学考前复习材料doc.docx
《卫生统计学考前复习材料doc.docx》由会员分享,可在线阅读,更多相关《卫生统计学考前复习材料doc.docx(17页珍藏版)》请在冰豆网上搜索。
卫生统计学考前复习材料doc
基本概念
总体(population):
根据研究li的确定同质观察单位(亦称个体)的全体。
样本(sample):
从总体中随机抽取部分观察单位,其实测值的集合。
抽样:
必须遵循随机化原则,从总体中抽取有代表性的部分观察值,使样本具有代表性。
目的是为了用样本的信息(或统计量)推断总体的特征(或参数)。
同质与变异homogeneity&variation:
统计学要求研究对象具有同质性,即研究对象的观察值具有相同属性。
同一总体内的个体存在差异,这种现象称为变异,变异是绝对存在的。
概率(probability):
是描述随机事件发生的可能性大小的数值,常用P表示,范围在0与1之间。
P越接近1,标明某事件发生的可能性越大;P越接近0,表明某事件发生的可能性越小;PW0.05的事件称为小概率事件。
统计资料的类型:
1・定量资料(measurementdata)用定量方法测量观察对象的某项指标所得的数值资料。
一般有度量衡单位。
如身高、体重、浓度。
2.分类资料(enumerationdata)将观察单位按某种属性或类别分组所得各组的观察单位数。
(1)二项分类:
阳性、阴性。
(2)多项分类:
A、B、0、AB血型。
3・等级资料(rankeddata)将观察单位按某种属性的不同程度分组所得各组的观察单位数。
如血清反应分为一,+,++,+++,++++五级。
资料可以由高级向低级转化
个体的血红蛋白(g/dl)
正常人数、异常人数(按正常异常分组)等级资料:
0〜,重度贫血
6〜,中度贫.血9〜,輕度贫血
12〜,正常16〜,增高
(按血红蛋白量的多少分组)
统计工作的基本步骤:
1.设计,design
2.资料收集,collectiondata
3.资料整理,sortingdata
4.资料分析>analysisdata
统计描述、参数估计、假设检验、统计结论。
统计表:
基本要求:
1.标题
概括表达中心内容,简练、确切、必要时注明资料来源、事件,位于表的上方。
2.标目
文字简明,注明单位
3.线条
力求间接,上而顶线、下而底线,纵标目下而、合计上而横线,不需要竖线与斜线。
4.数字
表内数字一律用阿拉伯数字表示,同i指标的小数位数i致,位次对其,暂缺、无数据的用“一”或
“…”表示。
数字左端对齐C
5・备注
如有备注,用标出,注在表外下面。
统计图
基本要求:
1.根据资料性质和分析目的,正确选用图形。
2.要有确切的标题,说明资料内容。
标题位于图的下方。
3.纵横两轴交点为起点。
纵横轴尺度应等距,纵横轴长度比例5:
7。
条图、直方图的纵坐标必须从“0”开始。
4.同一图内比较几种不同事物时,用不同的线条或颜色表示,并附图例说明。
(1)线图:
适用于表现连续变量资料的趋势变化
(2)直方图:
以面积表示数量,适用于表示连续变量的频数分布。
画直方图组距一定要相等。
(3)直条图:
用等宽直条的长短来表示相互独立的各指标指数数值的大小。
(4)构成图:
①圆图:
各扇形面积表示全体中各部分所占的比重。
②百分条图:
全长为100%,按构成比分段。
定量资料的统计描述
频数表:
即频数分布表,是对样本量较大的资料进行统计描述的常用方法,通过频数表可以现实数据分布的范围与形态。
编著频数表时组距可等可不等,一般取相等组距;分组数与样本量有关,应适宜,不多也不少。
一、集中趋势的指标,平均数是用于描述一组同质计量资料的集中趋势或反应一组观察值的平均水平。
常用的平均数有算术均数、儿何均数及中位数三种。
1・算术均数,简称均数。
X表示变量X的样本均数,u(希腊字母)表示总体均数,均数适用于对称分布资料,正态或近似正态分布资料。
_X1+X2++X
直接法:
样本量较小时用:
X=—匚二
n
2•几何均数,用G表示,适用于对数正态分部的资料,例如抗体的滴度和平均效价。
直接法:
样本量较小时用:
G=lg1
Ig2+lg4+lg4+lg8+lgl6+lg326
例题:
某地6人接种某疫苗后,其抗体滴度如下:
1:
2;1:
4;1:
4;1:
8;
1:
16;1:
32,请问其平均
=lg-I(0.8529)=7.13
抗体滴度是多少?
平均抗体滴度是1:
7.13
例题;某地102名健康人的钩端螺旋体血清抗体滴度如表7-2,计算平均滴度。
4.1-2102珞健«人的的逑席絞体
抗体滴度
滴度
IgX
flgX
(1>
(2)
⑶
(4)
(5)=
(2)(4)
1:
100
7
100
2.000
14.000
1:
200
19
200
2301
43.719
1:
400
34
400
2.602
88.468
1:
800
29
800
2^03
84.187
1:
1600
13
1600
3.204
41.652
合计
102
272.026
G=Is'1
=『(272.026)
[Z/J
I102J
▲谕抗悴平均廉发的计算
3•中位数:
将一组观察值从小到大按顺序排列,位次居中的观察值就称中位数,用M表示。
屮位数适用于任何一种分布的计量数据,一般多用于描述偏态分布活数据一端无界资料的集屮趋势。
4•百分位数:
是一种位置指标,用玖表示。
百分位数是一个有序数列百等分的分割值。
第50百分位数(P50)也就是中位数,中位数是一个特定的百分位数。
I
屮(工町
二、离散趋势指标-
描述离散趋势的常用指标有全距、四分位间距、方差和标准差等。
»〃一1
对于描述偏态资料的离散趋势宜用四分位问距,对于正态或近似正态资料宜用标准差。
标准差应用:
1•表示观察值的变异程度:
在两组(或几组)均数相近、单位相同的条件下,标准差大,表示变量值的变异程度法,均数的代表性较差;反Z,标准差小,表示变量组变异度小,数据多集屮在均数周围,
则均数的代表性较好。
2•计算变异系数:
单位不同时,不能用标准差表示变量值的离散趋势,只能用变异系数,单位相同但是均数相差较大时,用标准差不太合理,用变异系数更好,变异系数用CV表示。
变异系数是一种相対
的离散程度指标,它无单位:
…亍100%
3•结合均数描述频数分布的特征和制定医学参考值范围。
4计算标准误
例题;某地随即抽样调查了255名成年女性的红细胞数和血红蛋白,红细胞均数为4.18,标准差为0.29:
血红蛋口均数为117.6,标准差为10.2,请问女性红细胞数与血红蛋白的变异程度何者为大?
红细胞:
血红蛋白:
V07Q
CV=^X1OO%=2Lrr_xl00%=6.94%
X4.18
qin7
CV==xl00%=—xl00%=8.67%
X117.6
血红蛋白的变异程度大于红细胞数。
正态分布:
正态分布是一种连续型分布。
正态分布以均数为中心,左右两侧对称,靠近均数两侧的频数较多,而距
离均数两个较远处,频数逐渐减少,形成钟形分布。
正态曲线下的面积分布有一定的规律。
正态分布的主要特征:
①以均数卩为中心,左右对称。
②疋取值范围理论上没有边界。
X?
离口越远,函数f(X)值越接近0,但不会等于0o③正态分布曲线下的面积分布有一定的规律。
④正态分布完全由参数卩和。
决定。
卩是位置参数(即平均水平),决定分布曲线在横轴的偏移位置。
当。
一定后,U增大,曲线右移;反之U减小,曲线左移。
。
是变异参数,决定分布曲线的形态。
o越大,曲线的形态越“矮胖”,表示数据分布越分散;。
越小,曲线的形态越“瘦高”,表示数据分布越集中。
标准正态分布(standardnormaldistribution)标准正态分布是均数□为0、标准差。
为1的正态分布,即(卩,o)=(0,1),亦称u分布。
正态曲线下面积的分布规律:
①曲线下横轴上的总面积为100%或lo②下而是应用较多的三个区间的面积分布规律:
a.正态分布区间(u-o,p+o)下的面积,即口±o范围的面积占总面积为68.27%。
b.正态分布区间(11-1.96。
,P+1.96。
),即11±1.960范围的面积占总面积为95.00%。
C.正态分布区间(U-2.58。
,口+2.58。
),即11±2.58o范围的面积占总面积为99.00%。
正态分布的应用(医学参考值范禺的估计)正态分布或样本含量较大的数据资料,95%的医学参考值范围为:
(X-1.96S,X+1.96S)。
对于偏太分布的数据资料,宜采用百分位数的方法进行确定。
95%的医学参考范围为:
P2.5〜P97.5;单侧上界:
P95;单侧下界:
卩5。
均数的抽样误差:
由于存在变异,样本均数往往不够于总体均数这种由抽样造成的样本均数与总体均数的差异或各样本均数之间的差异称为抽样误差,抽样误差是不可避免的。
若要减
小抽样误差,只有增加样本含量。
①二
标准误计算:
标准误(理论值)是反映抽样误差大小的指标,用J表示。
用某一样本标准差S来代替0,得到标准误的估计值,(通常也简称为标准误),其计算公式为:
t分布的特征:
①t分布是以0为中心的左右对称分布曲线;②曲线形态变化与自由度u的大小有关(u与n有联系,这里u=n-l)o自由度u越大,t分布越接近于正态分布;自由度u越小,t分布越低平,两端向外伸展。
t分布不是一条曲线,而是一簇曲线,因此,t分布曲线下面积的95%或99%界限不是一个常量,而是随着自由度大小而变化的。
为便于使用,可根据t值表查找。
总体均数的可信区间亦称置信区间(CT),即按预先给定的概率(1-0,可信度)估计未知总体均数的所在范围。
习惯上用总体均数的95%(或99%)可信区间,表示该区间包含总体均数"的概率为95%(或99%)。
用此估计范围估计总体均数,表示100次抽样屮,有95(99)次包含总体均数。
(x一1.96吐,丘+1.96sJ
o未知,但样本例数n足够大,总体均数95%的可信区间可近似的表达为:
例题:
测得某地101名30〜49岁正常成年男子血清总胆固醇(mmol/L)平均值为4.735,标准差为0.882,求:
①该地健康男子血清总胆固醇的正常理范围?
②试估计该地健康成年男子血清总胆固醇均数。
©95%医学参考值范围为:
(元一1.96s,x+1.965)
_'4.735-1.96x0.882?
一二.735+1.96><0.882丿
=(3.006,6.464)
②95%均数可信区间:
(元-1.9飼序+1.9取)
'"喘)
4.735+1.96x^1^
V101/
=(4.5@4列
假设检验的一般步骤:
⑴建立假设和确定检验水准一一Ho:
无效假设,即样本均数所代表的总体均数"与假设的总体均数S相等,与u°的差异是抽样误差所致。
Hu被择假设,即样本均数所代表的总体均数卩与X不相等,与
g差异是本质性差异。
假设检验有双侧检验和单侧检验之分,一般选用双侧检验。
lb:
U=Uo;山:
PHU。
确定检验水准:
检验水准,用a表示,是假设检验时发生的一类错误的概率。
a常取0.05
⑵选定检验方法和计算统计量一一要根据研究设计的类型、统计推断的目的,选择适当的统计量。
如成组设计的两样本均数比较选择t检验,大样本时可选用近似的u检验。
不同的检验统计量有不同的公式。
⑶确定P值,作出统计推论一一根据P值大小作出拒绝或者不拒绝的结论。
当P>0.05,则按0.05水准不拒绝仏,(即II。
存在的可能性是个大概率时间)。
差别无统计学意义;当PW0.05,则按0.05水准拒绝H。
,不拒绝出(即H。
存在的可能性时个小概率时间),差别具有统计学意义。
t检验
一、样本均数与总体均数的比较(单样本t检验)总体标准差。
未知且n较小,应选用t检验。
⑴建立假设:
Ho•U=Uo;Hi:
PHy()a=0.05
⑵计算统计量t值:
X-Ho
Sjf
(3)确定临界值(ta):
计算自由度「查t值表中t。
.。
55,t0.01(v>
⑷以统计量(t)与临界值(ta)比较,作出判断结论,按下列规则确定P值:
若|t|0.05,差别无统计学意义。
|t|>to.Q5(v),P<0.05,差别有统计学意义。
例题:
假设肺炎病人的平均住院期为4.4天。
25例用某药治疗的病人住院的平均时间为3天,标准差为
1.
“0=^.4,5=1.3,X=O,«r二元二壬—如s!
3-4.4…
1.5/J25
5天。
试以5%的水准检验此药的效果。
Ho:
u=uo;Hi:
05
u二n-1=25-1=24,査t界值表,得to.o5(v)=2.064,现It|=4.67>2.064,故P<0.05。
按a=0.05水准,不接受H。
,接受出,可以认为此药有效。
二、配对资料的比较一一配对t检验
配对设计:
①同一受试对象试验(或治疗)前后的比较②同一样本用两种方法检验结果的比较③配对的两种受试对象分别接受两种处理后的数据比较。
三、完全随即设计的两样本均数的比较
目的是推断两样本各自代表的总体均数「与是否相等。
t检验可用于两样本含量m,m较小吋,同时要求两样本方差齐性。
假设检验的注意事项:
①严密的抽样设计及资料正态性②选用正确的检验方法,且药注意方差齐性。
成组比较的(检验,要求两组资料具有方差齐性③结论不能绝对化④单侧和双侧检验:
选用单侧检验的条件是在研究开始之前,表明不会出现PUo的情况),才能选用单侧检验。
若没有这方面的依据,一般选用双恻检验⑤差别有无统计意义与有无专业上的实际意义是两个不同的概念⑥假设检验和可信区间的关系是两个不同的概念。
I型错误和II型错误:
做建设检验时,有可能发生两种错误,现以样本均数和总体均数的t检验为例说明:
①I型错误是指拒绝了实际上成立的Ho,即“弃真”的错误。
在H。
成立的前提下,由于抽样的偶然性,得到了较大的t值,若t>t0.05
确定以t。
为临界值时,犯I型错误的概率就是a②II型错误是指接受了实际上不成立的几,即“取伪”的错误。
在实际上H】成立的前提下,由于抽样误差的偶然性得到了较小的I值若t则P>0・05,按a=0.05水准接受出。
这就犯了II型错误。
II型错误的概率用13表示
样本量确定后,犯两类错误的概率不可能同时减少,a越小,B越大;反之a越大,B越小。
方差分析
一、方差分析的目的:
方差分析主要用于检验数值变量资料中两个或两个以上均数间差别的显著性。
二、基本思想:
将总的变量分析成若干部分,每一部分都与某一种效应相对应;总的自由度也被分为相应的各个部分。
•方差分析的统计量为F值。
四、方差分析应用条件:
①各样本是相互独立的随即样本②各样本來自正态总体③各处理组方差齐性分类资料的统计描述
一、常用相对数
1•构成比:
又称构成指标,说明某一事物内部各组成部分所占的比重或分布,常以百分数表示。
构成比二
某一组成部分的观察单位数乂1
同一事物各组成部分的观察单位总数X丄
2•率:
又称频率指标,说明某现象发生的频率或强度。
K为比例基数,常用百分率(%)、千分率、万分率等表示率=发生某现象的观察单位数xK
一可能发生某现象的观察单位总數
①死亡事:
也叫粗死亡率:
死亡率二同期内死亡总数JK千-某年平均人口数
②死因构成比;某类死因的死亡数占总死亡数的百分数。
按死因构成比由高到低排出位次即死因顺位。
用于观察何种疾病是造成当地居民死亡的主因。
某死因构成比=因某类死因死亡人数辺00%
总死亡人数°
某病发病勢
③发肆:
常用于研究疾病发牛的因果和评价预防措施的效果。
研究。
这是一个吋点的指标。
甘宀*宀®检査时发现的某病现患病例总数"某病患病%该时点受检人口数xK
该期间新发生的某病病例数一定时期内可能发生某病的平均人口数X
@)患病率:
指在某时点(或短时期内)检查某一定人群中某病现患严重程度。
最用于病程较反的疾病统计
3•相对比:
是A、B两个有关联指标之比,说明A为B的若干倍或百分之几,两个指标可以是性质相同,
也可以是性质不同的。
比=牛(或X100%)
二、应用相对数时的注意事项
1.构成比与率是意义不同的两个统计指标,分析时不能以构成比代替率。
2.计算相对数时,分母不宜过小,即应有足够例数。
3.对观察单位数不等的儿个率,不能直接相加求其平均率。
4.资料的对比应注意可比性:
即除了研究因素外,其余的重要影响因素应相同或相近。
5.对比不同时期资料时,应注意客观条件是否变化。
6.对样本率(或构成比)的比较应遵循随便抽样,要做假设检验。
三、率的标准化法
标准化法的意义和基本思想:
率的标准化法:
就是在一个指点的标准构成条件下进行率的对比的方法标准化率:
用标准化法加以校正后的率称为标准化率,简称标准化率。
四、总体概率的置信区间:
正态近似法:
当n足够大,且样本率p和(1-p)均不太小,如np与n(1-p)均大于等于5时,p的抽
样分布逼近正态分布,则总体率的可信区间为:
95%:
p±1.96sp99%:
p±2・58sp
3•计算X2值:
2殍
4•确定p值,作出统计推论:
自由度(行-1)(列-1)=1。
接受乩,差别有统计学意义;
数据整理成表:
+-合计
处理组
23
27
50
对服组
10
40
50
合计
33
67
100
两组阳性反应比较
例题:
50只经过处理的老鼠中23只出现某种阳性反应。
两组的阳性反应率有统计学意义吗?
2_(ad—bc)2n
“R"c=50x33二]65"[a+b^c+d^a+c^b+d)n100(23x40-27x10)2x100
arc==/・°4
U=LX^0.05
(1)=3.84ox~=7・64>以005⑴,P<0.0550x50x33x67
按a=0.05的水准可以认为两组的阳性反应率差别有统计学意义。
三、四格表的校正——条件:
当心40且1WTV5
校正公式:
—0寸或:
(⑷-心护
"乙TZ(0+如+/)3+恥+〃)
注意:
当n<40或出现TV1时,校正法也不行,要用精确检验法直接计算概率。
例题:
为比较槟榔煎剂和阿的平驱绦虫的效果,对45名绦虫患者进行治疗,其结果如下,问两药疗效是
否相同?
药物
治疗人数
有效人数
槟榔煎剂
27
22
阿的平
18
12
45
34
27x18x34x11
x45
=061
Ho・兀=兀o
药物
有效人数无效人数
合计
槟榔煎剂
22
5
27
阿的平
12
6(4.4)
18
合计
34
11
45
亠(
\ad—bc\
(a+b)(c+dX。
++d)
22x6-5xl2|-^
;Hl:
nH
兀oCi=0.05
2
n
u=1,xS’05⑴=3.84ox2=0.61Vx2°.05⑴,p>0.05
按a=0.05的水准可以认为两药的疗效差别无统计学意义。
四、行X列表的卡方检验:
适用于多个(两个组以上)的率或构成比差别的显著性检验。
Ho:
兀1=兀2=兀3;H1:
三种药物的疗效不同或不全相同。
注意事项:
1.不宜有1/5以上的格子的理论数小于5,或有小于1的理论数。
处理方法:
①增加样本含量②去除理论数过小的行或列③合并理论数过小的性质相近的行或列。
2.如检验结果拒绝检验假设,职能认为各总体率或总体构成比之间总的来说有差别,但不能说明它们彼此
之间有差别或量量之问有差别。
秩和检验
非参数统计的概念:
不知道所研究样木来自总体的分布型或已知总体分布与检验所要求的条件不符,此时可用非参数统计进行假设检验。
使用资料:
①总体分布为偏态或分布形式未知②等级资料③个别数据偏大或数据的某一端无确定的数值④各总体方差不齐
直线回归:
入
直线回归方程的一般表达式为:
Y=a+bX
a为回归直线在Y轴上的截距
®a>0:
直线与纵轴的交点在原点的上方②a<0:
则交点在原点的下方③a=0:
则回归线通过原点b为回归系数,即直线的斜率
①b>0:
表示直线从左下方走向右上方②b<0:
表示直线从左上方走向右下方,即Y随X增大而减少③b=0:
表示直线与X轴平行,即X与Y无直线关系。
直线相关
一、直线相关的概念:
当所研究的两个事物或现象之间,既存在着密切的数量关系,又不象函数关系那样,能以一个变量的数值精确的求岀另一个变量的数值,我们称这类变量之间的关系为相关关系,简称相关。
二、相关系数的意义:
相关系数乂称积差相关系数,以符号「表示,它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
相关关系没有单位,其值为:
-r>0:
正相关,r<0:
负相关,r=0:
零相关,"I=1:
完全相关。
直线回归与相关的区别和联系
1•区别
①在资料要求上,冋归要求因变量Y服从正态分布;X是可以精确测量和严格控制的变量;相关要求两个
变量X、Y服从双变量正态分布。
②在应用上,说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关。
2•联系
①方向一直:
对一组数据若同时计算I•与b,他们的正负号是一致的。
r为正号说明两变量间的相互关系是同向变化的。
b为正,说明X增(减)一个单位,I•平均增(或减)b个单位②假设检验等价:
I•和b的假设检验是等价的,即对同一样本,二者的t值相等。