医学统计学考点总结.docx
《医学统计学考点总结.docx》由会员分享,可在线阅读,更多相关《医学统计学考点总结.docx(31页珍藏版)》请在冰豆网上搜索。
医学统计学考点总结
第四章 医学统计学
目录
统计学概述
资料特征的描述性分析
资料的统计推断
常用卫生统计指标
统计图表
统计学概述
统计学的基本概念(重点掌握)
总体 总体是根据研究目的确定的同质研究对象(或称观察单位、个体)的总和;或者更确切地说,总体是根据研究目的确定的同质研究对象(或观察单位、个体)某种变量值的总和。
分为有限总体和无限总体。
有限总体是指总体范围内的个体数是可知的,通常有其时间或空间范围;
无限总体则指总体范围内的个体数不可知,有时甚至是抽象的。
无论是有限总体还是无限总体,在实际的研究中除非有必要,通常都是从总体中抽取部分个体进行观察、研究,并从这一部分个体的情况推论总体状况,这样的研究方法即为抽样研究,所观察或研究的部分个体即为样本。
样本 样本是从总体中随机抽取的部分个体。
随机抽取的意义在于使样本对总体具有代表性,从而使得“由部分个体推论总体”具有科学性和可信性。
样本中所含的个体数称之为样本含量,用符号n表示。
概率指随机事件发生的可能性的大小,用符号P来表示。
P值介于0~1之间,P=0表示该事件不会发生,P=1表示该事件必然发生。
大多数随机事件发生的概率在0~1之间,其P值越接近于1,发生的可能性越大;其P值越接近于0,发生的可能性越小。
统计学上把P≤0.05或P≤0.01的事件称为小概率事件,即实际中可以认为概率在此范围内的事件几乎不会发生。
这一小概率事件原理是统计推断的基本原理之一。
描述总体特征的指标称为参数,如总体均数μ、总体标准差σ、总体率π等。
由样本数据计算得到的指标值称为统计量,如中位数M、样本标准差s、t检验统计量t值、方差分析统计量F值、χ2检验统计量χ2值等。
变量及其分类
变量的概念
变量是指研究中观察单位的某种特征,亦可称为观察指标。
如一个人的特征可有性别、年龄、身高、血压等,一个家庭的特征可有家庭结构、家庭人均收入、人均居住面积等。
变量是由变量名和变量值组成的,如性别是变量名,其值为男、女;血压为变量名,其值为80mmHg或100mmHg等。
变量的分类 变量可根据分析内容或其性质进行分类。
1.按分析内容分类 可将变量分为因素性变量和结果性变量。
如在病人生命质量调查问卷中,反映生命质量的各条目得分是结果性变量,而与生命质量有关的年龄、性别、经济收入即为因素性变量。
因素性变量也常常作为分组变量。
2.按变量性质分类
(1)数值变量(定量变量、定量指标):
变量值是连续的,通常有度量衡单位。
由数值变量构成的资料称为计量资料、定量资料。
(2)分类变量(定性变量、定性指标):
表现为不同类别或属性。
由分类变量构成的资料称为分类变量资料。
分类变量资料又可分为计数资料和等级资料。
①计数资料是将观察单位按事物的某种属性或类别分组,再计数各组的观察单位数所得的资料,如性别、职业、血型等;
②等级资料是将观察单位按事物某种属性的不同程度分组,再计数各组的观察单位数所得的资料,它的分组是按等级排序的,具有一定的量的概念,也称之为半定量资料,如尿蛋白检测结果以-、+、++、+++等表示或疗效以无效、显效、临床控制、治愈表示等。
资料类型的转换
一般来说,定量的资料,即数值变量资料可转移为分类变量资料或等级变量的资料。
如100人的血红蛋白值构成一份定量资料,但亦可按医学参考值将其分为正常和贫血,此时即为分类资料;或按不同水平分级分为正常、轻度贫血、中度贫血和重度贫血,此时即为等级资料。
资料的类型只能从定量向半定量或定性转换,或者从半定量向定性转换,无法反向转换。
统计分析的基本步骤
1.统计设计 统计设计是根据研究目的,按照统计学原理,对整个研究中所涉及的方法学内容作出全面的计划。
包括研究对象和研究因素的界定、观察指标的选择、抽样方法或实验方法的确定、对照的设立、随机化的分组、样本含量的估计等准备工作的设计;调查表或实验记录表格的设计、研究参与者或调查员的培训、误差的估计和控制等实施阶段的设计;资料整理、录入、分析方法的设计等总结阶段的设计等。
这是整个统计工作的起点,是后续步骤的依据,是数据分析的前提。
2.收集资料 这是按照统计设计的要求实施调查或试验,获取原始数据的过程。
医学资料的来源主要有以下两个方面:
(1)利用现有资料:
包括各类统计报表,如经常性工作记录和既往做过的调查研究报告等。
(2)进行专项调查研究:
根据研究目的制订科学、周密的研究计划,按科学研究设计要求,有针对性地收集所需资料。
3.整理资料 通过调查或试验获得的原始数据,往往是没有条理、杂乱无章的,因而整理资料的过程就是使数据条理化、系统化的过程。
它是统计分析数据的准备阶段,主要包括数据的审核、根据分析目的进行分组整理或编制频数分布表等。
4.分析资料 数据的统计分析包括统计描述和统计推断。
统计描述就是用适当的指标或统计表、统计图等描述资料的特征。
统计推断是指用样本信息推断或估计总体状况的过程,包括参数估计和假设检验。
参数估计即用样本指标估计总体指标,如用样本均数估计总体均数,用样本率估计总体率等;假设检验是运用误差规律,根据概率论原理对要比较的样本指标间的差异或变量间的相互关系作出推论。
资料特征的描述性分析
定量资料的统计描述
集中趋势的描述
平均数是用于描述一组同质的数值变量集中趋势的一个指标系列,是均数、几何均数、中位数、众数、调和均数等多指标的通称,它反映一组变量值的平均水平。
医学研究中常用的平均数有算术均数、几何均数、中位数。
1.算术均数 算术均数简称均数。
总体均数记作μ,样本均数记作
。
该指标适用于对称分布,尤其是正态或近似正态分布的资料。
(1)直接法:
当观察值的个数不多时可直接计算。
(2)加权法:
当资料中相同观察值的个数较多时,可用加权法,加权法用于频数表资料。
式中f为组段频数,χ为组中值。
组中值=组段下限+组段上限/2。
例:
对某社区123名糖尿病患者餐后2小时血糖,用加权法计算平均血糖值。
组段(mmol/L)
(1)
频数f
(2)
组中值x(3)
fx(4)=
(2)(3)
7.0~
3
8.5
25.5
10.0~
7
11.5
80.5
13.0~
11
14.5
159.5
16.0~
17
17.5
297.5
19.0~
25
20.5
512.5
22.0~
26
23.5
611.0
25.0~
15
26.5
397.5
28.0~
9
29.5
265.5
31.0~
6
32.5
195.0
34.0~37.0
4
35.5
142.0
合计
123
—
2686.5
2.几何均数 记作G。
该指标适用于:
①变量值呈等比级数关系的资料,如血清抗体滴度的资料;②对数正态分布的资料,即某些偏态分布的资料,当将变量值取对数后又呈现正态分布的资料。
(1)直接法:
当观察值的个数不多时可直接计算。
公式:
例:
测得5人的血清IgG抗体滴度为1:
20,1:
40,1:
80,1:
40,1:
20,求其平均抗体滴度。
(2)加权法
例:
40名麻疹易感儿接种麻疹疫苗后一个月,血凝抑制抗体滴度,试求其血凝抑制抗体的平均滴度。
抗体滴度
(1)
人数f
(2)
滴度倒数x(3)
lgx(4)
flgx(5)=
(2)(4)
1:
4
1
4
0.6021
0.6021
1:
8
5
8
0.9031
4.5155
1:
16
6
16
1.2041
7.2246
1:
32
2
32
1.5051
3.0102
1:
64
7
64
1.8062
12.6434
1:
128
10
128
2.1072
21.0720
1:
256
4
256
2.4082
9.6328
1:
512
5
512
2.7093
13.5465
合计
40
—
—
72.2471
3.中位数 一组按由小到大顺序排列的数据,位次居中的变量值即为中位数,记作M。
中位数适用于:
①明显偏态分布或总体分布型不明的资料;②开放型数据,即数据的一端或两端没有界限的资料。
(1)直接法:
先将观察值按大小顺序排列,然后计算。
(2)频数表法:
例:
151例慢性胃炎患者住院时间(天),计算中位住院时间。
住院天数
频数
累计频数
累计频率(%)
0~
70
70
46.36
15~
54
124
82.12
30~
16
140
92.72
45~
5
145
96.03
60~
4
149
98.68
75~
1
150
99.34
90~
0
150
99.34
105~115
1
151
100.00
4.百分位数 以P×表示,一个百分位数P×将总体或样本的全部观察值分成两部分,理论上有的观察值比它小,有(100-×)%的观察值比它大,故百分位数是一个界值,也是分布数列的百等份分割值,P50百分位数也就是中位数。
5.平均数指标的正确应用
(1)对称分布(尤其正态或近似正态分布)资料首选均数;
(2)对数正态分布资料应首选几何均数,等比级数资料必选几何均数;
(3)其他分布情况则使用中位数。
离散趋势的描述
例:
三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。
定量资料的统计描述
1.极差(亦称全距)它反映一组观察值的波动范围,记作R。
极差是一组数据中最大值与最小值之差。
该指标数值越大说明变异度越大;反之说明变异度越小。
它适用于任何分布类型的资料。
但因其只受两侧极端值的影响,故反映一组观察值的变异程度时较粗糙,也不够稳定。
2.四分位数间距 四分位数间距是上四分位数QU(P75)与下四分位数QL(P25)之差,记作Q。
该指标的适用条件同中位数,而且通常与中位数(亦称第50百分位数)结合,全面描述偏态分布或总体分布不明资料的特征。
3.方差 总体方差记作σ2,样本方差记作S2。
4.标准差 将方差开平方即为标准差,总体标准差记作σ,样本标准差记作s。
标准差的适用条件与均数相同,而且通常与均数结合全面描述正态或近似正态分布资料的特征。
标准差越大,说明变量值越分散,即变异度越大。
5.变异系数 记作CV。
若各组数据观察指标的度量衡单位不同或虽单位相同但均数相差较大时,则应计算变异系数进行比较。
例:
某地20岁男子100名,其身高均数为166.06(cm),标准差为4.95(cm);体重均数为53.72(kg),标准差为3.96(kg)。
身高与体重的变异度何者为大。
身高CV=4.95/166.06×100%=2.98%
体重CK=3.96/53.72×100%=7.37%
正态分布及应用
1.正态分布的基本概念 正态分布又称高斯分布,是医学和生物界最常见的分布。
如身高、体重、红细胞数、血红蛋白、血压等的分布均属于正态分布。
正态分布是以均数为中心,低于均数的人数与高于均数的人数大致相等,越接近均数,人数越多,离均数越远,人数逐渐减少,形成了以均数为中心两侧基本对称的钟形分布。
这种资料在医学现象中很常见,称为正态分布。
正态分布具有下列特征:
(1)正态曲线在横轴上方,均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有两个参数,即均数μ与标准差σ。
μ是位置参数,当σ固定不变时,μ越大,曲线越向右移动。
σ是变异度参数,μ不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。
(4)正态曲线下的面积具有一定的分布规律。
2.正态曲线下面积的分布规律 无论μ和σ取值如何,正态曲线与横轴间的面积都是1或100%,而曲线下的面积分布具有如下规律:
实际工作中,我们常需了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分比(频数分布)或观察值落在该区间的概率。
常用的两个区间是μ±1.96σ及μ±2.58σ,二者的区间面积分别占总面积(或总观察例数)的95.00%及99.00%。
当我们计算得到了均数和标准差时,就可按照正态曲线下的面积分布规律掌握资料的频数分布特征。
3.正态分布的应用
(1)正态分布是很多统计方法的理论基础:
后面要讨论到的t分布、F分布、×2分布等都是在正态分布的基础上推导出来的。
某些分布,如t分布、二项分布、Poisson分布等的极限均为正态分布,在一定条件下,均可按正态近似的原理来处理。
(2)估计医学参考值范围:
医学参考值范围亦称医学正常值范围,它是指所谓“正常人”(即排除了影响研究指标的疾病或因素的人)的解剖、生理、生化等指标的波动范围。
它是临床医生分析病人健康状况的判断依据。
根据资料分布类型的不同,制定医学参考值范围的方法可有正态分布法和百分位数法。
正态分布法:
百分位数法:
该法是利用百分位数计算正常值范围,多用于偏态分布,也可用于总体分布不明或正态分布资料。
分类变量的特点是不连续的,无度量衡单位,整理时首先应根据分析要求,按观察单位的属性或类别分类汇总计数观察单位数,即频数,再用统计表列出,即为分类资料频数表。
在此基础上,再计算相对数指标,以反映资料的特征,必要时,需做标准化处理。
定性资料的统计描述
相对
两个有关联的指标之比称之为相对数。
研究所获基础数据,如某病患病人数、死亡人数、人口数、调查人数等是绝对数,它是资料分析的基础数据,不可或缺。
但是在许多情况下,仅用绝对数很难揭示事物内在特征或规律,因而需要在绝对数基础上计算相对数。
(1)率:
是说明某事物发生的频率或强度的指标。
总体率记作π,样本率记作P。
用公式可表达为:
式中K为比例基数,可以是100%、1000%。
、10000/万或100000/10万等,一般按惯例或使算得的率保留1~2位小数的原则选用。
(2)构成比:
是说明某事物内部各组成部分的比重或分布的指标。
以百分数的形式表示。
用公式可表达为:
该指标的特点是:
某一事物内部各组成部分的构成比之和为100%(或1),其中某一部分的构成比发生变化(增大或减小)时,必然有其他组成部分构成比的减小或增大。
(3)相对比:
是说明两个有关联的事物间的对比关系的指标。
用公式可表达为:
式中甲、乙指标既可以是绝对数,也可以是相对数或平均数等。
相对比常以百分数或倍数形式表示,当计算结果大于1时用倍数形式表示,而计算结果小于1时用百分数形式表示。
应用相对数时需注意的问题(重点掌握)
1.计算相对数时,分母不宜过小,亦即要有一定量的观察例数。
因为,观察例数过少时,所得相对数就不够稳定,甚至产生错误结论。
计算相对数时,分子分母应根据相对数(率或构成比)的定义来确定。
率的分子分母可以是不同质的,其单位可相同也可不同;构成比则分母包含分子,其单位是一致的。
2.计算几个率的平均率(或称总率、合计率时)时,若各率的观察例数(分母)不同,不能直接相加求其平均,必须将各率的分子、分母分别求和后,再以分子合计除以分母合计求得平均率。
3.不可用构成比代替率分析事物(如疾病或死亡)发生的强度。
定性资料的统计描述
4.注意资料的可比性。
影响相对数值的因素是很多的,在对比的两个或多个率或构成比时,除了研究因素(或干预措施)外,其余的可能影响分析结果的因素应相同或相近。
一方面是研究的对象范围、研究的时间、方法、评判标准等要相同;另一方面是主要影响因素的构成(如年龄构成、性别构成、疾病严重程度构成等)应相同或相近。
如果存在对比组间主要影响因素的构成比不一致时,应采用标准化法加以调整,以标准化率作比较依据。
资料的统计推断
抽样误差与标准误
在同一总体中做随机抽样,因抽样而造成的样本指标与总体参数之差或样本指标与样本指标之差称为抽样误差。
抽样误差属于随机误差,它是客观存在的、不可避免的,但可加以控制,可以用统计学方法估计其大小。
均数的标准误是:
样本均数的标准差,反映了样本均数之间的离散程度,说明了抽样误差大小。
它反映了样本均数与总体均数的接近程度。
越小,说明样本均数越接近总体均数,用样本均数代表总体均数的可靠性越强。
率的标准误 与均数的标准误类似,它可反映样本率抽样误差的大小。
式中π为总体率,p为样本率。
从标准误的计算公式可见,无论是均数的标准误,抑或是率的标准误,其大小均与两方面的因素有关。
一是个体变异的大小(如样本标准差);
二是样本含量的大小。
在观察例数相同时,抽样误差的大小主要取决于个体间差异的情况,二者呈正比关系,而当个体差异一定时,抽样误差与样本含量则呈反比关系。
因此,要增强样本指标对总体指标的代表性,最为有效的方法是适当增大样本含量。
均数的假设检验常用方法
假设检验过去亦称为显著性检验,是统计推断的重要方面。
实际工作中,我们常常需要比较不同样本间某测量指标的差别,或比较不同样本某种属性的比率间的差别,或比较实际观察到的现象与该现象预期发生情况间的差别,而这些通过样本实际观察到的差别都需要通过假设检验才能判断是否与总体的真实情况相一致。
假设检验的基本思想和基本步骤(重点掌握)
1.基本思想:
反证法思想和小概率事件
2.基本步骤:
(1)建立假设,确定检验水准
(2)选择检验方法,计算检验统计量
(3)确定P值,作出推断结论
例:
为研究山区成年男子的脉搏数是否高于一般成年男子的脉搏数,某医生在某山区随机调查了25名健康成年男子,求得其脉搏均数为74.2次/分,标准差为6.0次/分。
根据大量调查,已知健康成年男子脉搏的均数为72次/分,能否根据此调查认为山区成年男子的脉搏均数高于一般成年男子的脉搏均数?
n=25,
=74.2次/分,s=6.0次/分,μ0=72次/分
两个均数的不等有两种可能:
①样本所代表的未知总体(山区成年男性)与已知总体(一般成年男性)为同一总体,两均数的差别是由抽样误差所致;②两均数来自不同总体,二者的差别是由于研究因素(如环境条件的影响)所致。
1.建立假设,确定检验水准
检验假设亦称虚拟假设或无效假设,用H0表示,另一与H0相联系、相对立的假设,称备择假设,记作H1和HA。
这里还有单侧检验与双侧检验之分,若研究者仅仅关心对比组间是否有差别,应用双侧检验;若研究者根据专业知识及文献信息确定推断的目的为是否高于或低于某一数值,用单侧检验。
均数的假设检验常用方法
假设:
α=0.05
检验水准也称显著性水准,是假设检验作推断结论时的判定标准,记作α。
确定小概率事件标准。
α的值可由研究者依研究内容和设计要求确定,通常取α=0.05。
2.选择检验方法,计算检验统计量 情况不同,所选用的检验方法就不同,而不同的检验方法有着不同的统计推断目的和检验统计量计算公式。
本例中,观察指标属正态分布的数值变量,设计上属于样本与已知总体的比较,且为小样本,故而应选择样本均数与总体均数比较的t检验。
3.确定P值,作出推断结论 P值是指在H0规定的总体中做随机抽样,获得等于或大于(或等于或小于)现有样本检验统计量值的概率。
在得到P值后,就可依以下原则作出结论:
当P≤α时,统计结论为,按α检验水准,拒绝H0,接受H1,差别有统计学意义;当P>α时,统计结论为,按α检验水准,不拒绝H0,差别无统计学意义。
本例中P值的确定需查t界值表,先确定自由度ν,该公式对应的ν=n-1=25-1=24,查表得单侧t0.05,24=1.711,t0.01,24=2.064,检验统计量t=1.833,介于两个界值之间,故得0.05>P>0.01。
统计结论为,按α=0.05水准,拒绝H0,接受H1,可认为该山区健康成年男子脉搏均数高于一般健康成年男子的脉搏均数。
均数比较的假设检验
1.样本均数与总体均数的比较 这种设计类型的分析目的是判断某个样本均数所代表的未知总体均数μ与已知的总体均数μ0有无不同。
或者说,某样本均数与该指标的已知总体均数间的差别有无统计学意义。
根据样本的大小可选用μ检验或t检验。
μ检验和t检验均要求样本来自正态总体,样本含量较大或虽样本含量较小但总体标准差已知时用μ检验;当样本含量较小时用t检验。
均数的假设检验常用方法
如若样本例数n较多时,相应的自由度ν=n-1亦较大,则tα,ν≈tα,∞,可按正态近似原理,采用μ检验。
仍用上式计算,但检验统计量为μ值,直接用ν=∞查t界值表(这时表中的t界值tα,∞也就是u界值uα),即得P值。
记住常用的几个u界值:
双侧u0.05=1.96,u0.01=2.58;单侧u0.05=1.64,u0.01=2.33,则省去查表,更为简便。
2.两样本均数的比较 这种设计类型的分析目的是判断两样本代表的两总体均数u1和u2有无不同
根据样本的大小可选用u检验或t检验。
在此类型分析中,除u检验和t检验的基本要求外,对于两个小样本间的比较还要求两总体方差齐(即经方差齐性检验结论为:
两总体方差相同)。
例:
某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如表,问该地急性克山病患者与健康人的血磷值是否不同?
急性克山病患者与健康人的血磷值(mmol/L)
本例为两个小样本均数间的比较,经初步分析得
ν=11+13-2=22,查表得t0.02(22)=2.508,t0.01(22)=2.819,检验统计量t值在此二界值之间,则0.02>P>0.01。
按α=0.05水准,拒绝H0,接受H1,两样本均数间差异有统计学意义,可以认为该地急性克山病患者与健康人的血磷值不同,患者较高。
3.配对设计的t检验 医学研究中的配对设计主要有以下几种形式:
①同一受试对象接受某种处理措施前后的数据比较。
如同一批患者治疗前后的比较,其目的是推断某一种处理措施有无作用。
②同一样品由两种方法检测或同一受试对象在机体的两个部位施予两种处理措施。
③按一定条件配对的两个受试对象分别接受两种处理措施。
例:
为了研究孪生兄弟的出生体重是否与其出生顺序有关,共收集了15对孪生兄弟的出生顺序和出生体重,如表所示。
试问孪生兄弟中先出生者的出生体重与后出生者的出生体重是否相同?
表 15对孪生兄弟的出生体重(kg)
查t界值表,t0.05/2,14=2.145,t=2.3