医学统计学CLW.docx
《医学统计学CLW.docx》由会员分享,可在线阅读,更多相关《医学统计学CLW.docx(72页珍藏版)》请在冰豆网上搜索。
医学统计学CLW
医学统计学
绪论
医学统计学(MedicalStatistics)
●基础:
概率论和数理统计等数学的原理、方法
●研究对象:
医学资料
●研究任务:
搜集、整理、分析和推断
●性质:
一门应用学科
基本概念
(1)同质与异质
●同质(homogeneity):
性质相同
●异质(heterogeneity):
性质不同
例如,调查某地2011年12岁男童身高,则它的观察单位是每一个儿童,它的同质基础是同一地区、同一年份、同一年龄、同为男性。
⏹个体的同质性是构成研究总体的必备条件
⏹研究内容(指标/变量)不同,对同质性的要求不同
同质和异质是相对的概念
(2)变异
同质事物之间的差别称为变异(variation)亦称个体变异。
变异的两个方面:
•个体与个体间的差别
•同一个体重复测量值间的差别
个体变异(individualvariation)
●同质个体间的差异。
●一种或多种不可控因素(已知的或未知的)作用下所产生的反映的综合表现。
●结果是随机的(无法绝对正确地预测)。
●个体变异是普遍存在的。
●个体变异是有规律的。
●没有个体变异,就没有统计学!
(3)总体(population)
按研究目的所确定的同质研究对象某项观察指标的全体,即全体观察单位。
–有限总体(finite)
–无限总体(infinite)
●个体(individual)组成总体的基本单位。
●样本(randomsample)从研究总体中随机抽取具有代表性的部分观察单位。
–代表性,包含了总体的特性
–样本含量(samplesize)样本中包含个体的数量
(4)参数和统计量
●总体参数(populationparameter)总体的特征值称为参数。
–未知的,固有的,不变的,需要研究的!
●样本统计量(samplestatistic)由样本所算出的统计指标或特征值称为统计量。
–已知的,变化的,有误差的!
●在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。
●参数一般用希腊字母表示,
如:
总体均数总体标准差
总体率p总体相关系数r
●统计量一般用拉丁字母表示
如:
样本均数样本标准差s
样本率p样本相关系数r
(5)随机(random)机会均等,无主观影响
–抽样随机(randomsampling)有相同的机会被抽到
–分组随机(randomallocation)有相同的机会被分到不同的组中
–顺序随机(randomorder)有相同的机会先后接受处理
(6)频率和概率
1)频率(relativefrequency):
在n次随机试验中,事件A发生了m次,则比值
称为事件A在这n次试验中出现的频率。
2)概率:
数理统计学中的大数定理表明:
当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数p:
随机事件A发生的概率(probability)。
概率描述了随机事件发生的可能性的大小。
是一种参数。
常用P来表示。
0≤P≤1
(7)小概率事件(rareevent)当某事件发生的概率很小(可能性很小),统计学上称该事件为小概率事件。
医学上:
小于或等于0.05
小概率原理:
小概率事件在一次试验中认为是不会发生的。
(8)变量
●医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中进行观察(或测量),由于这些指标存在着变异,故把这些观察项目或研究指标称为随机变量,简称变量(variable)。
●观察结果对应的取值称为变量值或观察值。
变量的分类
●数值变量numericalVariable(定量变量)
可认为是连续的,往往有单位,取值间的差异是可度量的。
●分类变量categoricalVariable
取值是是分散、定性的,表现为互不相容的类别和属性。
✓无序分类(定性变量):
无顺序,无间隔,仅有分类
☐二项分类
☐多项分类
✓有序分类(等级变量):
仅有顺序,无单位,取值间的差异是不可度量的
不同分类的互相转化
⏹数值变量→无序分类变量
⏹数值变量→有序分类变量
⏹有序分类变量→无序分类变量
信息量只有减少,不可增加
(9)三个步骤
●研究设计
运用医学统计学的起点,也是高质量地完成整个研究的重要基础。
●资料分析
在研究设计基础上,通过实验(试验)或调查,将所得数据进行统计学处理的过程。
●结论
在数据分析的基础上,应用统计学处理的结果,进行统计学推断;同时,依据相应的专业知识,作出专业性的结论。
统计资料的整理与描述,数值变量资料
(1)个体变异(individualvariation)
是同质观察对象间表现出的差异。
变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。
就个体而言:
变异是随机的(random)。
就总体而言:
个体变异是有规律的。
(2)频数分布表和频数分布图
原因:
由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。
解决:
频数分布表的基本思想:
将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。
频数表编制步骤
●求极差
●选定适当的组段数后估计组距
●列出组段
●划记归组获得频数
●求频率,完成频数表
例2.1(P9)
频数分布表的编制
●求极差或全距(Range):
R=Xmax-Xmin
–R=6.18-3.29=2.89
●选定适当的组段数后估计组距(i)
–组段数的选取以能反映资料的分布特征为宜
–一般取8~15组
–i=2.89/10=0.289≈0.3
●列出组段
–组段的含义:
包括组段的下限而不含组段的上限。
如:
3.20~等价于[3.20,3.50)
–第一个组段应包含最小值
–最后一个组段应包含最大值
●划记归组获得频数
–常用的划记方法:
“正”;“||||”
●求频率,完成频数表
–相应的频数除以总数即为频率
–各组段的频率总和为1或者100%
频数分布类型
●对称分布:
以正态分布较为常见
●非对称分布:
偏态分布
–正偏态:
右侧>左侧向右侧拖尾
–负偏态:
左侧>右侧向左侧拖尾
频数分布特征
Ø数据分布的范围:
3.29~6.18
Ø集中位置:
中等大小人数居多,向中间集中
✓数据最集中的区间:
4.70~5.00
Ø离散趋势:
以中等大小的区间为中心,向两侧逐渐减少
Ø分布形态:
基本对称
(3)数值变量资料的统计指标
集中位置的描述
离散趋势的描述
集中位置的描述----平均数(average)
均数
1)均数(arithmeticmean,mean)
●
总体均数
●
样本均数
2)加权均数(weightedmean)
均数是加权均数的一个特例
3)几何均数(geometricmean)
几何均数例
1:
10,1:
20,1:
40,1:
80,1:
160
(例2.3)
●中位数(median)将一组数据按从小到大的顺序排列,位置居中的数即是中位数。
●百分位数(percentile)
●排序数据:
按从小到大顺序排列
平均数应用的注意事项
●同质的资料计算平均数才有意义
●根据资料分布的特征选用适当的平均数
–均数:
单峰对称分布的资料
–几何均数:
各变量值之间成倍数关系,分布呈偏态,经对数变换后呈单峰对称分布资料
–中位数:
理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。
(偏态分布、不规则分布资料、有不确定值的资料)
●计算几何均数时:
–变量值中不能有0
–同一组变量值不能同时存在正、负值
–若变量值全为负值,可先将负号除去,算出结果后再冠以负号
–样本含量较少时不宜计算靠近两端的百分位数
●平均数要与变异指标结合使用
离散趋势的描述
1.全距(Range)
亦称极差,记为R,是一组变量值中最大值与最小值之差。
✓优点:
简单明了
✓缺点:
不灵敏、不稳定
2.四分位数间距(interquartilerange)
定义为:
QL~QU,即中间一半观察值的极差。
四分位数(quartile)是两个特定的百分位数:
第25%分位数P25,和第75%分位数P75,分别记为QL和QU。
四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。
排序数据:
按从小到大顺序排列
3.方差(Variance)和标准差(StandardDeviation)
•
总体均数未知,用样本均数估计
标准差“离均差平方之和平均后的方根”“均方根”
n-1称为(标准差的)自由度,即“可以自由变异的程度”
分子有n项离均差,但只有n-1项独立,根据任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。
•标准差大:
分布分散、不整齐、波动大;
•标准差小:
分布集中、整齐、波动较小。
4.变异系数(coefficientofvariation)亦称离散系数(coefficientofdispersion),是标准差s与均数之比,即:
变异系数的两个特点及相应的用途
•没有单位
–反映标准差占均数的百分比或标准差是均数的几倍
–可用来比较度量衡单位不同的资料的变异度
•不受平均水平的影响
–反映的是以均数为基数的相对变异的大小
–比较均数相差悬殊的资料的变异度
(例2.7)
5.平均数与变异度的关系
•平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征
–变异度越小,平均数对各变量值的代表性越好
–变异度越大,平均数对各变量值的代表性越差
•通常,平均数与变异指标一起描述资料的分布特征。
–用均数和标准差描述正态分布资料的特征;
–用中位数和四分位数间距描述偏态分布资料的特征。
–
资料的指标描述
●统计描述的一个重要的组成部分
●数值变量资料的统计指标
●平均水平指标:
算术均数、几何均数、中位数等。
●离散程度指标:
全距、四分位数间距、方差、标准差、
变异系数。
●分类资料的统计指标
●相对数指标
正态分布
(1)正态分布的概率密度函数
如果随机变量X的概率密度函数
(-<X<+)
为总体均数,为总体标准差
p为圆周率,e为自然对数的底
X为变量,代表横轴的数值,f(X)为纵轴数值。
则称X服从正态分布,记作X~N(,2),其中,为分布的均数,为分布的标准差。
方差相等、均数不等的正态分布图示
均数相等、方差不等的正态分布图示
(2)正态分布的特征
•单峰分布;高峰在均数处;
•以均数为中心,均数两侧完全对称。
•正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。
•有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。
•正态曲线下的面积分布有一定的规律。
(3)正态曲线下的面积规律
•X轴与正态曲线所夹面积恒等于1。
•对称区域面积相等。
S(-x1,-x2)=S(+x1,+x2)
S(-,)=0.5S(-,)=1
S(-,-1)=0.1587S(-,+1)=0.8413
S(-,-2)=0.0228S(-,+2)=0.9772
S(-,-3)=0.0013S(-,+3)=0.9987
1-S(-,+)=0.31741-S(-2,+2)=0.04561-S(-3,+3)=0.0026
正态分布的一个显著特点
其曲线下面积完全决定于以标准差为单位从点X到µ的离差。
•正态曲线下面积总和为1;
•正态曲线关于均数对称;对称的区域内面积相等;
•对任意正态曲线,按标准差为单位,对应的面积相等;
•-1.64~+1.64内面积为90%;
•-1.96~+1.96内面积为95%;
•-2.58~+2.58内面积为99%。
(4)标准正态分布
•标准正态分布(standardnormaldistribution)是均数为0,标准差为1的正态分布。
•记为N(0,1)。
•标准正态分布是一条曲线。
•概率密度函数:
(-∞<u<+∞)
正态分布转换为标准正态分布
•若X~N(,2),作变换:
则u服从标准正态分布。
u称为标准正态离差(standardnormaldeviation)
(5)正态分布的应用
•估计频数分布
•确定临床参考值范围
a估计频数分布
(例3.2)
b参考值范围(referenceinterval)
•参考值范围又称正常值范围(normalrange)。
•什么是参考值范围:
–是绝大多数正常人的某观察指标所在的范围。
–绝大多数:
90%,95%,99%等等。
•确定参考值范围的意义:
–用于判断正常与异常。
•“正常人”的定义:
–排除了影响所研究的指标的疾病和有关因素的同质的人群。
参考值范围确定的原则
•选定足够例数的同质的正常人作为研究对象
•控制检测误差
•判断是否分组(性别,年龄组)
•单、双侧问题(onesidedortwosided)
•选择百分界值(90%,95%)
•确定可疑范围
1.选定同质的正常人作为研究对象
Ø同质
Ø正常
Ø“足够数量”
✓例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性。
✓一般认为每组100例以上;有人认为确定临床生化指标的正常值应取300~500例。
2.控制检测误差
Ø通过人员培训、控制检测条件、重复测定等措施,严格控制检测误差。
3.判断是否分组
Ø组间差别是否有统计学意义并有临床意义?
Ø各组的分布范围、高峰位置等是否基本一致?
4.单侧与双侧参考值范围
•根据医学专业知识确定!
–双侧:
白细胞计数,血清总胆固醇,
–单侧:
上限:
转氨酶,尿铅,发汞……
下限:
肺活量,IQ,
单侧下限---过低异常单侧上限---过高异常双侧---过高、过低均异常
5.选择百分界值
Ø参考值范围的涵义:
绝大多数的正常人在该范围内
–习惯上将“绝大多数”定义为80%、90%、95%或99%。
–应根据研究目的、研究指标的性质、数据分布特征等情况综合考虑百分界值的选择。
6.确定可疑范围
Ø若病人与正常人的数据重叠较多的情况下,为避免较大的假阳性和假阴性错误率,可设定可疑范围。
参考值范围的估计方法
(例3.3)
总结
•正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之一;
•正态分布是由两个参数决定:
均数和标准差;
•正态分布曲线下的面积是有规律的,且与标准正态分布曲线下的面积对应(以标准正态离差为单位)。
抽样误差及其规律性
(1)抽样误差samplingerror,samplingvariability由抽样引起的样本统计量与总体参数间的差别。
–原因:
个体变异+抽样
–表现:
•样本统计量与总体参数间的差别
•不同样本统计量间的差别
–抽样误差是不可避免的!
抽样误差是有规律的!
(2)模拟试验
•假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数、方差等),观察样本统计量的分布规律--抽样分布
规律。
•考察:
–不同的分布
–不同的样本含量对统计量的影响。
(3)均数的抽样误差之特点
•各样本均数未必等于总体均数;
•样本均数间存在差异;
•样本均数的分布很有规律,围绕总体均数,中间多两边少,左右基本对称;
•样本均数的变异范围较之原变量的变异范围大大缩小;
•随着样本含量的增加,样本均数的变异范围逐渐缩小。
与样本含量的关系
•n越大,均数的均数就越接近总体均数;
•n越大,变异越小,分布越窄;
•对称分布接近正态分布的速度,大于非对称分布。
分布越偏,接近正态分布所需样
本含量就越大。
(4)中心极限定理(centrallimittheorem)
Case1:
从正态分布总体N(,),中随机抽样(每个样本的含量为n),可得无限多个样本,每个样
本计算样本均数,则样本均数也服从正态分布。
–样本均数的均数为
–样本均数的标准差为
Case2:
从非正态(nonnormal)分布总体(均数为,方差为)中随机抽样(每个样本的含量为n),可
得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n>50),样本均数也近
似服从正态分布。
–样本均数的均数为
–样本均数的标准差为
(5)标准误(standarderror)
•样本统计量的标准差称为标准误。
•样本均数的标准差称为均数的标准误。
•均数的标准误表示样本均数的变异度。
当总体标准差未知时,用样本标准差代替
前者称为理论标准误,后者称为样本标准误。
标准误的意义
反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。
标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不精确。
反之亦然。
标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。
说明我们可以通过增加样本含量来减少抽样误差的大小。
(6)抽样误差的规律性
(1)
•均数的抽样误差规律:
–在样本含量足够大时,无论总体分布如何,其均数的分布趋于正态分布(大数定律)
–在样本含量较小时:
•总体为正态分布时:
正态分布
•总体为非正态分布时:
?
正态分布的标准化变化
若X~N(μ,σ),则
因则
(7)
t分布的概念
用样本标准差代替总体标准差,此时不服从正态分布。
而服从t分布。
记为:
t分布是一簇分布,与自由度有关。
t分布的性质
(1)t分布为一簇单峰分布曲线。
(2)t分布以0为中心,左右对称。
(3)t分布与自由度v有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。
每一自由度下的t分布曲线都有其自身分布规律,t分布曲线下的面积规律
⏹单尾:
P(t≤-t,)=,或P(t≥t,)=
⏹双尾:
P(t≤-t/2,)+P(t≥t/2,)=,即P(-t/2,t分布的高峰位置比u分布低,尾部高。
即相同的尾部面积对应的界值,比u分布大。
双侧:
t(0.05,10)=2.228P(|t|≥2.228)=0.05
t界值释义
¬双侧t0.05,10=2.228表明:
从正态分布总体中抽取样本含量n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。
P(t≤-2.228)+P(t≥2.228)=0.05或:
P(-2.228样本统计量的抽样分布
任何一个样本统计量均有其分布规律。
从正态分布总体中抽样:
•均数的抽样分布为正态分布;
•样本方差的分布服从2分布;
•样本方差之比服从F分布;
•t值服从t分布;
(8)抽样误差的规律性
(2)
•t的抽样误差规律:
–总体为正态时:
t~t分布
–总体为非正态时:
•样本含量较大时:
近似正态分布
•样本含量较小时:
?
(9)抽样误差的规律性(3)
方差的抽样误差规律:
在正态总体时:
方差的分布服从2分布。
2值服从自由度为n-1的2分布
方差比值的抽样误差规律:
在正态总体时:
方差之比的分布服从F分布则F值服从自由度为(n1-1,n2-1)的F分布(F-distribution)。
(10)研究抽样分布的目的
样本统计量的抽样分布规律是统计推断(statisticalinference)的理论基础;只有了解抽样分布规律,才能深刻理解统计推断的内涵。
参数估计
由样本统计量估计总体参数
用样本统计量作为总体参数的估计,例如:
用样本均数作为总体均数的一个估计
直接用样本统计量作为总体参数的估计值:
方法简单,但未考虑抽样误差的大小;在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。
而样本统计量随样本的不同而不同,属随机的。
(1)点估计(pointestimation)
(2)区间估计(intervalestimation)
•按一定的概率或可信度(1-)用一个区间估计总体参数所在范围,这个范围称作可信度为1-的可信区间(confidenceinterval,CI),又称置信区间。
这种估计方法称为区间估计。
可信区间的两个要素
l1)可信度(1-),可靠性;一般取90%,95%,可人为控制。
l2)精确性,是指区间的大小(或长短)
l兼顾可靠性、精确性
均数的可信区间
•基础:
抽样误差理论
•从正态分布总体中随机抽取一个样本,则t值接近于0的可能性较大,远离0的可能性较小,出现太大的t值和太小的t值的可能性更小,根据t分布的性质,t有95%可能在-t0.05,v到t0.05,v之间。
均数的可信区间
此时,均数的(1-)的可信区间
影响可信区间大小的因素
1)可信度可信度越大,区间越宽
2)个体变异变异越大,区间越宽
3)样本含量样本含量越大,区间越窄
当样本含量较大时,例如n>100,t分布近似标准正态分布,此时可用标准正态分布代替t分布,作为可信区间的近似计算。
相应的100(1-)%可信区间为:
(例4.1)
(例4.2)
(3)与均数之差有关的抽样分布
“均数之差”与“均数之差的标准误”之比,服从自由度v=n1+n2-2的t分布。
样本含量较大时,服从标准正态分布。
(4)合并方差与均数之差的标准误
合并方差(方差的加权平均)
均数之差的标准误
可得1-2的可信区间
(5)正确理解可信区间的涵义
•可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。
所谓95%的可信度是针对可信区间的构建方法而言的。
•以均数的可信区间为例,其涵义是:
如果重复100次抽样,每次样本含量均为n,每个样本均按