《卫生统计学》考试重点复习资料打印.docx
《《卫生统计学》考试重点复习资料打印.docx》由会员分享,可在线阅读,更多相关《《卫生统计学》考试重点复习资料打印.docx(27页珍藏版)》请在冰豆网上搜索。
《卫生统计学》考试重点复习资料打印
《卫生统计学》复习资料
☆第一章绪论
统计学:
是一门通过收集、整理和分析数据来认识社会和自然现象数量特征的方法论科学。
其目的是通过研究随机事件的局部外在数量特征和数量关系,从而探索事件的总体内在规律性,而随机性的数量化,是通过概率表现出来。
总体:
总体是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:
从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
抽样:
从研究总体中抽取少量有代表性的个体,称为抽样。
概率:
概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。
0﹤P(A)﹤1。
频率:
在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。
当试验重复很多次时P(A)=m/n。
变量:
表现出个体变异性的任何特征或属性。
随机变量:
随机变量(randomvariable)是指取指不能事先确定的观察结果。
随机变量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。
系统误差:
系统误差(systematicerror)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。
系统误差可以通过实验设计和完善技术措施来消除或使之减少。
随机误差:
随机误差(randomerror)又称偶然误差,是指排除了系统误差后尚存的误差。
它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。
误差变量一般服从正态分布。
随机误差可以通过统计处理来估计。
变异:
在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
抽样误差:
(消除了系统误差,并将随机测量误差控制在允许范围内)由于个体变异的存在,在抽样过程中产生的样本统计量与总体参数之间的差异。
分布:
随机现象的规律性通过概率来刻画,而随机事件的所有结局及对应概率的排列称为分布。
☆第二章定量资料的统计描述
算术均数:
描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用表示。
适用条件:
对称分布或正态分布的资料。
几何均数:
用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G。
适用条件:
对于变量值呈倍数或等比关系、或呈对数正态分布(正偏态分布)的资料。
中位数:
将一组观察值由小到大排列,n为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。
适用条件:
①变量值中出现个别特小或特大的数值;②资料的分布呈明显偏态,即大部分的变量值偏向一侧;③变量值分布一端或两端无确定数值,只有小于或大于某个数值;④资料的分布不清。
百分数适用条件:
(1)描述一组资料在某百分位置上的水平;
(2)用于确定正常值范围;(3)计算四分位数间距。
众数:
众数原指总体中出现机会最高的数值。
样本众数则是在样本中出现次数最多的数值。
极差:
亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。
极差越大意味着数据越离散,或者说数据间变异越大。
特点:
计算简单,容易理解,应用广泛。
但不稳定,不全面,易受极端值影响。
可用于各种分布类型的资料。
四分位数间距:
是由第3四分位数和第1四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。
特点:
比极差稳定,只反映中间50%数据的两端值的差异。
计算不太方便。
可用于各种分布的资料。
主要用于偏态分布的资料。
方差:
方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。
特点:
充分反映每个数据间的离散状况,意义深刻;指标稳定,应用广泛,但计算较为复杂,不易理解;方差的单位与原数据不同,是原单位的平方。
有时使用时不太方便;在方差分析中应用甚广而极为重要。
标准差:
是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。
特点:
意义同方差,是方差的开平方;标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标准,故称标准差。
变异系数:
用于观察指标单位不同或均数相差较大时两组资料变异程度的比较,用CV表示。
应用条件:
(1)变异系数为无量纲单位,可以比较不同单位指标间的变异度;
(2)变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。
注意:
CV一般不大于20-30%。
否则,说明指标不太稳定。
问答题
常见的描述集中趋势的指标有哪些,概念分别是什么?
答:
常见的描述集中趋势的指标有算数均数、几何均数、中位数和众数。
概念见名解。
常见的描述离散趋势的指标有哪些,概念分别是什么?
答:
常见的描述离散趋势的指标有极差、四分位数间距、方差、标准差和变异系数。
概念见名解。
统计表和统计图
统计表:
将统计资料及其指标以表格形式列出,称为统计表(statisticaltable)。
狭义的统计表只表示统计指标。
统计图:
统计图(statisticalgraph)是将统计指标用几何图形表达,即以点的位置、线段的升降、直条的长短或面积的大小等形式直观的表示事物间的数量关系。
箱式图用于描述连续型变量的分布特征。
涉及到的各个取值:
由大到小的次序为:
极大值、P75、中位数、P25和极小值。
问答题
常用统计图的定义和制图要求。
名称
定义
制图要求
条图
用等宽直条的长短来表示相互独立的各统计指标的数值大小
起点为0的等宽直条,条间距相等,按高低顺序排列。
普通线图
适用于连续性资料。
用线段的升降来表示一事物随另一事物变化的趋势。
纵横两轴均为算术尺度,相邻两点应以折线相连。
图内线条不宜超过3条。
半对数线图
用线段的升降来表示一事物随另一事物变化的速度。
横轴为算术尺度,纵轴为对数尺度。
余同普通线图。
圆图
以圆面积表示事物的全部,用扇形面积表示各部分的比重
以圆面积为100%,将各构成比分别乘以3.6度得圆心角度数后再绘扇形面积。
通常以12点为始边依次绘图。
直方图
用矩形的面积来表示某个连续型变量的频数分布
常以横轴表示连续型变量的组段(要求等距),纵轴表示频数或频率,其尺度从“0”开始,各直条间不留空隙。
散点图
以点的密集程度和趋势表示两种事物间的相关关系
绘制方法同线图,只是点与点之间不连接。
☆第三章定性资料的统计描述
相对数:
是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、构成比、比等。
标准化法:
是常用于内部构成不同的两个或多个率比较的一种方法。
标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。
问答题
常用的相对数指标有哪些?
它们的意义和计算上有何不同?
答:
常用的相对数指标有:
率、构成比和相对比。
意义和计算公式如下:
①
率又称频率指标,说明某现象发生的频率或强度,常以100%、1000‰等表示。
②构成比又称构成指标,说明某一事物内部各组成部分所占的比重或分布。
常以百分数表示。
③比又称相对比,是A、B两个有关指标之比,说明两者的对比水平,常以倍数或百分数表示,其公式为:
相对比=甲指标/乙指标(或100%)
甲乙两个指标可以是绝对数、相对数或平均数等。
令:
频率型指标(proportion)
也称比率或构成比表示某事物内部各组成部分所占的比重或分布,或指某现象发生的频率。
频率型指标=
强度型指标(intensity)
表示单位时间内某现象发生的频率。
多用于随访资料。
强度型指标=
相对比型指标(ratio)
指两个有关联的指标A与B之比,简称比。
A和B可以性质相同,也可以性质不同。
如性别比,师生比,变异系数,OR值,RR值等。
比=
应用相对数时应注意哪些问题?
答:
应用相对数时应注意的问题有:
⑴计算相对数的分母一般不宜过小。
⑵分析时不能以构成比代替率。
⑶不能用构成比的动态分析代替率的动态分析。
⑷对观察单位数不等的几个率,不能直接相加求其总率。
⑸在比较相对数时应注意可比性。
⑹对样本率(或构成比)的比较应随机抽样,并做假设检验。
应用标准化法的注意事项有哪些?
答:
应用标准化法时应注意的问题有:
1)标准化法的应用范围很广,其主要目的就是消除混杂因素的影响。
2)标准化后的标准化率,已经不再反反映当时当地的实际水平,它只是表示相互比较的资料间的相对水平。
3)报告比较结果时必须说明所选用的“标准”和理由。
4)两样本标准化率是样本值,存在抽样误差。
当样本含量较小时,还应作假设检验。
什么时候用间接或直接标准化:
直接标准化法:
知道分组各组段的分布资料。
间接标准化:
缺少各组段的分布资料,只知道总体资料。
请比较发病率和患病率的不同。
答:
发病率表示一定时期内,在可能发生某病的一定人群活过的总人年数中,新发生的某病病历数,其分子是新病历数,分母是总人年数;患病率,又称现患率,指某时点上受检人数中先患某种病的人数,通常用于描述病程较长或发病时间不易明确的疾病的患病情况,其分子包括新旧病例数,分母是受检总人数。
在一定的人群和时间内,发病率和患病率有密切关系,两者与病程(D)的关系是:
PR=IR×D。
请比较死亡率与病死率的不同。
答:
死亡率与病死率的分子是一样的,均表示因某病死亡的人数,但死亡率的分母是总人年数,侧重反映发生的强度,或单位时间内死亡的概率;病死率的分母是患某病的人数,反映疾病死亡的概率。
☆第四章常用概率分布
正态分布:
若指标
的频率曲线对应于数学上的正态曲线,则称该指标服从正态分布(normaldistribution)。
通常用记号
表示均数为
,标准差为
的正态分布。
特点:
①集中性:
正态曲线的高峰位于正中央,即均数所在的位置。
②对称性:
正态曲线以均数为中心,左右对称;③正态分布有两个参数:
即均数μ和标准差σ。
μ决定了分布的左右位置;σ决定了曲线的高矮或胖瘦。
④正态曲线下面积:
有一定的分布规律。
标准正态分布:
均数为0、标准差为1的正态分布被称为标准正态分布(standardnormaldistribution),通常记为
。
正态分布:
一种很重要的连续型分布,以均数为中心,左右两侧对称,靠均数两侧的频数较多,离均数越远,频数越少,形成钟形分布。
Poisson分布:
是一种离散型分布,用以在单位时间、空间、面积等的罕见时间发生次数的概率分布。
实际工作中,判定一个变量是否服从Poisson分布仍然主要依靠经验以及以往累积的资料。
常见Poisson分布资料有:
产品抽样中极坏品出现的次数;枪打飞机击中的次数;患病率较低的非传染性疾病在人群中的分布;奶中或饮料中的病菌个数;自来水中的细菌个数;空气中的细菌个数及真菌饱子数;自然环境下放射的粒子个数;布朗颗粒数;三胞胎出生次数;正式印刷品中错误符号的个数;通讯中错误符号的个数;人的自然死亡数;环境污染中畸形生物的出现情况;连体婴儿的出现次数;野外单位面积某些昆虫的随机分布;单位容积内细胞的个数;单位空气中的灰尘个数;平皿中培养的细菌菌落数等。
Poisson分布有多种用途:
主要包括总体均数可信区间的估计,样本均数与总体均数的比较,两样本均数的比较等。
应用Poisson分布处理医学资料时,一定要注意所处理资料的特点和性质,资料是否服从Poisson分布。
应用Poisson分布的注意事项:
1.Poisson分布的观察单元具有可加性。
①当样本均数X或样本计数值X<20时,可通过增加或合并观察单元以增大样本均数或样本计数值。
②当X>20时,Poisson分布近似正态分布,可按正态分布进行Poisson分布均数比较的u检验。
2.Poisson分布的观察单元可以由大缩小,而不可以由小扩大。
3.判断一组数据或一个资料是否服从Poisson分布,主要是依靠以往积累的经验或专业知识。
必要时也可进行拟合优度检验以确定资料分布类型。
二项分布:
对只有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
二项分布在生物学及医学领域中,主要应用在下列几个方面:
①总体率的可信区间估计,②率的u检验:
单样本及两样本比较。
③样本率与总体率比较的直接计算概率法。
此法适用nP和n(1-P)均小于5的情形。
应注意:
①当样本率大于总体率时,应计算大于等于阳性人数的累积概率。
即上侧概率。
②当样本率小于总体率时,应计算小于等于阳性人数的累积概率。
即下侧概率。
问答题
正态概率密度曲线的位置与形状具有哪些特点?
答:
正态概率密度曲线的位置与形状具有以下特点:
1)关于x=μ对称。
2)在x=μ处取得该概率密度函数的最大值,在x=μ±σ处有拐点。
3)曲线下面积为1。
4)μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;反之,μ减小,曲线沿横轴向左移。
5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线越“矮胖”;σ越小,数据越集中,曲线越“瘦高”。
二项分布的特征
答:
二项分布图的高峰在μ=nπ处或附近;π为0.5时,图形是对称的;当π不等于0.5时,分布不对称,且对同一n,π离0.5愈远,对称性愈差。
对同一π,随着n的增大,分布趋于对称。
当n→∞时,只要π不太靠近0或1,二项分布趋于对称。
Poisson分布的特征答:
(1)Poisson分布的总体均数与总体方差相等,均为λ。
(2)当λ较小时,图形呈偏态分布;当λ较大时,图形呈正态分布。
(3)Poisson分布的观察结果具有可加性。
简述二项分布、Poisson分布、正态分布的区别与联系。
答:
区别:
二项分布、Poisson分布是离散型概率分布,用概率函数描述其分布状况,而正态分布是连续型概率分布,用密度函数和分布函数描述其分布状况。
联系:
Poisson分布可以视为n很大而π很小的二项分布。
当n很大而π和1—π都不是很小的时候二项分布渐近正态分布,当λ≥20的时候Poisson分布渐近正态分布。
☆第五章参数估计基础
抽样误差:
由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差。
标准误及
:
通常将样本统计量的标准差称为标准误。
许多样本均数的标准差
称为均数的标准误,它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
应用:
1.表示抽样误差的大小;2.进行总体均数的区间估计;3.进行均数的假设检验等。
点估计:
是直接利用样本统计量的一个数值来估计总体参数。
区间统计:
用统计量
和
确定一个有概率意义的区间,以该区间具有较大的可信度包含总体均数。
可信区间:
按预先给定的概率确定的包含未知总体参数的可能范围。
该范围称为总体参数的可信区间。
它的确切含义是:
可信区间包含总体参数的可能性是1-α,而不是总体参数落在该范围的可能性为1-α。
标准差和标准误都是变异指标,但它们之间有区别,也有联系。
区别:
①概念不同;标准差是描述观察值(个体值)之间的变异程度;标准误是描述样本均数的抽样误差;
②用途不同;标准差与均数结合估计参考值范围,计算变异系数,计算标准误等。
标准误用于估计参数的可信区间,进行假设检验;
③它们与样本含量的关系不同:
当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。
联系:
标准差,标准误均为变异指标,当样本含量不变时,标准误与标准差成正比。
标准误
标准差
意义
反映样本统计量的离散程度及抽样误差大小
反映观察值的变异程度
公式
与n的关系
用途
估计置信区间
估计参考值范围
用同一个样本统计量分别估计总体参数的95%置信区间和99%置信区间,哪一个估计的精度更好?
为什么?
答:
95%置信区间的精度要好于99%置信区间。
因为置信度或置信水平有95%提高到99%时,置信区间由窄变宽,估计的精度下降。
满足什么条件时可以采取正态近似法估计总体概率的置信区间?
答:
当n足够大,且样本频率p和1—p均不太小时,如np与n(1—p)均大于5时,可用正态近似法求总体概率的置信区间。
参考值范围与置信区间有何区别?
答:
区别:
(1)意义不同:
参考值范围是指通知总体中包括一定数量(如95%或99%)个体值的估计范围。
可信区间是指按一定的可信度来估计总体参数所在范围。
(2)计算方法不同。
参考值范围
总体均数置信区间
意义
绝大多数人某项指标的数值范围
按一定的概率估计总体参数所在的可能范围
计算
正态分布:
Z/2S(双侧)
-ZS或
+ZS(单侧)
偏峰分布:
Px~P100x(双侧)
Px(单侧)
正态分布:
未知:
t/2,
(双侧)
-t,
或
+t,
(单侧)
已知:
Z/2
(双侧)
-Z
或
+Z
(单侧)
正态分布或偏峰分布:
未知但n足够大:
Z/2
(双侧)
-Z
或
+Z
(单侧)
应用
供判断观察对象某项指标正常与否时参考(辅助诊断)
估计未知的总体均数所在范围
☆第六章假设检验基础
I型和II型错误:
I型错误(typeIerror),指拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用α表示;II型错误(typeIIerror),指接受了实际上不成立的H0,这类“存伪”的误称为II型错误,其概率大小用β表示。
检验效能:
1-β称为检验效能(poweroftest),它是指当两总体确有差别,按规定的检验水准α所能发现该差异的能力。
问答题
假设检验的基本步骤是什么?
答:
①建立假设、选用单侧或双侧检验、确定检验水准;
②选用适当检验方法,计算统计量;
③确定P值并作出推断结论。
假设检验与区间估计的关系式什么?
答:
①置信区间具有假设检验的主要功能
②置信区间课提供假设检验没有提供的信息。
置信区间在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义。
③假设检验比置信区间多提供的信息:
假设检验可以报告确切的P值。
应用假设检验需要注意的问题有哪些?
答①应用检验方法必须符合其适用条件。
②权衡两类错误的危害以确定α的大小。
③正确理解P值的意义,如果P<α,宜说差异“有统计学意义”。
课件:
①资料要来自严密的抽样研究设计;
②选用假设检验的方法应符合其应用条件;
③正确理解差别有无显著性的统计涵义,正确理解差别有统计学意义及临床上的差别的统计学意义;
④假设检验的推断结论不能绝对化;
⑤要根据资料的性质事先确定采用双侧检验或单侧检验。
样本均数与总体均数比较的u检验适用于:
①数据为正态分布,方差齐性;②总体标准差σ已知的情况;
③样本含量较大时,比如n>100时。
对于后者,是因为n较大,υ也较大,则t分布很接近u分布的缘故。
t检验的适用条件:
①样本来自正态总体或近似正态总体;②两样本总体方差相等。
③小样本:
n<100
医学科研中配对资料主要有四种类型:
1、同一批受试对象治疗前后某些生理、生化指标的比较;
2、同一种样品,采用两种不同的方法进行测定,来比较两种方法有无不同;
3、配对动物试验,各对动物试验结果的比较等。
配对实验设计得到的资料称为配对资料。
4、同一只动物对称部位:
测量2个数据形成配对数据。
检验水准α、Ⅰ型错误α和p值的关系
1.检验水准α和Ⅰ型错误α一样吗?
研究生教学用书《医学统计学》(第二版)P54:
“拒绝了实际上成立的H0,这类弃真的错误称为Ⅰ型错误。
前面所讲的检验水准,就是预先规定的允许犯Ⅰ型错误概率的最大值,Ⅰ型错误的大小也用α表示……”
《医学统计学》(第二版)(协和出版社)P59:
“若要同时减小Ⅰ型错误α与Ⅱ型错误β,唯一的办法就是增加样本量n。
”
《卫生统计教程》(北医出版社)P70:
“如果检验水准α定为0.05,则犯Ⅰ型错误的概率<=0.05。
”
从以上教材中的表述看出,虽然都用同一个希腊字母α表示检验水准和Ⅰ型错误,但二者的实质是有差别的;如果检验水准α和Ⅰ型错误α一样的话上面的表述是解释不通的。
个人认为检验水准α和Ⅰ型错误α的区别如下:
检验水准α,记为α-level,是在假设检验开始时人为规定的一个区分是否判定为小概率事件的水准(界限)。
无论一个研究的样本n多大,α-level常取0.05或0.01,此值与n无关(人为规定)。
Ⅰ型错误α,记为α-error,即犯Ⅰ型错误(拒绝了实际上成立的无效假设H0)的概率大小,显然α-error的大小并非人为规定的,个人觉得α-error大小与检验的方法、样本n的大小等有关,其大小通常也是未知的(和β类似)。
α-level与α-error的关系:
α-error<=α-level,即若α-level=0.05,那么犯Ⅰ型错误的最大允许概率为α-error=α-level=0.05
那么教材上虽然都用同一个希腊字母α表示检验水准和Ⅰ型错误,但一般是指α-level,比如Ⅰ型错误与Ⅱ型错误关系的那个表格中的α;再如计算累计错误公式中的α。
由于α-error未知,并且当n不一样时α-error大小亦不同。
但为了方便分析讨论,我们一般就用α-error的最大值(即α-level)来表示犯Ⅰ型错误的概率大小。
2.p值与检验水准α的关系?
P值系指从H0所规定的总体中随机抽样,所观察到现有情况以及比现有情况更极端(越背离H0)情况出现的概率,也可以理解为,在假设H0成立的条件下,样本均数与总体均数以及样本均数与样本均数之间的差异用抽样误差解释的可能性有多大。
假设检验得出的P值要与检验水准α比较来判断,在假设H0成立的条件下,差异用抽样误差解释的可能性大小是否为小概率事件。
当P<0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于通常确定的小概率事件标准0.05。
因为小概率事件在一次事件中几乎不可能发生,现在确实发生了,说明现有的样本信息不支持H0,所以怀疑原假设H0不成立,故拒绝H0。
在下“有差别”结论时,能够知道可能犯Ⅰ型错误的概率不会大于0.05,这在概率上有了保证。
3.p值与Ⅰ型错误α值的大小一样吗?
北医的《卫生统计教程》p61,p70有这样一句话“p越小越有理由拒绝H0,犯Ⅰ型错误的可能性越小。
”
此句容易让人产生误解:
p值的大小就是犯Ⅰ型错误概率的大小;或p值的大小与犯Ⅰ型错误概率的大小α成正比。
其实不是这样的。
把“p越小越有理由拒绝H0,犯Ⅰ型错误的可能性越小。
”这句话反过来说“p越大越有理由不拒绝H0,犯Ⅱ型错误的可能性越大。
”
显然,p值并不是犯Ⅰ型错误概率的大小,1-p不=1-α。
α是犯Ⅰ类错误的最大(允许)概率;P是犯Ⅰ类错误的实际概率。
比如,60分是及格线,58分是实际成绩。
☆第七章方差分析
总变异:
样本中全部实验单