健康管理师考试辅导资料医学统计学基础知识.docx
《健康管理师考试辅导资料医学统计学基础知识.docx》由会员分享,可在线阅读,更多相关《健康管理师考试辅导资料医学统计学基础知识.docx(15页珍藏版)》请在冰豆网上搜索。
![健康管理师考试辅导资料医学统计学基础知识.docx](https://file1.bdocx.com/fileroot1/2022-12/6/714418dd-915a-4488-aa15-141a4442307f/714418dd-915a-4488-aa15-141a4442307f1.gif)
健康管理师考试辅导资料医学统计学基础知识
医学统计学基础知识
基本概念
统计描述
统计图表
统计推断
基本概念
医学统计学的定义和研究对象
1.定义统计学通常被定义为“关于数据收集、表达和分析的普遍原理和方法”。
医学统计学则可定义为“根据统计学的原理和方法,研究医学数据收集、表达和分析的一门应用学科”。
2.研究对象医学统计学的研究对象是具有不确定性的医学数据,其基本研究方法是通过收集大量资料,通常是人、动物或生物材料的测量值,发现蕴含其中的统计学规律。
医学统计学的主要内容
1.统计设计
包括调查设计和实验设计。
调查设计主要有抽样方法、调查技术、质量控制技术等;实验设计主要有各种实验设计模型、分组方法、样本量估计等。
由于统计设计关系到资源分配的可行性、数据收集的正确性和结论的科学性,一旦出现设计上的失误或缺陷,有可能导致在整个研究的失败。
因此,统计设计是保证统计描述和推断正确的基础。
2.统计描述对原始数据归纳整理,用相应的统计指标,如率、均数等,表示出研究对象最鲜明的数量特征,必要时选择统计表或统计图。
3.统计推断在统计描述的基础上,对统计指标的差别和关联性进行分析和推断。
医学统计资料的类型
在医学研究中,试验或观察结果常按分组因素和反应变量分别记录。
分组因素为研究者根据试验目的施加的干预,如不同治疗药物、不同治疗期限等。
在某些不能施加干预的观察性研究中,研究者感兴趣的因素,如年龄、性别等,也可看作分组因素。
在流行病学研究中,这些因素又称为危险因素。
反应变量是指施加干预后的研究对象的生物反应,如是否治愈、是否死亡、红细胞计数、血细胞计数、血压值等。
统计资料类型通常针对反应变量而言,如收缩压、舒张压、药物不良反应等。
1.计量资料亦称数值变量,为定量测量的结果,通常用专用仪器测量,并有计量单位,如身高(cm)、体重(kg)等。
计量资料有连续性的特点,如身高可以是175cm、175.1cm、175.11cm等。
2.计数资料计数资料是定性观察的结果。
有二分类和多分类两种情况。
二分类观察结果只有两种相互对立的属性,如“阳性”或“阴性”、“死亡”或“存活”、“正常”或“异常”;多分类的定性观察结果有两种以上互不包含的属性,如新生儿出生缺陷、某病患者的死亡原因等。
这类资料之所以称为计数资料,因为在统计时通常将各种观察结果按属性分类计数,如阳性人数、阴性人数、死于某病人数等。
3.等级资料介于定量测量和定性观察之间的半定性观察结果,通常有两个以上等级,如阴性、阳性、强阳性,治愈、好转、有效、无效等。
等级资料与计数资料又可统称为分类变量。
它们的区别在于,等级资料虽然也是多分类资料,但各个类别间还是存在大小或程度上的差别。
表5-3 108例高血压患者随访记录汇总表
编号
随访方式
收缩压
舒张压
服药依从性
药物不良反应
11-00325
11-00326
11-00328
……
11-00457
门诊
门诊
家庭
……
电话
146mmHg
130mmHg
128mmHg
……
142mmHg
95mmHg
84mmHg
90mmHg
……
90mmHg
规律
规律
间断
……
不服药
无
无
有
……
有
医学统计工作的基本步骤
研究设计、收集资料、整理资料和分析资料是统计工作的4个基本步骤。
这4个步骤是紧密联系不可分割的,某一环节发生问题,都将影响最终的统计分析结果。
1.研究设计
按研究者是否对观察对象施加干预(即处理因素),可以分为调查设计和实验设计两大类。
调查设计(不加干预)主要是了解客观实际情况的现场工作。
实验设计(加干预)根据研究对象不同分为动物实验和临床试验(或现场试验)。
无论是调查设计,还是实验设计均包括专业设计和统计学设计两个方面。
专业设计是运用专业理论技术知识进行设计,统计学设计是运用统计学知识和方法进行设计。
两者应相互结合,缺一不可。
2.收集资料的任务是取得准确可靠的原始数据。
(1)统计资料的来源:
①经常性资料。
一般指医疗卫生工作中的原始记录。
如医疗卫生工作记录和报告单(卡)、医院各科门诊病历、住院病例、健康检查记录等;②一时性资料。
根据专题调查或实验研究的需要而临时设计的调查表或调查问卷,如临床试验的病例报告单、动物实验的数据记录等。
(2)统计资料的要求:
原始资料是统计工作的基本依据,把好收集资料这一关,要求做到:
①资料必须完整、正确和及时;②要有足够的数量;③注意资料的代表性和可比性。
3.整理资料的任务是整理原始数据,使其系统化、条理化,以便进一步计算指标和分析。
(1)原始数据的检查与核对:
检查核对原始数据有无错漏,以及数据间的相互关系是否合乎逻辑,并予以必要的补充、修正与合理的剔除。
对原始记录的检查核对,应在调查现场完成,而整理资料过程则是从不同角度、用不同方法进一步浄化数据。
它包括:
①统计数据的常规捡查。
如检查原始记录的数据有无错误和遗漏;调查项目是否按要求或填表说明填写;统计表格的行栏合计应与总计相符。
②数据的取值范围检错。
可利用频数分布表检查是否有异常值的出现。
③数据间的逻辑关系检错。
逻辑检查是为了查明资料项目之间是否有矛盾,例如,乙型肝炎病史与乙型肝炎血清标志物检查结果是否矛盾。
(2)数据的分组设计和归纳汇总:
按资料的性质和数量特征分组,以反映事物的特点。
例如,整理某药物治疗消化性溃疡后的疗效资料,除了得到总的治愈人数外,还可以按年龄、性别、病情轻重等多种特征进行分组,得出各组的治愈人数和治愈率,才能对药物疗效与疾病有关因素进行分析。
常用的分组方法有以下两类:
①质量分组:
按事物的性质或类型分组,这种方法多适用于分类变量资料或等级资料。
如患者按性别、病情轻重等分组作为分组变量;疗效按治愈、好转和无效等分组作为结局变量。
根据研究需要,有时也可将计量资料转换成计数资料或等级资料,进行质量分组。
例如,舒张压<90mmHg为正常血压,舒张压>90mmHg为高血压。
②数量分组。
按观察值的大小进行分组,这种方法多适用于数值变量的资料。
分几组合适要根据研究内容的特点和分析目的来定。
例如冠心病多发于中、老年人。
年龄分组时,应把中、老年组分得细些,如5岁—组;青、少年组分得粗些,如10岁一组。
4.分析资料任务是按研究设计的要求,结合资料的类型计算有关指标,阐明事物的内在联系和规律。
主要包括:
(1)用一些统计指标、统计图表等方式表达和描述资料的数量特征和分布规律,不涉及由样本推论总体的问题。
(2)对样本统计指标作参数估计和假设检验,并结合专业知识解释分析结果,目的是用样本信息推断总体特征。
统计学的几个重要概念
1.同质与变异
研究对象具有相同的背景、条件、属性称为同质(homogeneity);同一性质的事物,其个体观察值(变量值)之间的差异,在统计学上称为变异(variation)。
统计学所研究的对象是以同质为基础,并具有变异的事物或现象。
例如,调查1998年所有20岁健康男大学生的身高。
它的同质基础是同一地区、同一年份、同为20岁健康男大学生;这些20岁健康男大学生的身高值有的相同,有的不尽相同,存在差异,这种身高值之间的差异就是变异。
2.总体与样本
总体(population)是根据研究目的确定的同质观察单位的全体,更确切地说,是同质的所有观察单位某种变量值的集合。
这里的观察单位亦称个体,是统计研究中最基本的单位。
有的总体是在确定的同质基础上明确了一定时间、一定空间的有限个观察单位,称为有限总体。
有时总体是抽象的,观察单位数是无限的,该总体称无限总体。
医学研究中的很多情况是无限总体,而即使是有限总体,由于总体较大,要收集所有观察单位的数据既费时、费力还容易产生差错,很多时候是不必要和不必须的,所以医学研究的资料多数是通过抽样研究去获得。
即从总体中随机抽取有代表性的一部分观察单位,其测量值(或观察值)的集合称为样本(sample)。
抽样研究的目的是用样本信息推论总体特征。
3.参数与统计量
参数(parameter)指总体指标,如总体均数、总体率、总体标准差等。
统计量(statistic)指样本指标,如样本均数、样本率、样本标准差等。
一般情况下,参数是未知的,需要用统计量去估计。
用统计量推论参数的方法,统计学上称为参数估计和参数检验。
4.误差 任何周密设计的科学研究,都不可能没有误差(error)。
医学科学研究中的误差通常指测量值与真实值之差,其中包括系统误差和随机测量误差;以及样本指标与总体指标之差,即抽样误差。
系统误差应该通过周密的研究设计和调查(或测量)过程中的严格质量控制措施予以解决;随机测量误差及抽样误差都属于随机误差,随机测量误差是不可避免的,但应尽量的小;抽样误差是抽样机遇所致,是客观存在,不可避免的。
这种误差可以通过统计方法估计,也可通过增大样本含量使其减小。
5.概率与频率 概率(probability)是对总体而言,频率(frequency)是对样本而言。
概率指某随机事件发生的可能性大小的数值,常用符号P来表示。
随机事件的概率在0与1之间,即0≤P≤1,常用小数或百分数表示。
P越接近1,表明某事件发生的可能性越大,P越接近0,表明某事件发生的可能性越小。
频率指一次实验结果计算得到的样本率。
统计中的许多结论都是带有概率性的。
一般常将P≤0.05或P≤0.01称为小概率事件,表示某事件发生的可能性很小。
【例题】下列资料属等级资料的是
A.白细胞计数(个/L)
B.血型(A、B、O、AB)
C.体重(kg)
D.患者的病情分级(轻、中、重)
E.坐高指数(%,坐高/身高)
『正确答案』D
『答案解析』等级资料:
介于定量测量和定性观察之间的半定性观察结果,通常有两个以上等级,如阴性、阳性、强阳性,治愈、好转、有效、无效等。
【例题】医学科学研究中的随机样本是指
A.总体中的一部分
B.研究对象的全体
C.总体中特殊的一部分
D.总体中有代表性的一部分
E.研究对象中一部分有特殊代表性的样本
『正确答案』D
『答案解析』从总体中随机抽取有代表性的一部分观察单位,其测量值(或观察值)的集合称为样本。
统计描述
数值变量资料的统计描述
1.频数表 相同观察结果出现的次数称为频数。
将所有观察结果的频数按一定顺利排列在一起便是频数表(frequencytable)。
编制频数表的主要目的,一是简化数据,二是便于考察观察结果的分布特征。
定量测量结果通常不一一列出各测量值的频数。
此时,应将所有测量值中最小值与最大值之间的范围划分成若干等长度的组段,以各个组段内的变量个数作为频数。
由于样本量有限,组段的数量不宜过多或过少,通常取10个左右,组段长度(组距)的选取以方便阅读为原则。
各组段首尾相接,每个组段都有下限L和上限U(在频数表中,上限通常省略),测量值X的归组统一规定为L≤X
起始组段的下限和最后一组的上限应分别包含最小值和最大值。
2.频数分布图 为了更直观地反映计量览料的分布特点,可进一步绘制频数分布图,以评分组段(每段2分)为底,相应频数为高作一系列密闭的矩形。
频数分布图又称直方图,它能直观地反映连续变量各种取值出现的机会。
3.描述集中趋势的指标
(1)算术均数:
当资料服从对称分布时,统计中常采用算术均数描述其平均水平(或集中趋势)。
算术均数简称均数(mean),习惯上用μ表示总体均数,用
表示样本均数。
在实际工作中,总体均数μ经常是未知的,多数情况下需要计算的是样本均数。
(2)中位数(median):
指一组由小到大顺序排列的观测值中位次居中的那个观测值。
全部观测值中大于和小于中位数的观测值的个数相等,各占总例数的50%。
对于对称分布的资料,理论上说中位数和均数的计算结果是一致的。
对于不对称资料(或称偏态资料),采用均数来描述资料的平均水平是不合适的,此时可考虑用中位数代替。
中位数具有不受两端特大或特小值影响的特点,当资料的一端或两端无确定数值时,算数均数不能计算,而中位数却可以。
百分位数 以Px表示,一个百分位数Px将总体或样本的全部观察值分成两部分,理论上有的观察值比它小,有(100-x)%的观察值比它大,故百分位数是一个界值,也是分布数列的百等份分割值,P50百分位数也就是中位数。
(3)几何均数(geometrymean):
是描述偏态分布资料集中趋势的另一种重要指标。
它尤其适用于描述以下两类资料的集中趋势:
①等比资料,如医学上血清抗体滴度、人口几何增长资料等;②对数正态分布资料(有些正偏态分布的资料,原始数据经过对数转换后服从正态分布),如正常成人血铅值或某些疾病的潜伏期等。
4.描述离散趋势的指标
(1)极差:
亦称全距(range),用符号表R表示。
极差是一组观察值中最大值与最小值之差,用于反映观察值变异的范围大小。
极差大,说明变异度大。
用极差描述变异度大小,简单明了。
但缺点是:
①除最大值和最小值外,不能反映组内其他数据的变异度,因此用它来描述资料的离散趋势是粗略的;②易受个别特大值、特小值的影响,即不够稳定。
(2)四分位数间距 四分位数间距是上四分位数QU(P75)与下四分位数QL(P25)之差,记作Q。
该指标的适用条件同中位数,而且通常与中位数(亦称第50百分位数)结合,全面描述偏态分布或总体分布不明资料的特征。
(3)方差与标准差:
是描述对称分布资料离散趋势的重要指标。
方差与标淮差的数值越大,说明观测值的变异度越大,即离散程度越大,此时的数据就会越分散,均数的代表性越差。
(4)变异系数(coefficientofvariation):
用符号CV表亦,即称准差s与均数之比用百分数表示,公式为
分类资料的统计描述
1.频数表 分类资料的变量值是定性的,表现为互不相容的属性或类别。
在一个样本中,相同情形出现的次数称为频数,将互不相容的各情形的频数用统计表的形式列出就是频数表。
表5-4 108例患者随访方式频数表
2.相对数 包括比例(proportion)和率(rate)。
见本章第一节。
【例题】某病患者5人的潜伏期(天)分别为6、8、5、11、>15,则平均潜伏期为
A.5天
B.8天
C.9天
D.10天
E.11天
『正确答案』B
『答案解析』该题资料末端有不确定值,应选择中位数来描述集中趋势,从小到大排列后为:
5、6、8、11、>15,中位数为8,答案为B。
【例题】某地调查了新生儿身长均数为58.1cm,标准差为2.2cm;6岁儿童的身高均数为119.5cm,标准差为3.4cm。
若对比新生儿与6岁儿童身高的变异程度,宜采用
A.变异系数
B.极差
C.标准差
D.方差
E.四分位数间距
『正确答案』A
『答案解析』变异系数可用于比较计量单位不同的资料的变异程度。
统计图与统计表
统计表
统计表是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。
1.统计表的结构
备注
2.制表原则和基本要求
(1)制表的原则 重点突出,简单明了;主谓分明,层次清楚。
(2)制表的基本要求
1)标题:
应能概括地说明表的内容,在必要时注明时间和地点。
通常写在表的上方。
2)标目:
文字简明,有单位的应注明单位。
3)线条:
3~4条基本线,不应出现纵线和斜线。
4)数字:
一般使用阿拉伯数字,同一指标的小数位数要一致并且位次对齐。
表内不应有空格,暂缺或未记录用“…”表示;无数字的用“-”表示;数字为0的,要填明0。
5)备注:
用标记标出,并将注释写在表的下方。
某社区某年不同年龄居民脑血管病患病情况
统计图
统计图是通过点的位置、线段的升降、直条的长短和面积的大小来表现事物的数量关系。
其特点是直观、形象、利于对比等。
1.制图的基本要求
(1)按资料的性质和分析目的选用适合的图形。
(2)标题通常放在图的下方。
(3)纵轴与横轴 多数图均有纵横轴,均由原点起从小到大,等距标明。
同时要写明轴标目,有单位的要注明单位。
纵横坐标的长度比例一般为5:
7或7:
5。
(4)比较不同事物时,应有图例说明。
2.常用统计图的类型 医学研究和卫生统计中常见的统计图有很多种,根据适用的资料类型可分为:
常用于描述计量资料的直方图、折线图、误差条图、箱式图和散点图,常用于描述计数资料的直条图、圆图和百分条图等。
实际应用中要结合数据类型和分析目的选用合适的统计图,也可在图中添加辅助线或将多个图形组合成一个图,以便更直观、形象地展示研究结果。
(1)直方图:
直方图主要用于表示连续变量的频数分布情况,图中直条连续排布,各直条宽度代表各组段组距,直条高度代表相应组段频数或频率。
(2)折线图:
折线图用于描述一个变量随另一个变量的变化而变化的趋势和幅度,通常是变量随时间的变化情况。
(3)误差条图:
常用于比较多组连续变量的均值和标准差(或可信区间),直条的高度表示均值,直条顶端用“T”型图标或“工”型图标表示标准差(或可信区间)。
(4)箱式图:
当连续变量为偏态分布时,用误差条图展示多组间比较不够恰当,可使用箱式图比较多组间的平均水平和变异程度。
(5)直条图 直条图是用等宽直条的长短表示相互独立的各指标值的大小。
(6)圆图:
圆图用于表示构成比,圆的总面积为100%,圆内各扇形区域表示各部分所占比例。
(7)百分条图:
当要同时比较多组构成比时,采用百分条图比圆图更为直观便捷。
【例题】下列描述不正确的是
A.一张统计表围绕研究的目的一般只表达一个中心内容
B.标题应简单、明确地概括表的内容,置于表的上方
C.简单的统计表只有三条横线
D.横标目置于表的左侧,纵标目置于表内右上方
E.有单位的标目可在表中的数值后注明单位
『正确答案』E
『答案解析』单位应放在标目上,所以E项错误,符合题意。
【B1例题】
A.普通线图 B.半对数线图 C.直方图 D.单式条图 E.圆图或百分条图
1.描述某地某年流行性乙脑患者的年龄分布,宜绘制
2.欲比较某地区2010年以来心脏病、脑血管病、恶性肿瘤死亡率的变化速度,宜绘制
3.描述某市2000~2014年间乙肝发病率随时间的变化趋势,宜绘制
4.比较某年甲、乙、丙三地肺结核的发病率,宜绘制
5.描述某地2014年5种主要死因(心脏病、脑血管病、恶性肿瘤、呼吸系病、消化系病)E的构成,宜绘制
『正确答案』CBADE
『答案解析』直方图主要用于表示连续变量的频数分布情况。
半对数线图描述的是相对变化趋势,特别适宜于不同指标或相同指标不同组别的变化速度的比较。
普通线图描述的是绝对变化趋势。
直条图是用等宽直条的长短表示相互独立的各指标值的大小。
圆图用于表示构成比,圆的总面积为100%,圆内各扇形区域表示各部分所占比例。
百分条图:
当要同时比较多组构成比时,采用百分条图比圆图更为直观便捷。
统计推断
统计推断是用样本信息推断总体特征,包括总体参数的估计和假设检验,它是统计学的核心内容。
数值变量资料的统计推断主要包括总体均数估计、t检验、方差分析以及数值变量资料的秩和检验;分类变量资料的统计推断包括总体率的估计以及分类变量的z检验、X2检验和秩和检验。
假设检验的基本原理
假设检验(hypothesistest),亦称为显著性检验,是统计推断的核心,也是实际应用最广的内容。
通常把需要判断的总体特征叫做“统计假说”,简称假设,利用样本信息判断假设是否成立的统计方法称为假设检验。
假定总体分布类型已知,对其参数进行假设检验称为参数检验,如假定总体服从正态分布,对总体均数进行z检验、t检验、方差分析等;若总体分布类型未知,或偏态分布资料,此时对总体分布类型不做任何假设,其假设检验不是对总体参数进行检验,称为非参数假设检验,如秩和检验等。
基本原理:
反证法思想和小概率事件
假设检验的基本步骤
1.建立假设,确定检验水准
(1)根据统计推断目的提出对总体特征的假投
1)无效假设,又称零假设,用H0表示。
一般将欲否定的假设设为H0。
它是计算检验统计量的基础。
2)备择假设,用H1表示。
H1是与H0相互对立的假设。
(2)确定检验水准:
检验水准,也称为显著性水准,符号为α,是事先确定的允许犯Ⅰ类错误的概率,也是是否拒绝H0的界值。
通常把α取为小概率事件界值,如α=0.05或α=0.01。
当然研究者可以根据研究目的规定α的大小。
2.选定检验方法,计算检验统计量
要根据统计推断的目的、研究设计的类型和样本量的大小等条件,选用不同的检验方法和计算相应的统计量。
实际应用时,应注意各种检验方法的适用条件。
3.确定P值,做出推断结论
P值的含义是指从H0所规定的总体中做随机抽样,获得等于及大于(或等于及小于)现有样本的检验统计量值的概率。
然后将概率P与检验水准α比较,从而得出结论。
当P≤α时,按所取检验水淮α,拒绝H0,接受H1,可以认为差别有统计学意义,两总体均数不相等;当时P>α时,按所取的检验水准α,不拒绝H0,差别无统计学意义,即不能认为两总体均数不相等。
然后结合实际资料作出专业结论。
例:
为研究山区成年男子的脉搏数是否高于一般成年男子的脉搏数,某医生在某山区随机调查了25名健康成年男子,求得其脉搏均数为74.2次/分,标准差为6.0次/分。
根据大量调查,已知健康成年男子脉搏的均数为72次/分,能否根据此调查认为山区成年男子的脉搏均数高于一般成年男子的脉搏均数?
两个均数的不等有两种可能:
①样本所代表的未知总体(山区成年男性)与已知总体(一般成年男性)为同一总体,两均数的差别是由抽样误差所致;②两均数来自不同总体,二者的差别是由于研究因素(如环境条件的影响)所致。
1.建立假设,确定检验水准
检验假设亦称虚拟假设或无效假设,用H0表示,另一与H0相联系、相对立的假设,称备择假设,记作H1和HA。
这里还有单侧检验与双侧检验之分,若研究者仅仅关心对比组间是否有差别,应用双侧检验;若研究者根据专业知识及文献信息确定推断的目的为是否高于或低于某一数值,用单侧检验。
假设:
α=0.05
检验水准也称显著性水准,是假设检验作推断结论时的判定标准,记作α。
确定小概率事件标准。
α的值可由研究者依研究内容和设计要求确定,通常取α=0.05。
2.选择检验方法,计算检验统计量 情况不同,所选用的检验方法就不同,而不同的检验方法有着不同的统计推断目的和检验统计量计算公式。
本例中,观察指标属正态分布的数值变量,设计上属于样本与已知总体的比较,且为小样本,故而应选择样本均数与总体均数比较的t检验。