医学统计知识点整理.docx
《医学统计知识点整理.docx》由会员分享,可在线阅读,更多相关《医学统计知识点整理.docx(20页珍藏版)》请在冰豆网上搜索。
医学统计知识点整理
医学统计学知识点整理
第一节统计学中根本概念
一、同质与变异
同质:
统计研究中,给观察单位规定一些一样的因素情况。
如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。
变异:
同质的根底上个体间的差异。
“同质〞是相对的,是客观事物在特定条件下的相对一致性,而“变异〞如此是绝对的
二、总体与样本
1、总体:
是根据研究目的所确定的,同质观察对象〔个体〕所构成的全体。
2、样本:
是从总体中随机抽取的局部观察单位变量值的集合。
三、参数与统计量
总体参数:
根据总体个体值统计计算出来的描述总体的特征量。
用希腊字母表示。
μ.δ.π
样本统计量:
根据样本个体值统计计算出来的描述样本的特征量。
用拉丁字母表示。
X.S.p
总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验
四、误差:
实测值与真值之差★
1.随机误差:
是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。
随机测量误差、抽样误差。
2.系统误差:
是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。
3.非系统误差:
过失误差,可以防止或去除。
五、概率
是用来描述事件发生可能性大小的一个量值,常用P表示。
概率取值0~1。
统计上一般将PP≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。
第二节统计资料的类型★
变量:
确定总体之后,研究者应对每个观察单位的某项特征进展观察或测量,这种特征能表现观察单位的变异性,称为变量。
一、数值变量资料
又称为计量资料、定量资料:
观测每个观察单位某项指标的大小而获得的资料。
表现为数值大小,带有度、量、衡单位。
如身高〔cm〕、体重(kg)、血红蛋白〔g〕等。
二、无序分类变量资料
又称为定性资料或计数资料:
将观察对象按观察对象的某种类别或属性进展分组计数,分组汇总各组观察单位后得到的资料。
分类:
二分类:
+-;有效,无效;多分类:
ABO血型系统
特点:
没有度量衡单位,多为连续性资料
【例题单项选择】某地A、B、O、AB血型人数分布的数据资料是()
【答案】C
【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。
因为是按照变量的血型分类,血型表现为互不相容的属性。
所以此题选C。
【例题单项选择】测量正常人的脉搏数所得的变量是〔〕
A.二分类变量B.多分类变量C.定量变量D.定性变量
【答案】C
【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。
此题选C。
三、有序分类变量资料
半定量资料或等级资料:
将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。
特点:
每一个观察单位没有确切值,各组之间有性质上的差异或程度上的不同
举例:
-++++++
第三节统计工作的根本步骤★
1.统计设计
2.收集资料
3.整理资料
4.分析资料:
统计描述:
是利用统计指标、统计表和统计图相结合来描述样本资料的数量特征与分布规律。
统计推断:
是使用样本信息来推断总体特征。
统计推断包括区间估计和假设检验。
第四节统计表与统计图★
一、统计表
统计表的根本结构与要求
标题:
高度概括表的主要内容,时间、地点、研究内容,位于表的上方,居中摆放,左侧加表的序号。
标目:
横标目和纵标目。
线条:
通常采用三线表和四线表的形式。
没有竖线或斜线。
数字:
表内数字一律用阿拉伯数字。
同一指标,小数位数应一致,位次对齐。
无数字用“—〞表示。
暂缺用“…〞表示。
“0〞为确切值。
备注:
位于表的下面,通常是对表内数字的注解和说明,必要时可以用“*〞等标出。
一X统计表的备注不宜太多。
二、制表原如此
重点突出,一个表一个中心内容
主谓清楚,层次清楚
简单明了,一切文字数字线条尽量从简
【例题单项选择】统计表内不列的项是()〔2010.7〕
A.标目B.线条C.数字
【答案】D
【解析】统计表内备注位于表的下面,不列在统计表内,所以此题选择D。
三、统计图
1.〔1〕标题〔2〕标目〔3〕刻度〔4〕图例:
不同颜色或者不同线条表示,需要说明。
2.常用统计图的适用条件与要求
〔1〕条图:
适用于比拟、分析独立的或离散变量的多个组或多个类别的统计指标。
〔2〕圆图和百分比条图:
构成比的比拟
〔3〕线图:
描述某统计量随另一连续性数值变量变化而变化的趋势。
〔4〕直方图:
数值变量的频数分布。
〔5〕散点图:
用点的密集程度和趋势描述2个变量间的数量关系
〔6〕箱式图:
多组数据分布的比拟
〔7〕统计地图:
用不同的颜色和花纹表示统计量的在地理分布上的变化,适宜描述研究指标的地理分布。
【例题填空】描述某地十年间结核病死亡率的变化趋势宜绘制_________图。
【答案】线图
数值变量资料的统计分析
第一节数值变量资料的统计描述
一、频数分布表★
1.编制步骤
(1)计算全距〔2〕确定组距〔3〕划分组段〔3〕统计频数〔4〕确定频率与累计频率
2.频数分布表的主要用途:
〔1〕揭示资料的分布类型〔2〕观察资料的集中趋势和离散趋势〔3〕便于发现某些特大或特小离群值〔4〕便于进一步计算统计指标和作统计处理
二、集中趋势指标★
数值变量资料的集中趋势指标是用平均数来描述的,代表一组同质变量值的平均水平。
常用的有算术均数、几何均数和中位数。
1.算数均数适用于对称分布〔正态分布〕或者近似对称分布的资料。
习惯上以μ表示总体均数,以
表示样本均数。
2.几何均数数值变量呈倍数关系或者呈对数正态分布,如抗体效价与抗体滴度,某些传染病的潜伏期、细菌计数等,宜用几何均数〔G〕。
几何均数常用于等比资料或对数正态分布资料。
3.中位数是指将一组变量值从小到大排列,位次居中的观察值就是中位数。
适用条件:
变量值中出现个别特别大或特别小的数值;偏态分布资料;数值一端或两端无确定数值;资料类型不明。
4.百分位数是一种位置指标,以Px表示,把一组数据从小到大排列后,理论上有x%的变量比Px小,有〔100-x〕%的变量值比Px大。
【例题单项选择】描述正态分布资料集中趋势的指标是〔〕
A.中位数B.几何均数
C.算术平均数D.标准差
【答案】C
【解析】算数均数适用于对称分布或者近似对称分布的资料。
几何均数常用于等比资料或对数正态分布资料。
中位数适用条件:
变量值中出现个别特别大或特别小的数值;偏态分布资料;数值一端或两端无确定数值;资料类型不明。
标准差描述数据的离散趋势指标。
所以此题选择C。
三、离散趋势指标★
1.极差和四分位数间距
极差:
简记为R,亦称全距,即一组变量值中最大值与最小值之差,反响变量值的离散X围。
四分位数间距Q:
一般和中位数一起描述偏态分布资料的分布离散趋势。
3.
方差和标准差:
方差表示样本观察值的离均差平方和的均值。
表示一组数据的平均离散情况。
标准差是方差的正平方根。
用途:
〔1〕用于表示正态或近似正态分布资料的离散度;
〔2〕反映均数的代表性
标准差越小,数据离散程度越小,均数的代表性越好。
(3)确定医学参考值X围
95%医学参考值X围
3.变异系数〔CV〕适用条件:
①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊
四、正态分布与参考值X围的制定★
〔一〕正态分布
1.概念:
也称高斯分布,是医学和生物学最常见、最重要的一种连续性分布。
2.特征:
(1)在直角坐标的横轴上方呈钟型曲线,两端与X轴永不相交,且以X=μ为对称轴左右完全对称
(2)在x=μ处,f(X)取最大值(3)正态分布有两个参数,即均数μ和标准差σ。
均数μ描述了正态分布的集中趋势位置,假如固定σ,改变μ值,曲线沿着X轴平行移动,其形状不变,故μ称为位置参数。
标准差σ描述了正态分布的离散程度,假如固定μ,σ越小,曲线越陡峭;反之,σ越大,曲线越平坦.故σ称为形状参数或离散度参数。
(4)正态曲线下的面积分布有一定的规律。
4.正态曲线下面积的分布规律
〔二〕医学参考值X围的制定
医学参考值:
是指绝大多数正常人的人体形态、功能和代谢产物等各种生理与生化指标常数,也称正常值。
第二节数值变量资料的统计推断★
一、均数的抽样误差与标准误
抽样误差:
由于个体变异和抽样造成的样本统计量与总体参数和样本统计量之间的差异。
均数的抽样误差:
由于抽样造成的样本均数与总体均数和样本均数间的差异。
标准误:
样本均数的标准差,用
来表示。
〔σ未知〕
二、t分布
t分布曲线以0为中心,t分布为一簇单峰分布曲线,υ不同,曲线形状不同
t分布与υ有关,υ越小,t值越分散,t分布的峰部越低,而两侧尾部翘得越高
t界值表中一侧尾部面积称单侧概率(α)两侧尾部面积之和称双侧概率(α/2)
如:
在一样自由度时,〡t〡值增大,α减小
在一样α时,单尾α对应的t值比双尾α的小
三、总体均数的区间估计
统计描述
统计分析参数估计---用样本指标估计总体指标
统计推断
假设检验
总体均数置信区间〔可信区间〕的计算
区间估计:
是按预先给定的概率(1-α)所确定的包含未知总体参数的一个X围。
(一)小样本或σ未知----按t分布
〔二〕1.σ-----u分布
2.σ未知,但大样本(n>60)----按u分布
四、假设检验的意义和根本步骤★
假设检验:
先对总体的参数或分布做出某种假设,再用适当的统计方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。
根本步骤:
1、建立检验假设,确定检验水准
(1)H0:
〔无效假设〕μ=µ0
(2)H1:
〔备择假设〕µ≠µ0,µ>µ0或µ<µ0
(3)确定检验水准α
2.选定检验方法,计算检验统计量
3.确定P值,作出推断结论
第三节均数的t检验与u检验★
t检验应用条件:
样本与总体/两样本均数的比拟
①当n<60时,要求样本取自正态分布的总体,总体标准差未知;
②两小样本均数比拟时,要求两样本总体方差相等〔σ12=σ22〕。
n含量较大,u分布
一、单样本t检验
适用于样本均数代表的未知总体均数µ和总体均数µ0的比拟。
ν=n-1
二、配对样本t检验
适用于配对设计的计量资料,常见的配对设计主要有以下情形:
①自身比拟:
同一受试对象处理前后。
②同一受试对象分别承受两种不同的处理。
③将条件近似的观察对象两两配成对子,对子中的两个个体分别给予不同的处理。
前提条件:
d变量服从正态分布
【例题单项选择】作配对样本t检验的前提条件是()
【答案】C
【解析】配对样本t检验样本可以是自身配对,也可以异体配对,所以数据可以独立,也可以不独立。
它处理的是两样本的差值,所以差值要服从正态分布才可以应用配对样本t检验,所以此题答案选C。
三、两样本t检验
适用条件:
完全随机设计的两样本均数的比拟。
比拟两样本所代表的总体均数μ1和μ2是否相等。
完全随机设计是将受试对象完全随机分配到两个不同处理组。
要求:
独立、正态、方差齐性
四、两样本u检验
完全随机设计的两样本均数的比拟。
适用于样本量比拟大的资料〔n1>60且n2>60〕
五、假设检验应注意的问题
1、假设检验应有严格的抽样设计-同质
2、要注意选用的假设检验方法的应用条件
3、正确区分差异有无统计意义与有无专业上的实际意义
4、结论不能绝对化
5、假设检验的单侧检验与双侧检验的选择
假设检验的两类错误
第Ⅰ类错误:
拒绝实际上成立的H0,犯第Ⅰ类错误的概率大小为α。
第Ⅱ类错误:
不拒绝实际上不成立的H0,犯第Ⅱ类错误的概率为β。
当样本含量n一定时,α越小,β越大;假如想同时减少α和β,只有增大样本含量。
1-β称为假设检验的成效当所研究的总体与H0确有差异时,按检验水准α能够发现它(拒绝H0)的概率。
分类变量资料的统计分析
第一节分类变量资料的统计描述★
一、常用相对数
率:
说明某现象发生的频率或强度。
构成比:
说明某一事物内部各组成局部所占的比重或分布。
相比照:
说明一个指标是另一个指标的几倍或百分之几。
【例题单项选择】某医院住院病人中有15%的胃癌患者,该15%是〔〕
A.患病率B.发病率
C.构成比D.相比照
【答案】C
【解析】15%的胃癌患者指的是胃癌患者占住院病人的15%,所以是构成比。
【例题填空】构成比是说明________或分布指标。
率是说明_________或强度的指标。
【答案】比重;频率
二、应用相对数时应注意的问题
〔简答题〕
1.计算相对数时,观察单位数应足够多
2.分析时不能以构成比代替率
3.相对数的相互比拟应注意可比性,不具有可比性应进展标准化
4.样本率或构成比的比拟应做假设检验
第二节分类变量资料的统计推断★
一、率的抽样误差与标准误
二、总体率的区间估计
1.查表法:
当n较小,如n≤50,特别是p接近与0或1时〔小概率事件〕,按二项分布原如此估计总体率的可信区间。
2.区间估计正态近似法:
当样本含量n足够大,样本率p或1-p均不太小时[如np和n(1-p)均大于5],样本率的分布近似正态分布,总体率可信区间在〔1-a〕可信度下,估计为:
P±uα/2Sp
三、两总体率之差的区间估计
条件:
当样本含量n足够大,样本率p或1-p均不太小时,即np和n(1-p)均大于5,样本率的分布近似于正态分布([p1-p2]-uα/2Sp1-p2,([p1-p2]+uα/2Sp1-p2)
四、率的u检验
〔一〕样本率与总体率比拟的u检验
〔二〕两样本率比拟的u检验
第三节χ2检验★
一、四格表资料的χ2检验★
〔一〕四格表资料的χ2检验的根本思想
假设两组资料率的差异来自抽样误差,用χ2 值反映实际频数和理论频数吻合的程度。
在H0〔π1=π2〕成立的条件下,实际频数与理论频数相差不应该很大,假如实际算出的χ2值较大,超过了设定的检验水准,如此有理由怀疑H0的真实性,从而拒绝H0,承受H1〔H1:
π1≠π2〕
应用:
推断两个〔或多个〕总体率或构成比之间是否有差异和多个样本率间的多重比拟
一、四个表资料的卡方检验
四个表χ2检验根本公式:
四个表χ2检验专用公式:
适用条件:
两样本率比拟时,总例数n≥40且所有格子T≥5
〔二〕四格表资料的χ2检验的校正公式★
或
1.当n≥40且所有的T≥5时,用χ2检验的根本公式或四格表资料χ2检验的专用公式;当P≈a时,改用四格表资料的Fisher确切概率法。
2.当n≥40但有1≤T<5时,用四格表资料χ2检验的校正公式或改用四格表资料的Fisher确切概率法
3.当n<40,或T<l时,用四格表资料的Fisher确切概率法。
〔三〕四格表资料确实切概率法★
四格表资料的Fisher确切概率法是一种直接计算概率的方法,理论依据是超几何分布,四格表资料确实切概率法不属于χ2检验的X畴,常作为四格表资料假设检验的补充。
二、配对四格表资料的χ2检验
配对设计四个表卡方检验公式:
假如b+c≥40
,ν=1
假如b+c<40
,ν=1
三、行×列表资料的χ2检验
用于多个样本率的比拟,两个或多个构成比的比拟
理论频数不应小于1,1≤T<5的格子数不应超过总格子数1/5
多个样本率比拟,假如所得统计推断为拒绝H0,承受H1时,只能认为各总体率之间总的来说有差异,但不能说明任两个总体率之间均有差异。
一般的χ2检验不适用于有序分类资料〔等级资料〕——“等级〞、“程度〞、“优劣〞的比拟分析。
因为检验只利用了两组构成比提供的信息,损失了有序指标包含的“等级〞信息。
第四节秩和检验★
秩和检验是将定量数据从小到大、等级从弱到强或从强到弱转换成秩后,求秩和,计算检验统计量——秩统计量,做出统计推断。
应用:
Ø不满足t检验条件的数值变量资料
Ø有序分类变量资料〔等级资料〕
Ø分布类型不明
Ø一端或二端无确定数值
Ø任何分布类型的资料
秩和检验应用中的须知事项
(1)秩和检验一方面由于其方法的稳健性而具备不受总体分布限制,适用X围广的优点,但另一方面,在秩转换的过程中损失了原数据的局部信息。
如果计量资料满足〔或近似满足〕t检验应用条件,这时假如选秩和检验,由于没有充分利用资料提供的信息,会降低检验效能。
即当Ho不真时,秩和检验将不如t检验能较灵敏的拒绝Ho,犯第2类错误的概率要比t检验大。
(2)对于计量资料,假如满足正态和方差齐性条件,应选t检验对总体均数作假设检验;当资料偏离假定条件时,选用秩和检验才是可靠的。
(3)对于大样本资料,通过把原变量值或等级转换成秩后,可采用t检验方法对平均秩次进展检验。
【例题填空】等级资料的比拟宜选用______检验。
【答案】秩和
【例题简答】秩和检验的优点
【答案】秩和检验适合任何分布的资料;具有较好的稳健性。
第十八章直线回归和直线相关
第一节直线回归
用于分析两变量间依存变化的数量关系
一、直线回归方程
式中的X为自变量;式中的Ŷ是由自变量X推算应变量Y的估计值。
a是回归直线在Y轴上的截距,即X=0时的Y值;
b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。
a和b的估计常用最小二乘法原如此
所有的点离回归线的纵向距离最近;回归线必然通过
求回归方程的的步骤:
①在普通坐标系中作散点图,看是否有直线趋势。
②求X、Y的离均差乘积和lxy与X、Y的离均差平方和lxx、lyy
③求a和b
④列出回归方程:
Ŷ=a+bX
【例题填空】直线回归是分析_________间数量关系的统计方法。
〔〕
【答案】两个变量
二、总体回归系数的假设检验
t检验法判断b是否来自回归系数为0〔β=0〕的总体。
三、直线回归方程的应用
1.描述变量间数量关系
2.统计预测
3.统计控制
第二节直线相关
用于描述两变量间线性关联程度与相关方向,适用于双变量正态分布
一、相关系数★
它反映具有直线关系的两个变量之间,相关密切程度与相关方向的指标。
样本相关系数用r来表示,总体相关系用ρ来表示.其取值X围是-1≤r≤1。
r为正表示正相关关系,x与y同向变化;r为负表示负相关关系,x与y反向变化。
r的绝对值越接近1,线性关系越密切;r的绝对值越接近0,线性关系越不密切;r绝对值=1,为完全相关;r=0,为零相关。
二、相关系数的计算
三、相关系数的假设检验〔总体相关系数为ρ〕
ν=n-2
五、直线回归与相关应用的须知事项★
(1)须知事项:
①根据分析目的选择变量与统计方法:
直线相关:
两变量之间直线关系的方向与密切程度,XY无主次之分;直线回归:
应变量对自变量在数值上的依存关系,一般把易于测量的作为自变量,另外根据专业知识确定。
进展相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。
②进展相关、回归分析前应绘制散点图
③相关与回归的应用条件:
直线相关分析一般要求X、Y服从二元正态分布,又称为双变量正态分布。
④结果的解释与正确应用线性关系存在不能直接解释为因果关系;直线回归用于预测时,自变量X围尽量不要外延。
(2)关系:
直线相关与回归既有区别又有联系。
区别主要表现在:
①反映两个变量间数量关系的目的不同。
②对变量的分布要求不同。
联系主要表现在:
①同一资料同时作相关与回归分析时,其相关系数r与回归系数b的符号一样。
②同一资料r和b的假设检验等价。
③相关与回归可以相互解释。