医学统计学复习资料Word格式文档下载.docx
《医学统计学复习资料Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《医学统计学复习资料Word格式文档下载.docx(10页珍藏版)》请在冰豆网上搜索。
是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起,观察值不按方向性和系统性变化,在大量重复测量中,它可呈现或大或小,或正或负的规律性变化。
[7].概率:
概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。
0﹤P(A)﹤1。
频率:
在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。
当试验重复很多次时P(A)=m/n。
[8].平均数:
描述一组变量值的集中位置或水平。
常用的平均数有算术平均数、几何平均数和中位数。
[9].算术均数(arithmeticmean)描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X表示。
[10].几何均数(geometricmean)用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G。
[11].中位数(median)Md将一组观察值由小到大排列,n为奇数时取位次居中的变量值;
为偶数时,取位次居中的两个变量的平均值。
反映一批观察值在位次上的平均水平。
[12].方差(variance):
方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。
[13].标准差(standarddeviation)是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。
[14].变异系数(coefficientofvariation)用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。
用CV表示。
计算:
标准差/均数*100%。
[15].正态分布:
正态分布又称高斯分布,是一种很重要的连续型分布,应用很广。
若指标X的频率分布曲线对应于数学上的正态分布曲线,则称该指标服从正态分布。
(曲线下面积和分布规律)
[16].标准误及Xs:
通常将样本统计量的标准差称为标准误。
许多样本均数的标准差Xs称为均数的标准误(standarderrorofmean,SEM),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
[17].可信区间:
按预先给定的概率确定的包含未知总体参数的可能范围。
该范围称为总体参数的可信区间(confidenceinterval,CI)。
它的确切含义是:
可信区间包含总体参数的可能性是1-α,而不是总体参数落在该范围的可能性为1-α。
[18].假设检验中P的含义:
指从H0规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
[19].相对数:
两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数学的大小。
如率、构成比、比等。
[20].率:
强度相对数,说明某现象发生的频率或强度。
[21].构成比:
结构相对数字,表示事物内部某一部分的个体与该事物各个部分个体数的和之比。
用来说明各构成部分在总体所占的比重或分布。
[22].相对比:
简称比,是两个相关联指标之比,说明两指标间的比例关系。
两指标可以性质相同,也可以性质不同,通常以倍数或百分数表示。
两指标可以是绝对数、相对数或平均数。
(这几种相对数的差别)
[23].回归系数(regressioncoefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。
[24].相关系数r:
用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。
二、需要掌握的几个公式
1.均数的计算
(1)算术均数
(直接法)
(加权法)
(2)几何均数
2.中位数
n为奇数时,
;
n为偶数时,
3.方差
4.标准差(S):
将方差取平方根,还原为与原始观察值单位相同的变异量度
(反映样本值的离散程度)
5.变异系数:
均数相差较大或单位不同的几组观察值的变异程度的比较
(百分数,可能大于1)
5.正态分布:
(90%);
(95%);
(99%)
6.均数的标准误
理论值
估计值
7.总体均数的可信区间计算
(1)当σ未知时:
按照t分布
双侧1-α的可信区间为
,
当侧1-α的可信区间为(
)
(2)当σ已知或σ未知,但是n足够大(如n>
90),按照u检验
双侧1-α的可信区间为
当侧1-α的可信区间为
三、计算和问答
1.总体均数的估计
(1)标准误:
反映样本均数间变异的标准差。
(反映样本均数间的离散程度,也反映样本均数与总体均数的差异)
,但是在实际情况中,由于总体标准差常常未知,故用样本标准差s来估计,估计值
(2)区间估计:
按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。
①当σ未知时:
②当σ已知或σ未知,但是n足够大(如n>
(3)t分布和u分布的区别
t分布为抽样分布;
u分布为标准正态分布,为理论分布。
t分布比标准正态分布的峰值低,且尾部翘得更高。
随自由度的增大,t分布逐渐趋近标准正态分布。
2.假设检验
即显著性检验,是统计推断的重要内容,比较总体参数之间有无差别。
首先对所需比较的总体提出一个无差别假设,然后通过样本数据去推断是否拒绝这一假设。
●基本步骤:
⑴建立假设和确定检验水准
⑵选择检验方法和计算检验计量
⑶确定P值,作出统计推断
●无效假设:
H0,指需要检验的假设,如**值治疗前后无差别,即H0:
μd=0
通常与我们要验证的结论相反,是计算检验统计量和P值的依据
●备择假设:
是在H0成立证据不足的情况下而被接受的假设,即H1:
μd≠0
双侧检验:
无论正或负方向的误差,若显著超出检验水准则拒绝H0
单侧检验:
仅在正方向或负方向误差超出规定的水准时拒绝H0
●P值:
假设检验下结论的主要依据,是指在原假设成立的条件下,观察到的样本差别是由于机遇所致的概率。
P>
0.05不显著;
0.01<
P<
=0.05显著;
=0.01非常显著
3.t检验
(1)t检验中的注意事项
●样本资料必须能代表相应总体
●t检验以正态分布为基础;
非正态数据尝试变换为正态,或用非参数检验
●完全随机设计的两样本均数比较,要求两组方差齐
●对同一资料作单侧检验更容易获得显著结果
●假设检验用于推断总体均数间是否相同;
可信区间用于估计总体均数所在范围
4.方差分析
将全部观测值的总变异按影响因素分为相应的若干部分变异,在此基础上,计算假设检验的统计量F值,实现对总体均数是否有差别的推断。
●条件:
来自于正态分布总体,且总体方差相等的k个样本均数的比较(k>
=3)
●完全随机设计:
又称单因素方差分析,将实验对象随机分配到不同处理组的单因素设计方法。
只考虑一个处理因素
总变异
:
n个观测值的离均差平方和
组间变异
组内均值与总均值之差的平方和
组内变异
组内各个观测值与本组内均值之差的平方和(反映各组内样本的随机波动)
●随机区组设计:
又称配伍组设计,先将受试对象按条件相同或相近组成m个区组,每个区组中有k个受试对象,再将其随机地分到k个处理组中。
(属于无重复数据的两因素方差分析)
5.相对数
相对数死亡概率
生存概率
生存率
●相对数使用的注意事项
⒈构成比只能说明某事物内部各组成部分的比重和分布,不能说明该事物某一部分发生的强度和概率。
⒉分母过小时相对数不稳定
⒊用以比较的资料应是同质的
⒋要考虑存在的抽样误差,对总体进行推断时应作统计学检验
6.率的标准化
为了比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成(年龄、性别、工龄、病程长短等)的影响。
7.
检验
英国统计学家Peason提出的一种用途广泛的假设检验方法。
该检验以
分布为理论依据,可以推断两个或者多个总体率以及构成比直接有无差异。
(1)四格表资料的
理论频数
四格表资料
检验专用公式
四格表
检验校正公式
通常规则:
①n
40且所有的T
5基本公式(或专用公式)
②n
40但有1
T<
5校正公式
③n<
40,或T<
1Fisher确切概率法
(2)配对四格表资料的
公式:
㈠
=1(b+c)
40
㈡
=1(b+c)<
(3)行
列表资料的
专用公式:
=(行数-1)(列数-1)
条件:
⑴1<
5的格子数,不能超过总格子数的1/5;
不能有T<
1
⑵与分类变量的顺序无关
⑶对于有序的R
C表资料不宜用
8.秩转换的非参数检验
●如果已知计量满足或近似满足t检验或者F检验,优先选择t检验
●秩转换的非参数检验适用于:
⑴总体分布为偏态或分布未知的计量资料
⑵等级资料
⑶个别数据偏大,或数据的某一端无确定数值
⑷各组离散程度相差悬殊,即各总体方差不齐
●特点:
⑴适用范围广,不限方差齐性、变量类型、样本量
⑵损失了部分信息,检验效率低
⑶极度偏态,犯第二类错误的概率较大
●非参数检验,与参数检验的区别。
答:
非参数检验对总体分布不作严格的假定,不受总体分布的限制,又称任意分布检验。
它直接对总体分布(或分布位置)作假设检验。
总体分布为已知的数学形式,对其总体参数作假设检验则为参数检验。
●秩转换的非参数检验,适用情况。
秩转换的非参数检验是先将数值变量从小到大,或等级从弱到强转换成秩后,再计算检验统计量。
其特点是假设检验的结果对总体的分布形状差别不敏感,只对总体的分布位置差别敏感。
适用于:
①不满足正态或(和)方差齐性的小样本资料;
②分布不知是否正态的小样本资料;
③一端或两端是不确切数值的资料;
④等级资料。
●两组或多组等级资料的比较,为何不用Χ2检验而用秩转换的非参数检验。
Χ2检验只能推断两个或多个总体的等级构成比的差别。
选用秩转换的非参数检验,可推断两个或多个总体的等级强度差别。
非参数检验:
不考虑总体的参数和总体的分布类型,对总体的分布或分布位置进行检验的方法。
9.线性回归分析
●线性回归分析的注意事项
①两个内在有联系的变量,回归分析才有意义
②若存在依存因果的关系,则原因变量设为X,结果变量设为Y