医学统计学重点CHF.docx
《医学统计学重点CHF.docx》由会员分享,可在线阅读,更多相关《医学统计学重点CHF.docx(54页珍藏版)》请在冰豆网上搜索。
医学统计学重点CHF
医学统计学重点
第1章绪论
一、基本概念:
1.统计学statistics:
是研究如何有效的搜集、整理和分析带有随机性的数据,以对所考察的问题作出推断和预测,直至为采取一定得到决策和行动提供依据和建议的科学。
2.总体population:
根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
3.样本sample:
从总体中随机抽取部分个体的某个变量值的集合。
(样本特点:
足够的样本含量、可靠性、代表性。
)
4.总体参数parameter:
刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
例如总体均数μ、总体标准差σ、总体率π、总体回归系数β、总体相关系数ρ
5.统计量statistic:
刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
样本均数、样本标准差S、样本率P、样本回归系数b、样本相关系数r
6.抽样sampling:
从总体中随机抽取一定数量的观察单位组成样本的过程称为抽样。
7.抽样误差samplingerror:
由随机抽样造成的样本统计量与相应的总体参数之间的差异。
8.频率:
若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
9.概率:
频率所稳定的常数称为概率。
10.自由度degreeoffreedom:
能自由取值的变量个数
11.统计描述:
选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
12.统计推断:
包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
二、资料类型:
(1)定量资料:
又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位。
统计指标为均数,标准差等,统计检验方法为t检验、方差分析非参数统计分析;
(2)分类资料:
包括无序分类资料(计数资料)和有序分类资料(等级资料)
1)计数资料:
是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
统计指标为率、构成比;检验方法为卡方检验;
二分类:
将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:
将观察对象按多种互斥的属性分类
2)等级资料:
将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单
位的个数所得的资料。
统计指标率、构成比;统计方法为非参数分析法;
三、统计工作基本步骤:
统计设计、资料收集、资料整理、统计分析。
(统计研究设计分为调查研究设计和实验研究设计,统计分析主要包括统计描述和统计推断)
(1)实验设计
1.实验设计三要素:
处理因素、受试对象、实验效应
2.误差分类:
随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3.实验设计的三个基本原则:
对照原则control、随机化原则random、重复原则replication。
4.实验设计方法
有析因设计正交试验设计均匀试验设计
交互作用
两组:
异体配对设计同体配对设计交叉设计
无随机同期对照实验设计(单因素两水平)扩展
多组:
单因素多水平配伍组设计拉丁方设计
(两因素多水平)(三因素多水平)
配伍组设计:
也称随机区组设计,将条件相近的受试对象配伍,每个配伍组中的对象随机分配到各处理组中。
析因设计:
考察两个或两个以上的处理因素,将各个因素的水平进行全面组合,每个组合下至少有两个以上的观察对象重复测量。
拉丁方设计:
用于三因素等水平无交互。
(2)统计分析
1.统计描述:
选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
2.统计推断:
用样本信息推断总体特征分分析方法,包括参数估计estimationofparameter和假设检验hypothesistesting。
3.参数估计
(1)参数估计:
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
可分为点估计pointestimation和区间估计intervalestimation。
●点估计:
选择一个适当的样本统计量作为总体参数的估计值称为点估计。
●区间估计:
根据一定的正确度和精确度要求确定一个概率水平,由样本统计量计算出一个适当的区间作为未知总体参数真值所在的范围,称为区间估计。
称此概率水平为置信度,也可称为置信水平confidencelevel。
所估计的区间称为置信区间confidenceinterval,区间的端点称为置信限confidencelimit,有上下限之分。
●可信区间的大小与样本含量及可信度的大小有关,一般地说,随着可信度的加大,可信区间也加大,随着样本含量的加大,可信区间缩小。
可信区间的两个要素:
准确度与精确度
1 可信区间的准确度:
表现为可信度(1-ɑ)的大小,即区间包含总体均数的概率大。
2 可信区间的精确度:
表现为区间的长度。
3 99%置信区间准确度高于95%置信区间。
95%置信区间精确度更高。
4 在可信度确定的情况下,增加样本例数可减少区间长度,提高精确度。
●公式:
单个正态总体均数μ的区间估计
①σ已知:
双侧:
即
z分布
单侧:
即
4.假设检验
(1)假设检验:
用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验,又称显著性检验significancetesting。
基本思想:
反证法、小概率事件原理
(2)基本步骤:
1)建立假设,确定检验水准
H0:
检验假设或无效假设nullhypothesis,差异存在但不显著或差异无统计学意义
H1:
对立假设或备择假设alternativehypothesis,差异显著或差异有统计学意义
2)在原假设成立条件下,选择统计方法并计算检验统计量。
(认为误差由抽样产生)
参数检验统计量要求满足:
i)在H0成立的条件下,服从特定的抽样分布;
ii)必须包含要检验的总体参数;
iii)对于给定的样本数据,能计算出该检验统计量的数值。
3)对于给定的α值做出检验结论,并给以专业解释,判断P值:
(与界值比较,反查界值表于计算出的统计量的概率。
若P>α,则接受H0,拒绝H1,结论为差异无统计学意义;若P<α,则拒绝H0,接受H1结论为差异有统计学意义。
(3)检验方法:
正态性检验、方差齐性检验、t检验
(4)两类错误
实际情况
判断
接受H0
拒绝H0
H0正确
正确1-α
第一类错误α
H0不正确
第二类错误β
正确1-β
A.第一类错误又称弃真错误、假阳性错误,第二类错误又称取伪错误、假阴性错误。
B.P≤α时,拒绝H0,可能犯Ⅰ类错误(α)。
此时,P值越小,犯Ⅰ类错误的概率越小,结论越可靠.
C.P>α时,接受H0,可能犯Ⅱ类错误(β)。
此时,虽然β未知,但P值越大,犯Ⅱ类错误的概率越小,结论越可靠。
D.减少(增加)I型错误,将会增加(减少)II型错误
E.增大n,可以同时降低两类错误。
(5)检验效能:
H0不成立时拒绝H0的概率,用1-β表示,称为检验效能
影响检验效能的四要素:
a.客观上组间效应差异越大,效能越大
b.个体间变异(标准差)越小,效能越大。
c.I类错错误的概率α越大,效能越大。
d.样本量越大,效能越大。
(6)单侧检验和双侧检验
当H0:
μ1=μ2;H1:
μ1≠μ2时,就是双侧检验;
当H0:
μ1=μ2;H1:
μ1>μ2或H1:
μ1<μ2时,就是单侧检验。
其主要区别在备择假设H1上面。
如果H1:
μ1≠μ时就用到二侧(即μ1>μ2或μ1<μ2);如果μ1>μ2就只用到一侧。
如t值表中由于t分布左右对称,同一个t界值所对应双侧概率P等于单侧概率P的二倍。
故若同一个t检验的所得t值,对应的单侧概率P较小,为双侧概率的二分之一,单侧检验更容易出现p<α,故易于产生拒绝H0之统计推断。
故若单侧检验误选用双侧检验,就不易拒绝H0;反之,若双侧检验误选用单侧就容易拒绝H0。
(7)写法:
正确写法:
H0:
两总体均数相等;H1:
两总体均数不相等。
错误写法:
H0:
两样本均数相等;H1:
两样本均数不相等。
H0:
两样本均数无显著差异;H1:
两样本均数有显著差异。
H0:
两总体均数无显著差异;H1:
两总体均数有显著差异。
4、标准误
1.标准误standarderror,SE:
每次样本计算出的样本均数
不同,这些
的标准差称为均数的标准误。
样本统计量的标准差:
表示抽样误差的大小。
2.标准差:
反应数值之间的离散程度,反应数据与总体均数之间的差异。
3.标准误意义:
是衡量样本统计量抽样误差大小的统计指标。
标准误越小,表示抽样误差越小,统计量越稳定与所估计的参数越接近。
与标准差的区别:
二者都是描述变异程度的指标,标准差描述个体值的变异,标准误描述统计量的变异。
4.特别注意的是,统计量包括均数、率、回归系数,均有对应的标准误,如样本均数标准误,样本率标准误,回归系数标准误等。
5.样本均数的标准误standarderrorofmean:
从同一总体中随机抽取样本含量相等的若干个样本,得到若干个样本均数,这些样本均数不完全相等,并且与总体均数也存在差异。
由于抽样而产生的样本均数和总体均数间的差异称为均数的抽样误差。
反映来自同一总体的样本均数的离散程度以及样本均数和总体均数的差异程度,即均数的抽样误差大小。
均数标准误的用途:
(1)衡量样本均数推断总体均数的可靠性
(2)估计总体均数的可信区间
(3)用于均数的假设检验(统计推断)
通过增加样本例数来减少标准误,降低抽样误差。
5、正态分布与标准正态分布
1.概念:
正态分布又称高斯分布,是一种最重要的连续型分布。
简记为N(μ,σ2);其中μ,σ2分别是二个参数,μ为总体的均数,σ2为总体的方差。
特别地,当μ=0,σ2=1时的正态分布称为标准正态分布,记为N(0,1)。
2.标准化变换:
若X服从正态分布,可进行如下的标准化变换:
u=(X-μ)/σ;经此变换后,u服从均数为0、标准差为1的正态分布,我们将此正态分布称为标准正态分布,用N(0,1)表示。
3.正态分布的特点:
(1)正态分布是单峰分布,曲线在横轴上方均数处最高。
(2)正态分布以均数μ为中心,左右对称。
(3)在x=μ±σ处为拐点,且以x轴为水平渐近线
(4)正态曲线下面积分布具有一定的规律。
1 横轴上正态曲线下的总面积为100%或1;
2 正态曲线的对称轴为直线X=μ,对称轴两侧曲线下的面积相等,各占50%;
3 曲线下对称于μ的区间,面积相等;
4 曲线下区间(μ-σ,μ+σ)的面积为68.27%;
5 区间(μ-1.64σ,μ+1.64σ)的面积为89.90%;
6 区间(μ-1.96σ,μ+1.96σ)的面积为95.00%;
7 区间(μ-2.58σ,μ+2.58σ)的面积为99.00%。
4.μ和σ两个参数,即位置参数和变异度参数(形态参数)。
1 均数μ:
位置参数,当σ固定时,μ增大,曲线沿横轴向右移动;μ减小,曲线沿横轴向左移动。
2 标准差σ:
形状参数,σ增大,。
当μ固定时,σ越大,曲线越矮胖低平,数据分散,低平;σ越小,曲线越高瘦。
5.
总体均数区间估计:
当u等于1.96时,表示该区间包含μ的可能性为95%。
6.标准正态分布界值
双侧检验时,u0.05/2=1.96;u0.01/2=2.58;单侧检验时,u0.05=1.64;u0.01=2.32
规定:
界值右侧曲线下方面积等于它的下角标。
下角标一致,x轴上方中间面积一致。
双侧界值:
P(|z|≤α/2)=1-αP(zP(|z|≥zα/2)=αP(z>zα/2)=
单侧界值:
上限:
下限:
P(z>zα)=αP(z>z1-α)=1-α
P(z7.正常值范围及意义
概念:
医学临床中,常将就诊者的某些生理、生化、免疫学指标的测定结果,与排除了对研
究指标有影响的疾病和有关因素的大多数“正常人”的相应数值进行比较,以就诊者
的测定值是否超出了大多数“正常人”相应指标的波动范围,作为临床诊断的重要参
考,又称医学参考值范围。
意义:
95%的参考值范围:
样本中有95%的个体测定值在所求范围之内。
95%参考范围:
±1.96S
95%的置信区间:
该区间以95%的概率包含了待估计的参数,这种估计的可信度是95%
95%置信区间:
±1.96
6、二项分布
1.二项分布(binomialdistribution)是一种重要的离散型分布。
常用于描述二分类变量的分布。
主要用于率的统计推断,如总体率的估计,样本率与总体率的比较,两样本率的比较,还可用于两分类变量的统计分析,如logistic回归等。
2.对立结果发生的概率分别为π、1-π;总体中随机抽取n个观察单位中恰有x例阳性的概率为:
P=Cnxπx(1-π)n-x。
3.均数μ=nπ,σ2=nπ(1-π)
7、卡方检验-χ2分布
1.若从均数为μ,标准差σ的正态总体中,每次抽取样本含量为n的样本,计算样本标准差s,则χ2=(n-1)s2/σ2服从自由度df=n-1的χ2分布。
卡方分布是一种连续型分布,变量是相互独立的标准正态变量u的平方和;即χ2=u12+u22+……+uv2;其中df=n-1。
2.用途:
检验资料的实际观察频数与按某种检验理论所算得的理论频数是否相符。
用于率的假设检验。
3.图形分布特征:
曲线偏向左边,自由度越小曲线越偏
4.χ2分布界值:
双侧:
P(x2>x2
)=
P(x2>
)=1-
P(x2)=1-
P(x2<
)=
单侧:
上限:
下限:
P(x2>x2α)=αP(x2>x21-α)=1-α
P(x2
8、t检验
1.t分布(tdistribution)是一种连续型分布,来自正态总体的一组样本,t=
~t分布;
为样本均数,n为样本含量,s为样本标准差。
μ为总体均数,自由度df=n-1。
2.自由度为n-1的t分布是一个关于纵轴对称的分布,t分布主要用于t检验,包括样本均数与总体均数的比较,两样本均数的比较,回归系数及相关系数检验等。
3.图形分布特征:
以0为中心,左右对称的单峰分布。
自由度越大越高瘦,自由度越小越分散。
随着自由度逐渐增大,t分布逼近正态分布,极限分布是标准正态分布。
4.t分布界值:
双侧:
P(|t|≤t
)=1-αP(t)=1-
P(|t|≥t
)=αP(t>t
)=
单侧:
上限:
下限:
P(tP(t>tα)=αP(t>t1-α)=1-α
双侧概率P为单侧概率的两倍,因此单侧检验时是更容易出现P<α,需谨慎
9、F检验
1.如果分别从两个正态总体N(μ1,σ1)和N(μ1,σ1)中随机抽取样本含量n1、n2的两个样本,算出样本均数和方差分别为
,
和
,
,则
服从df1=n1-1,df2=n2-1的F分布。
2.F=
F检验有二个自由度ν1和ν2,它们分别为分子的自由度与分母的自由度。
3.用途:
多个均数比较的方差分析,也用于回归分析中假设检验,以及方差齐性检验等。
4.图形分布特征:
曲线偏向左边,df1、df2同时增大,曲线趋向于对称
5.倒数性质:
=
6.F分布界值:
双侧:
P(F>F
)=
P(F>
)=1-
P(F)=1-
P(F<
)=
单侧:
上限:
下限:
P(F>Fα)=αP(F>F1-α)=1-α
P(F第三章定量资料的统计描述
1.频数表编制过程(了解)
(1)找出样本数据的最大值和最小值,计算极差R;
(2)分组:
确定分组的组距d和组数k和组段上下限;
一般n<50,5-6组;n在100左右,7-10组;n>100,10-15组
(3)求频率密度:
统计频数,算出频率、频率密度和累积频率;
(4)画出直方图。
2.频数表和直方图的作用:
用于观察个数较多资料的统计描述,可以直观提示资料的分布特征和分布类型。
频数分布特征:
集中趋势centraltendency、离散程度dispersion;频数分布类型:
对称分步、偏态分布。
3.集中趋势、离散趋势的指标及适用范围
(1)集中趋势:
,G,M,Px,M0
1 算术均数arithmeticmean:
总体均数μ;样本均数
;
适用于对称分布;不适用于偏态分布和资料中出现极值的资料;
各观察值与均数之差的总和为0,离均差平方和最小。
2 几何均数geometricmean:
适用于等比级资料或对数正态分布的资料;
不适用与观察值中有0或正负数值同时出现的资料。
或
3 中位数medianM:
适用于大样本偏态分布或分布情况不明的资料或资料中有不确定数值的资料。
4 百分位数pencentilePx:
中位数即P50;多个百分位数结合使用,全面描述数据分布的特征;用于确定医学参考值范围(偏态或分布不明的资料)。
5 众数modeM0:
适用于大样本,较粗糙。
(2)离散趋势:
1 极差rangeR:
优点:
简单明了、容易使用。
缺点:
①只反映最大值和最小值间的差异,不能反映其他观察值的变异程度。
②样本容量越大,极差可能越大。
③极差的抽样误差大,不稳定。
2 四分位数quartileQ:
与中位数一起描述偏态分布资料变异程度。
QL=P25/QU=P75;四分位间距QU-QL
缺点:
类似于极差,利用度低。
3 方差variance与标准差standarddeviation:
与均数一起描述正态分布的分布特征。
①总体方差用σ2表示:
;
②样本方差估计总计方差:
③离均差平方和反应离散程度;方差越大,离散程度越大;
④标准差σ、S;方差开平方
4 变异系数coefficientofvariation:
①适用于比较度量衡单位不同资料的变异度。
②比较均数相差悬殊的资料的变异度。
③衡量实验精密度和稳定性的常用指标。
(3)频数分布特征
高峰在中间,左右大致对称,称为对称分布。
平均数=中位数=众数
高峰偏向小值的一侧(左侧),称正偏态分布(亦称右偏态)。
平均数>中位数>众数
高峰偏向大值的一侧(左侧),称负偏态分布(亦称左偏态)。
平均数<中位数<众
偏态系数:
评价正态分布对称性的指标
对称:
skewness=0;
正偏态:
skewness>0;峰偏左,长尾向右,个别数据特别大(右)
负偏态:
skewness<0;峰偏右,长尾向左,个别数据特别小(左)
峰态系数:
评价正态分布正态峰的指标。
正态峰:
kurtosis=0;平阔峰:
kurtosis<0;尖峭峰:
kurtosis>0;
第4章总体均数的估计、假设检验
1.要检验总体均数是否为某值:
用样本均数与总体均数比较的t检验;H0:
μ=μ0。
2.配对资料的两组比较,两个部分不同处理或处理前后的比较:
用配对t检验;H0:
μd=0。
3.按完全随机化设计的两个样本均数的比较:
用团体t检验;H0:
μ1=μ2。
4.t检验的条件:
1 样本均数与总体均数比较的t检验要求样本来自正态分布的总体
2 配对t检验要求差值d来自正态分布的总体
3 团体t检验要求两个样本都来自正态分布并具有相同的方差
4 如不符合要求可作变量变换或用非参数统计分析方法
5 小样本团体t检验如方差不齐时可用t'检验
5.应用公式:
1 样本均数与总体均数比较的t检验:
t=
;v=n-1
2 配对t检验:
t=
;v=n-1
(
为结果差值的均数,
为结果差值的标准误;
为结果差值的标准差
;)
3 团体t检验:
v=n1+n2-2
6.方差齐性检验(F检验):
在进行完全随机设计的两样本均数比较的t检验时,要求两样本的方差相等homogeneityofvariance:
1 H0:
σ12=σ22;当t/F>t/Fα,V时,P<α,拒绝H0
2
;v1=n1-1;v2=n2-1;
7.t'检验:
小样本团体t检验如方差不齐时
8.正态性检验:
直方图,P-P图,Q-Q图。
W检验(3≦n≦50);D检验(50≦n≦1000);
9.两均数的的等效性检验;H0:
│μ1-μ2│≧△,不等效,△事先规定
样本与总体均数等效:
t(n-1)=
│
△-│
两样本均数的的等效:
t(n1+n2-2)=
第5章方差分析ANOVA
1.术语
1)反应变量(dependentvariable):
反应变量也被称为因变量、结果变量,它是欲分析的主要观测指标
2)自变量(independentvariable):
自变量是自由取值的变量。
自变量影响因变量的取值。
3)因素和水平(factorandlever):
因素就是指对反应变量有影响的分类变量。
分类变量的不同取值就是水平。
4)处理单位(treatmentunit):
各因素的各种水平的组合为处理,每个组合就形成一个单元格,每个单元格就是一个处理单位。
5)元素(element):
元素是用于观测反应变量最小的观测单位
6)均衡(balance):
在一个实验设计中如果每个单元格中的出现的试验次数相等,则称这个设计是均衡的,反之,则是不均衡的。
7)协变量(covariate):
对反应变量有影响的数值型变量就是协变量
8)交互作用(interaction):
当一个因素的作用随另外一个因素水平的改变而改变,则这两个因素之间存在交互作用.
9)固定因素和随机因素(fixedfactorandrandomfactor):
在一个研究设计中,如果所选择的因素水平是此因素的所有水平,则这个因素就是固定因素,如果所涉及到因素的水平只是在此因素所有水平中随机抽取的一部分,如果重复此研究,则这个因素所抽取的水平和前一次研究是不同的。
则这个因素就是随机因素。
2.方差分析的要求:
1 可加性
2 反差齐性:
各处理组总体方差相等
3 正态性:
各样本来自正态总体
4 独立性:
各样本是相互独立的随机样本
5 数值型变量
3.方差分析基本思想
1)目的:
根据各个总体的样本观测值,检验各个总体均值间和两两总体均值间是否存在显著性差异。
;v=n-1
2)要求各样本都来自正态总体,且有一个相同的方差σ2,仅仅均数可以不相同;还需假定每一个观察值都由若干部分累加而成,也即总的效果可分成若干部分,而每一部分都有一个特定的含义,称之谓效应的可加性根据离差来源的不同,将总离差平方和分解为两部分。
3)基本思想:
根据效应的可加性,