医学统计学复习重点南医医政.docx

资源描述

医学统计学复习重点南医医政.docx

《医学统计学复习重点南医医政.docx》由会员分享，可在线阅读，更多相关《医学统计学复习重点南医医政.docx（29页珍藏版）》请在冰豆网上搜索。

医学统计学复习重点南医医政.docx

医学统计学复习重点南医医政

医学统计学复习资料

定量资料的统计指标

集中趋势的统计描述指标及应用条件

用平均数描述一组变量值的集中位置或平均水平，包括算术均数、几何均数、中位数、百分位数。

均数

几何均数

中位数

百分位数

计算方法

适用资料

单峰对称分布

等比资料、对数正态分布

（抗体滴度、细菌计数）

各种分布、偏态分布、不确定值

计算特点

全部数据

中间数据

部分数据

极端值的影响

敏感

不能有0，不能同时存在正负值

不敏感

离散趋势的统计描述指标

描述数据变异大小的常用指标有极差、四分位数间距、方差、标准差和变异系数。

极差

四分位间距

方差

标准差

变异系数

计算方法

R=Rmax-Rmin

Ql（P25）,Qu（P75）

Qu-Ql

CV=

100%

含义

，数据变异度

。

Qu-Ql

，数据的变异度大。

反映个体变异，个体变异越大，方差和标准差越大。

变量值的分布分散、离散

（校正）

派生于标准差，排除了平均水平和量纲的影响。

取消了单位。

适用资料

任何分布

常用于偏态资料

正态资料

度量衡单位、均数相差悬殊的两组或多组资料的变异度。

计算特点

用到两端数据

中间数据

全部数据

极端值的影响

敏感

不敏感

敏感

平均数与变异度的关系：

数据分布越集中，变异度越小，平均数的代表性就越好。

通常，用平均数与变异指标一起描述资料的分布特征。

用均数和标准差描述正态分布资料的特征；用中位数和四分位间距描述偏态分布资料的特征。

定性资料和等级资料的统计指标

相对数表示相对关系，包括率、构成比、相对比。

率

构成比

比

定义

又称频率指标，说明某现象发生的频率和强度（强度相对数）

又称构成指标，说明一种事物内部各组成部分所占的比重或分布。

又称相对比，是A，B两个有关指标之比，说明A为B的若干倍或百分之几。

两个指标可以性质相同，也可以不同。

公式

比

注意事项

分母不能太小；

区分率和构成比，构成比只能说明事物内部各组成部分的比重或分布，不能说明某现象发生的频率或强度。

合并率的计算不是直接求率的均数；

计算率时要注意资料的同质性，两个合并率的对比需要注意可比性。

率的标准化法

为了消除构成比不同影响比较结果的真实性，可采用率的标准化法。

率的标准化法：

即采用统一的标准对内部构成不同的各组频率进行调整和对比的方法，调整后的率为标准化率，简称标化率或调整率。

实质：

加权平均，以标准组各组构成比作为权重系数。

各组按标准组的系数求加权平均率，即为标准化率。

（例子）

正态分布

正态分布是描述个体变异的重要分布之一。

连续型随机变量的概率分布。

1、正态分布的特征

●单峰分布；高峰在均数处；

●以均数为中心，均数两侧完全对称。

●正态分布有两个参数，即位置参数（均数）和变异度参数（标准差）。

越大，则曲线向右移动；

表示数据的离散程度，若

小，则曲线形态“瘦高”。

●正态曲线下的面积分布有一定的规律。

2、标准正态分布

标准正态分布是均数为0，标准差为1的正态分布。

记为N（0,1）。

标准正态分布是一条曲线。

正态分布转换为标准正态分布：

若X～N（

2），作变换：

，则u服从标准正态分布。

u称为标准正态离差。

3、正态曲线下的面积规律

●X轴与正态曲线所夹面积恒等于1。

●对称区域面积相等。

●正态分布的一个显著特点，其曲线下面积完全决定于以标准差为单位从点X到µ的离差

4、常用的u值表：

参考值范围（%）单侧双侧

800.8421.282

901.2821.645

951.6451.96

992.3262.576

5、正态分布的应用

估计频数分布；确定临床参考值范围

二项分布

离散型随机变量的概率分布。

如果个体观察值之间是相互独立的，结局只有两种互相对立的结果，用二项分布描述个体变异。

1、二项分布的概念

令x为n次试验中的二项随机变量，成功的概率P（成功）＝p，则x的取值为0，l，2，…，n，所有可能结果的概率的联合概率分布为二项分布。

设事件A出现的概率为。

则在n次独立试验中，事件A恰好出现k次的概率为：

2、二项分布的性质

（1）均数和方差

当π和n已知时，阳性数X的均值μ=nX，б=

，若均数和标准差不用绝对数而用率表示时，

，

（2）累计概率

从阳性率为的总体中随机抽取n个个体，则

①最多有k例阳性的概率：

②最少有k例阳性的概率：

（3）图形

给定n后，二项分布的形状取决于参数π的大小。

当π=0.5，分布对称；当π≠0.5，分布呈偏态；

当π<0.5时分布呈正偏态；当π>0.5时分布呈负偏态；特别是当n值不是很大时，π偏离0.5愈远，分布愈偏。

随着n的增大，二项分布逐渐逼近正态分布。

一般地说，如果nπ或n（1-π）大于5时，常可用正态近似原理处理二项分布问题。

（4）二项分布的应用

⏹率的抽样分布及其性质

在n足够大时，样本率p的分布近似正态分布；

率的均数和方差。

⏹总体率的可信区间估计

①查表法（精确概率法）n≤50时，查询附表率的可信区间

②正态近似法：

当np>5和n（1-p）>5均成立时，用正态近似法。

可信区间为

⏹两总体率之差1-2的区间估计

设p1=r1/n1，p2=r2/n2是两个样本率，p1－p2是它们的差。

如果n1p1，n1（1-p1），n1p1，n2（1-p2）均大于5，则正态近似的方法可用于求总体率之差的可信区间：

⏹两样本率的比较

⏹样本率与总体率的比较

Poisson分布

1、概念

罕见事件发生数的分布规律。

单位时间、单位空间内某事件的发生数。

如果某事件的发生是完全随机的，则单位时间或单位空间内，事件发生即一个随机变量X的取值为0,1,2,…的概率为：

，则该事件的发生服从参数为λ的泊森分布。

2、性质

（1）均数与方差：

（2）累计概率

3、Poisson分布的图形

Poisson分布的形状取决于λ的大小。

Poisson分布为正偏态分布，且λ越小分布越偏。

当λ≥50时，可用正态分布原理处理Poisson分布的有关问题。

4、Poisson分布的应用

平均计数的区间估计（X）50时，可用正态近似法；X较小时，查表法）

两个平均计数的比较

样本平均计数与总体平均计数的比较

应用条件

二项分布、Poisson分布、正态分布间的关系

①n较大时，二项分布B（n,）中样本率的分布近似正态分布；

②较大（≥20）时，Poisson分布中平均计数近似正态分布N（,）；

③Xi~B（ni,i），若C=nii不变，则ni时，二项分布近似Poisson分布。

参考值范围

1、参考值范围的涵义：

绝大多数的正常人在该范围内。

2、参考值范围的估计方法：

方法

双侧

单侧下限

单侧上限

正态分布法

百分位数法

中心极限定理

1、从正态分布总体N（,2）,中随机抽样（每个样本的含量为n），可得无限多个样本，每个样本计算样本均数，则样本均数也服从正态分布。

样本均数的均数为

，样本均数的标准差为

。

2、从非正态分布总体（均数为，方差为2）中随机抽样（每个样本的含量为n），可得无限多个样本，每个样本计算样本均数，则只要样本含量足够大（n>50）,样本均数也近似服从正态分布。

样本均数的均数为

，样本均数的标准差为

。

标准误

（1）标准误定义：

将样本统计量的标准差称为统计量的标准误，用来衡量抽样误差的大小。

样本均数的标准差称为均数的标准误。

均数的标准误表示样本均数的变异度。

当总体标准差未知时，用样本标准差代替，

。

（2）标准误的意义

⏹反映了样本统计量分布的离散程度，体现了抽样误差的大小。

⏹标准误越大，说明样本统计量的离散程度越大，即用样本统计量来直接估计总体参数越不精确。

反之亦然。

⏹标准误的大小与标准差有关，在例数n一定时，从标准差大的总体中抽样，标准误较大；而当总体一定时，样本例数越多，标准误越小。

说明我们可以通过增加样本含量来减少抽样误差的大小。

标准误与标准差的区别与联系

联系：

都是变异指标。

当n不变时，标准差↑，标准误↑

区别：

标准差

标准误

含义

描述观察值的变异程度的大小的指标

描述样本均数的抽样误差大小的指标

公式

（

）

意义

标准差较小，表示观察值围绕均数波动较小，

说明样本均数代表性好

小，表明样本均数围绕总体均数的波动较小，

说明样本均数可靠性好

应用

1、表示观察值变异程度

2、结合样本均数描述正态分布资料特征，确定医学参考值范围

3、计算标准误

4、计算CV

1、估计样本均数抽样可靠程度

2、估计总体均数的可信区间

3、进行假设检验

N↑

趋于稳定（σ）

逐渐减小

抽样分布

来自不同总体的样本均数之抽样误差和抽样分布规律都是不同的。

任何一个样本统计量均有其抽样分布规律。

t分布、χ²分布、F分布都是抽样分布。

来自正态分布总体的样本方差服从χ²分布；

方差之比服从F分布；

相关系数做适当变换后近似服从正态分布；

率的分布与样本统计量n和率的大小有关，在样本含量较小时服从二项分布，在n足够大时，近似服从正态分布。

t分布（均数的抽样分布）

中心极限定理表明，从任何总体中随机抽样，当样本含量较大时，其样本均数的抽样分布将趋于正态分布。

（1）定义

设从正态分布N（

）中随机抽取含量为n的样本，样本均数和标准差分别为

和S，且

，则t值服从n-1的t分布。

（总体方差未知，用样本方差代替，此时t分布不服从正态分布）

（2）u分布

因为当X~N（μ,σ）时，

~N（0，1）（标准正态分布）

所以当

时，u=

~N（0，1）（u分布）（总体方差已知）

（3）t分布的特征

⏹t分布是一簇曲线，当ν不同时，曲线形状不同；

⏹单峰分布，以0为中心，左右对称；

⏹当ν逼近∞时，t分布逼近u分布，故标准正态分布是t分布的特例；

⏹t分布曲线下面积是有规律的。

（t界值表）

单尾：

P（t≤-t,）=，或P（t≥t,）=

双尾：

P（t≤-t/2,）+P（t≥t/2,）=，即P（-t/2,

t分布表明，从正态分布总体中随机抽取的样本，由样本计算的t值接近0的可能性较大，远离0的可能性较小。

χ²分布（方差的抽样分布、定性资料中实际频数与理论频数之间的抽样误差、率或构成比的比较）

（1）定义

设从正态分布N（

）中随机抽取含量为n的样本，样本均数和标准差分别为

和S，设

，χ²值服从自由度为n-1的χ²分布。

χ²分布是方差的抽样分布。

定性资料中实际频数Ai与理论频数Ti之间的抽样误差：

当样本含量n≥40，Ti≥5时，

。

（2）χ²分布的特征

χ²分布为一簇单峰正偏态分布曲线；

自由度为v的χ²分布，其均数为v，方差为2v；

χ²分布具有可加性；

自由度为1时，

，表示当V=1时，右侧α=0.05时，它的界值为3.84。

按χ²分布规律，V=1时，理论上χ²≥3.84的概率为0.05。

自由度为2的2分布界值（0.05）为5.99。

χ²分布说明，从正态分布的总体中随机抽样，所得样本方差接近于总体方差的可能性大。

F分布（常用于方差齐性检验，方差分析）

（1）定义

设从两个方差相等的正态分布N（1,2）和N（2,2）总体中随机抽取含量分别为n1和n2的样本，样本均数和标准差分别

、

和

、

，且F=

，则F值服从自由度为（n1-1，n2-1）的F分布。

（2）F分布的特点

F分布为一簇单峰正偏态分布曲线，与两个自由度有关。

可信区间

统计推断：

根据样本所提供的信息以一定的概率推断总体的性质。

包括参数估计和假设检验。

参数估计包括点估计和区间估计（根据统计量的抽样分布性质，用样本统计量估计总体参数）

（1）区间估计的定义

按一定的概率或可信度（1-）用一个区间估计总体参数所在范围，这个范围称作可信度为1-的可信区间CI，又称置信区间，这种估计方法称为区间估计。

（2）可信度为1-的可信区间的确切含义：

以均数的可信区间为例，其涵义是：

如果重复100次抽样，每次样本含量均为n，每个样本均按

构建可信区间，则在此100个可信区间内，理论上有95个包含总体均数，而有5个不包含总体均数。

算得某95%的可信区间，则该区间包含总体参数，可信度为95%。

（3）可信区间一旦形成，它要么包含总体参数，要么不包含总体参数，二者必居其一，无概率可言。

（2）均数的可信区间

总体均数

两均数之差

抽样分布

v=n-1的t分布；

当n>100时，u分布

v=n1+n2-2的t分布

（1-）可信区间

（n<100）

（n>100）

公式

α含义

为自由度为V，两侧

尾部面积各为α/2的t界

值

可信区间长度

与标准差成正比，与样本

含量之平方根成反比

（2）率的可信区间

率也存在抽样误差，率的标准差称为率的标准误。

率的分布是偏态的：

当总体率π<0.5时为正偏态；当总体率π>0.5时为负偏态；当总体率π=0.5时为对称分布。

当nπ>5且n（1-π）>5时，率的抽样分布近似服从正态分布。

区间估计方法

总体率

两总体率之差

正态近似法

np>5且n（1-p）>5时，

n1p1>5、n2p2>5、n1（1-p1）>5、n2（1-p2）>5均成立时，

公式：

查表法

n<50时，

查询附表“百分率的可信区间”直接获得可信区间

（3）事件数的可信区间

当X>50时，正态近似法总体计数

的可信区间为

当X

50时，查表法

（4）方差的可信区间

可信区间与参考值范围的区别

⏹可信区间用于估计总体参数，总体参数只有一个。

⏹参考值范围用于估计变量值的分布范围，变量值可能很多甚至无限。

⏹95%的可信区间中的95%是可信度，即所求可信区间包含总体参数的可信程度为95%

⏹95%的参考值范围中的95%是一个比例，即所求参考值范围包含了95%的正常人。

假设检验的步骤

建立假设检验和确定检验标准

计算检验统计量

确定P值

推断结论

假设检验的几个相关问题

（1）I型错误和II型错误

拒绝H0，接受H1

不拒绝H0

H0真实

第一类错误（）

正确推断（1－）

H0不真实

正确推断（1－）

第二类错误（）

统计学上规定：

H0真实时被拒绝为第一类错误（又称Ⅰ型错误），H0不真实时不拒绝为第二类错误（又称Ⅱ型错误）。

拒绝H0时可能犯I类错误；不拒绝H0时可能犯II类错误。

错误和错误的关系：

和的关系就像翘翘板，小就大，大就小。

要同时降低两类错误的概率，或者要在不变的条件下降低，需要增加样本容量。

（2）双侧检验与单侧检验

H1从一个方向上偏离H0所规定者，称为单侧检验；

H1从两个方向上偏离H0所规定者，称为双侧检验；

检验假设的写法不同：

原则上依据资料的性质来选择双侧检验与单侧检验。

（3）P和的涵义

P值是指由H0所规定的总体作随机抽样，获得等于大于现有样本获得的检验统计量值的概率。

拒绝H0时所冒的风险。

P值的大小标明以多大的误差拒绝H0。

P值越小，说明越有理由拒绝H0而接受H1，越有理由说明样本所分别来自的总体有差别。

的意义：

水准是在假设检验之前设定的，说明按不超越多大的误差为条件作结论，是犯I型错误的最大风险。

确定=0.05，即I型错误的概率为0.05，理论上100次抽样中发生这样的错误平均有5次。

（4）假设检验和可信区间的关系

假设检验：

样本是否来自于同一总体？

可信区间：

总体参数在哪里？

在相同的α之下，若假设检验拒绝H0（p<α），那么可信度为（1-α）的可信区间必然不包括总体参数；

可信区间和假设检验是对同一问题所作的不同结论，效果等价。

可信区间比假设检验能回答更多的内容。

定量资料的分析（均数的假设检验包括t检验和方差分析）

（1）样本均数与总体均数的比较-------t检验

目的：

推断该样本是否来自总体

（2）配对设计定量资料的差值均数与总体差值均数0的比较-------配对资料的t检验

目的：

设计方法：

自身配对：

同一对象接受两种处理。

异体配对：

将条件相近的实验对象配对，分别给予两种处理。

假设检验方法：

配对资料的t检验：

首先求出各对数据间的差值d，将d作为变量值计算均数。

若两处理因素的效应无差别，理论上差值d的总体均数

应为0

（3）成组设计的两样本均数的比较------成组t检验

目的：

两样本均数的比较目的在于推断两个样本所代表的两总体均数是否相等。

设计方法：

完全随机设计即成组设计

假设检验方法：

成组t检验（有些情况不能进行配对设计如手术组和非手术组），在两个样本均数比较时，若两组样本含量都很大，可用u检验。

（4）多个均数的比较------方差分析又称F检验

方差分析的基本思想和应用条件：

基本思想：

按研究目的和设计类型，将总变异中的离均差平方和SS和自由度

分别分解成相应的若干部分，然后求得各相应部分的变异；由于其中的组内（或误差）变异主要反映个体差异或抽样误差，其他各部分的变异与之比较得出统计量F值，根据F值的大小确定P值，并做出推断。

应用条件：

①各样本是相互独立的随机样本，均服从正态分布。

②相互比较的各样本的总体方差相等。

具有方差齐性。

①单因素多个样本均数的比较用单因素方差分析，研究的是一个处理因素的不同水平间效应的差别（单因素两水平可以用t检验）。

适用于对多个均数资料做分析的统计方法，这类研究的设计为完全随机设计。

②两因素多个样本均数的比较用两因素方差分析，研究的是一个处理因素和一个配伍因素的不同水平间效应的差别。

（5）多个样本均数的两两比较

多个样本均数间的两两比较常用的统计方法为q检验即SNK法；

多个实验组和一个对照组均数间的两两比较常用Dunnett检验。

（6）t检验的应用条件

t检验的前提：

①正态性：

两组均数比较时，要求两组数据服从正态分布；配对设计时，要求差值服从正态分布。

可用正态性检验来确认。

②独立性：

各观察个体间是相互独立的。

③方差齐性：

两样本所对应的正态总体之方差相等，可由方差齐性检验来确定。

（7）方差齐性检验

方差齐性检验，即检验两样本相应总体的方差相等的假设是否成立。

（8）方差分析的应用条件

方差分析的前提：

①正态性②独立性③方差齐性。

要求与t检验一样。

当原始资料不能满足分析方法的要求时，要做变量变换。

常用的变量变换有：

①对数变换②平方根变换③平方根反正弦变换

变量变换：

⑴对数变换常用于：

①使服从对数正态分布的资料正态化；②使方差不齐切各组的变异度接近的资料达到方差齐的要求；③使曲线直线化，常用于曲线拟合。

⑵平方根变换常用于：

①使服从Poisson分布的计数资料或轻度偏态的资料正态化；②使方差不齐且各样本的方差与均数间呈正相关的资料达到方差齐的要求。

⑶平方根反正弦变换常用于：

使总体率较小或总体率较大的二项分布资料达到正态或方差齐的要求。

定性资料的分析

（1）样本率与总体率的比较

目的：

推断样本是否来自某已知总体。

检验方法：

当np>5且n（1-p）>5时，用u检验；当n和p不符合此条件时，用二项分布法计算可信区间。

（2）两样本率的比较

目的：

推断相应的两总体率是否相等。

检验方法：

①u检验：

当n1p1>5、n2p2>5、n1（1-p1）>5、n2（1-p2）>5均成立时用u检验；

如果n较小，则用校正u检验；

若n≤40时，用确切概率法。

②χ²检验：

n≥40，T≥5，用χ²检验；

n>40，但1≤T<5，用校正χ²检验。

n<40，或T<1，用确切概率法。

（3）配对设计两样本率的比较

目的：

通过对单一样本数据的分析，推断两种处理的结果有无差别。

用途：

比较两种检验方法、两种培养方法、两种提取方法等的差别。

基本思想：

结果有四种情况，

甲法

乙法

合计

a+b

c+d

合计

a+c

b+d

a+b+c+d=n

若两法没有差别，则总体B=C。

检验方法：

①当b+c≥40时，用配对χ²检验；

②当20＜b+c≤40时，用校正配对χ²检验；

③当b+c<20时，用确切概率法。

（4）多个率的比较

R行2列，R×2表

目的：

推断R个样本率各自所代表的总体率是否相等。

方法：

χ²检验

（5）构成比的比较

R行C列

χ²检验

（6）χ²检验的应用条件

☐四格表的分析方法选择条件：

⏹n≥40，T>5，用2；

⏹n≥40，但1≤T<5，用校正2。

⏹n<40，或T<1，用Fisher确切概率。

☐配对四格表的分析方法选择条件：

⏹b+c>40；

⏹20

⏹b+c<20,二项分布直接计算概率。

☐R×C表的分析方法选择条件：

⏹理论数不能小于1；

⏹理论数大于等于1小于5的格子数不超过总格子数的1/5。

⏹否则用Fisher确切概率;

⏹或似然比检验（likelihoodratiotest）

☐如果以上条件不能满足，可采用：

✓ 增加样本含量

✓ 删去某行或某列

✓ 合理地合并部分行或列

✓Fisher精确概率法

（7）确切概率法

成组四格表确切概率法：

基本思想：

在四格表的周边合计不变的条件下，直接计算表内四个数据的各种组合之概率。

公式：

步骤：

在四格表的周边合计不变的条件下，列出所有的组合情况

分别计算各个组合的|A-T|值和Pi值

将|A-T|值大于等于现有样本差别的各组合概率相加得到P值。

配对四格表确切概率法：

步骤：

在四格表的B+C之和不变的条件下，计算各个b和c的所有组合；

计算各个组的差别b-c；

按照二项分布原理计算出差值大于等于现有样本差别的组合的概率。

各个概率相加得到P。

（8）两事件数的比较

（9）定性资料假设检验的正确应用

等级资料的分析

（1）秩次和秩和

秩次：

全部观察值按某种顺序排列的位序，在一定程度上反映了等级的高低；

秩和：

各组秩次之和，在一定程度上反映了各组等级的分布位置；

实际秩和：

理论秩和：

秩变换：

对等级的分析，转化为对秩次的分析。

秩次反映等级的高低，秩和反映各组等级的分布位置。

秩和检验就是通过秩次的排列求出秩和，进行假设检验。

（2）成组设计两样本比较的秩和检验

目的：

通过对两个随机样本推断两样本所代表的两个总体分布位置是否相同。

（3）多组比较的秩和检验（了解）

（4）配对设计资料的秩和检验（配对设计差值比较的符号秩和检验）

（5）区组设计资料的秩和检验（？

）

（6）秩和检验的正确应用（考点）

适用范围广

等级资料

定量资料：

正态分布但组间方差不齐，数据的某一端

展开阅读全文