医学统计复习基础知识8年制第2版.docx

资源描述

医学统计复习基础知识8年制第2版.docx

《医学统计复习基础知识8年制第2版.docx》由会员分享，可在线阅读，更多相关《医学统计复习基础知识8年制第2版.docx（22页珍藏版）》请在冰豆网上搜索。

医学统计复习基础知识8年制第2版.docx

医学统计复习基础知识8年制第2版

医学统计学

一、基本概念

1同质：

是指被研究指标的主要影响因素相同

2变异：

指同质事物间的差异。

3频率：

某变量值出现的次数（频数）/重复观察的总次数。

4概率：

表示随机事件发生可能性大小的数值。

（用P表示）通常由频率的稳定值反映。

确定性事件：

（1）必然事件P=1，

（2）不可能事件P=0；

随机性事件概率取值介于0～1之间;概率越接近0，表明事件发生的可能性越小。

概率越接近1，表明事件发生的可能性越大。

5概率和频率有区别：

频率是已经进行试验的结果，描述的是样本中事件出现的可能性大小（样本信息），样本不同，其值也不同，具有偶然性；

概率刻画的则是总体中随机事件出现的可能性大小（总体信息），是一种客观存在，是个确定数值，具有必然性。

6小概率原理：

概率很小的随机事件在一次或少量实际观察中是不可能发生的（尽管理论上有发生的可能）小概率：

P≤0.05或P≤0.01

7假设检验：

先对总体的参数或分布作出某种假设，然后用适当的方法根据样本对总体提供的信息，运用“小概率原理”推断假设是否成立。

8假设检验两类错误：

Ⅰ型错误：

拒绝实际成立的H0（弃真）；Ⅱ型错误：

不拒绝实际不成立的H0（存伪）。

要同时降低犯两类错误的概率,唯一的办法就是增大样本含量进行观察.

9标准误：

是统计量（如样本均数、样本率）的标准差，

1反映样本均数间的离散程度

2反映样本均数与总体均数间的离散程度（即抽样误差的大小）。

10t分布：

从同一总体中抽出许多样本（n相同），就可得到许多t值，将这些t值绘成直方图，当样本数无限多时，就得到一条光滑的曲线，这就是t分布曲线，这种t值的分布就称为t分布。

11t界值表

临界值tα,ϒ【α=0.05（检验水准）ϒ=n-1（自由度）】

在t界值表中：

每一个t值都对应着一个P值；在相同自由度时，t值越大，概率P值越小；在相同自由度及相同t值时，双侧概率P值是单侧概率的两倍。

12检验假设：

一、建立假设，确定检验水准

1、检验假设（无效假设）H0：

µ1=µ2（或µd=0）

（备择假设）H1：

µ1≠µ2（或µd≠0）

µ1＜µ2（µd＜0）

2、检验水准α，它作为假设检验时预先确定的判断小概率事件的水准，以便由P值和α的关系决定是拒绝H0还是不拒绝H0作为判断小概率的标准，α常取0.05或0.01。

二、计算相应的检验统计量

根据设计的类型、资料的类型和分布情况、统计推断目的以及n的大小选用不同的检验方法，计算相应的检验统计量。

如完全随机设计实验中，两样本均数比较可计算统计量t值（即作t检验）。

三、确定P值，作出推断结论：

P值是指在H0所规定的总体（例如µ1=µ2）中作随机抽样，获得等于及大于（或等于及小于）现有样本统计量（如t值）的概率；亦即这种样本差异（）来自抽样误差的概率。

推断结论：

统计结论：

1对H0如何推断？

2对H1如何推断？

3对差异如何推断？

专业结论1正确；2明确；3符合医学逻辑

第一章

1医学统计学是运用概率论和数理统计的原理、方法,结合医学实践，研究医学数字资料的搜集、整理、推断的一门学科。

2科研设计包括专业设计和统计设计

3专业设计主要包括：

选题或立题，确定研究对象、处理因素、实验方法、实验材料和实验设备、实验效应（特异性指标）等。

4动物实验：

以动物或生物材料为研究对象，研究者对研究对象施加各种干预，比较不同干预间之效果。

5临床试验：

以病人为研究对象，研究者对研究对象施加各种干预，比较不同干预间之效果。

6实验设计三要素：

1处理因素2实验对象3实验效应

7设计内容：

确定统计分析方法、实验分组方法、样本含量估计、数据质量控制（误差和偏倚）等。

8设计原则：

1）对照原则

在均衡可比条件下进行实验组与对照组的对比，以真实反映处理因素的效应。

均衡可比性：

在各对比组中，除处理因素不同外，其他能够影响实验效应的主要非处理因素要尽量齐同一致。

具备三个条件：

（1）对等：

除处理因素外，对照组具备与实验组对等的一切因素。

（2）同步：

在研究过程中实验组与对照组始终同时进行。

（3）专设：

对照组为相应的实验组专门设置。

2）随机化原则

（1）随机抽样：

总体中的每一个观察单位都有同等机会进入样本。

（2）分组随机：

样本中的每一个受试对象都有同等机会进入处理组和对照组或进入各个处理组。

（3）顺序随机：

每一个受试对象按时间先后顺序接受处理的机会同等。

3）重复原则（确定样本含量原则）

在预实验或大量调查的基础上，以预先规定的检验水准（ᵊ）和检验效能（ᵝ）达到预期效果所需要的最少观察单位数。

（1）结论的重复:

实验效应必须具有可重复性

（2）样本含量的重复：

足够的观察单位数量（3）观察的重复：

同一观察动物多次观察

9统计设计目的：

确保专业设计布局合理、实验结果可靠

10分析资料：

1）统计描述：

对统计资料数量特征及分布特征进行描述研究和描述表达2）统计推断：

指根据样本信息（样本统计量）推断总体信息（总体参数）

11数值变量资料（计量资料）

对每个观察单位（观察对象）某个变量用定量的方法（仪器、实验）进行测量所得到的数值（有度量单位、可以是小数、连续性资料）。

12分类变量资料：

是将观察单位按某种属性或类别分组，然后计数各组观察单位的个数所得的数据（无度量单位、整数、离散性资料）

分类变量又可分为无序分类和有序分类两种情况：

1、无序分类变量资料（计数资料）

（1）二项分类：

按属性或类别分组时，分成对立的两种属性或类别；如阳性与阴性、有效与无效

（2）多项分类：

按属性或类别分组时，分成互不相容的几种属性或类别；如血型A型、B型、O型、AB型

2、有序分类变量资料（等级资料）：

将观察单位按某种属性的不同程度、档次或等级分类，然后清点各等级类别所得的观察单位数。

13有序分类变量资料与多项分类资料的区别：

各等级类别有程度上的差别（这种差别按顺序排列，任何两类别的排序不能替换）

*根据分析需要：

各类变量资料之间可以互相转化

第三章统计描述

第一节频数发布

1频数表:

频数（f）:

相同观察值（或观察结果）出现的次数

观察值及其相应的频数按一定顺序排列的表格.

2频数表编制步骤如下:

1）、求全距（R）:

本例R=Xmax－Xmin=3.62

最大值（Xmax=6.34）和最小值（Xmin=2.72）

2）、定组段数与组距:

组段指各组的起止范围;组数指组段的个数（用k）表示

样本量n大于100设10～15个组段

样本量n小于100设6～10个组段

组距（i）:

等距分组时i=R/k

3）、确定组限:

（1）每个组段的起点为下限,终止点为上限

（2）第一组段下限取等于或略小于Xmin的整数或方便数,其余各个组段依次累加I作下（3）第一组段包括最小值，最后组段包括最大值4）、划记各组段频数

3频数图:

直方图是以垂直条段代表频数分布的一种图形，条段的高度代表各组的频数，由纵轴标度，各组限由横轴标度，条段的宽度表示组距

4频数分布特征（两方面特征）

1）、集中趋势:

（图9—1）14～组段（居中组段）频数最多,其它组段的频数分布向其靠拢.

2）、离散趋势:

居中组段两侧的频数逐渐减少

5频数分布的类型

1、对称分布:

集中位置居中,两侧基本对称的频数分布

（1）正偏态:

特点是峰偏左（频数大多偏于数值小的左侧）,长尾向右侧伸延

（2）负偏态:

峰偏右（频数大多偏于数值大的右侧）,长尾向左伸延;（与正偏态相反）

6正态分布的特征

1、具有集中性、对称性和均匀变动性。

表现为以均数为中心，高峰位于中央，两侧逐渐下降并完全对称，曲线两端永远不与横轴相交；

第二节计量资料的统计描述

1.集中趋势描述

集中趋势：

指一个计量资料的大多数观察值所在的中心位置

平均数指标体系常用的有均数、几何均数、中位数

1）算术均数（均数）

特点：

对观察值进行数量上的平均，适用：

对称分布或正态分布的资料

2）几何均数

医学研究中有一类比较特殊的资料，其数据特点是观察值间按倍数或比例关系变化，如抗体滴度、细菌计数、血清凝集效价、某些物质的浓度等，对此类资料可计算几何均数来描述其平均水平，几何均数用G表示。

适用资料：

（1）等比级数资料（抗体滴度、细菌计数、血清凝集效价）

（2）对数正态分布资料（微量元素资料）

3）中位数（M）：

将一组观察值按大小顺序排列，位次居中的数值；

特点：

序数上的平均

适用

（1）偏态分布资料

（2）一端或两端无确切界值的开口资料

2.离散趋势

描述用以反映一组同质观察值的离散性或变异程度。

1）极差（R）：

用于反映个体变异的范围

1、未顾及全部数据间的变异，

2、例数越多，R可能越大。

（不稳定）

2）四分位数间距（Q，QR）：

上下四分位数之差

即Q=QU－QL

Q=P75－P25

（四分位数间距可以看成一半变量值的极差）

Q的主要用途：

（1）Q适用于任何分布的资料，结果比极差稳定，尤其适用于大样本偏态分布的资料。

（2）与M共同描述偏态分布资料的分布特征，简写成M（Q）；

（3）计算参考值范围（百分位数P2.5，P97.5的范围）

自由度的概念：

一定条件下能自由取值的变量个数。

以符号表示。

=N-限制条件个数

3）方差：

也叫均方，就是将离均差平方和再取平均，用S2或MS表示

4）标准差（符号s）：

即方差的算术平方根，这样就将方差中观察值的平方单位还原，便于比较，是常用的离散性指标；s越大，表示观察值的变异程度越大。

5）变异系数（CV）：

一组观察值的s与均数的百分比。

CV的主要用途：

（1）比较度量单位不同或均数相差悬殊时几组样本资料的离散性；

（2）评价精密度。

第三节、分类资料的统计描述

1相对数是两个有关的绝对数之比或者有联系的指标的比值，用于对计数资料进行统计描述。

2比（相对比）：

表示两个有联系的指标之比。

相对比=甲指标/乙指标

习惯上若甲指标大于乙指标，则用小数表示，说明甲是乙的几倍；若甲指标小于乙指标，则用百分数表示，说明甲是乙的百分之几

3比例：

说明某一事物内部各组成部分所占的比重或分布

4率：

说明在某一时段内某现象或事件发生的频率或强度

5相对危险度RR：

是暴露组发病率（死亡率、复发率等）与非暴露组发病率（死亡率、复发率等）之比。

说明暴露组发病或死亡是非暴露组的倍数，说明疾病与暴露之间的关联强度。

患病风险比PRR暴露于危险因素及未暴露于危险因素的患病率之比

相对危险度对暴露与疾病关联的意义

（1）RR＞1，说明暴露因素与疾病有“正”的关联，暴露越多，发病越多，是致病的危险因素；

（2）RR=1，说明暴露与疾病无关联；

（3）RR＜1，说明暴露因素与疾病有“负”的关联，暴露越多，疾病越少，具有保护意义。

6比数比（OR）是指某事物发生概率与不发生的概率之比。

OR数值的意义：

当OR=1时，表示暴露与疾病无关联；

当OR＞1时，说明暴露使疾病的危险度增加，称为“正”关联，暴露是疾病的危险因素；

当OR＜1时，说明暴露使疾病的危险度减少，称为“负”关联，即暴露因素对疾病有保护作用。

7标准化法的概念：

对两组或多组率进行比较，当其内部构成不同时，需要按统一的标准进行调整，使之具有可比性，称为标准化法。

用统一标准后计算的率，称为标准化率。

如年龄、性别、工龄、病性等有明显的不同时，则不能直接进行比较。

8卡方

（2）检验

2值的意义:

（1）2值小O与E相差足够小接受H0，拒绝H1

（2）2值大O与E相差足够大拒绝H0接受H1。

基本步骤

9卡方

（2）检验

（1）建立假设，确定检验水准

H0:

π1=π2即两药总体有效率相等

H1:

π1≠π2即两药总体有效率不等α=0.05。

（2）计算检验统计量

（3）确定P值，作出推断结论

P＜0.05，按α=0.05水准，拒绝H0，接受H1，差异有统计学意义。

A药物治疗急性下呼吸道感染有效率高于B药物。

10分析四格表资料可遵循以下原则：

1N≥40且E≥5时，宜用Pearson2检验

2N≥40且1≤E<5时，宜用校正2检验

3N<40或E<1或O=0时，宜用Fisher确切概率法

11配对四格表资料χ2检验

配对设计的四格表资料：

将含量为n的随机样本同时按照两个二项分类的属性进行交叉分类，检验两种属性间的阳性结果是否相等及有无关联。

用两种不同方法对53例肺癌患者进行诊断，资料如下：

两种方法检验结果是否不同及关联程度大小？

表8-5两种培养基的培养结果

甲法

乙法

合计

－

合计

（一）检验差异有无统计学意义

1、建立检验假设，确定检验水准：

H0：

两种方法的总体检出率相同

H1：

两种方法的总体检出率不同

α=0.05

2、计算检验统计量χ2值：

χ2=4.92

3、确定P值，做出推断结论：

查χ2界值表得χ2<χ20.05

（1）=3.84，P<0.05，按α=0.05水准拒绝H0，接受H1，差异有统计学意义，乙法阳性检出率高于甲法

（二）关联性分析

（1）建立假设，确定检验水准

H0:

两种方法结果无关联

H1:

两种方法结果有关联

α=0.05。

（2）计算检验统计量

2=15.37

（3）确定P值，作出推断结论

P＜0.05，按α=0.05水准，拒绝H0，接受H1，差异有统计学意义。

两种方法结果有关联。

度量关联大小的指标

Cramer氏V系数V=0.539（越接近于1，说明关联程度越大，关系越密切。

越接近于0，说明关联程度越小。

）

第三节行×列表资料的2检验

用三种穴位针刺治疗急性腰扭伤，比较其治疗效果？

（1）建立假设，确定检验水准

H0:

π1=π2=π3三种穴位针刺的总体治愈率相等

H1:

π1、π2、π3三种穴位针刺的总体治愈率不全相等

α=0.05。

（2）计算检验统计量

2=32.75

（3）确定P值，作出推断结论

P＜0.05，按α=0.05水准，拒绝H0，接受H1，差异有统计学意义。

三种穴位针刺治疗急性腰扭伤的治愈率不全相等。

（必要时做两两比较）

多个样本率的多重比较（两两比较）

Bonferroni法

1进行2分割，分割成多个四格表。

2对每一个四格表进行2检验

3计算校正检验水准ａ′

4以ａ′作为检验水准，作出推断结论

第七章两样本均数比较的假设检验-----比较差异----处理因素、抽样误差

第一节单样本均数t检验（样本均数与总体均数比较）

总体均数：

理论值、标准值或经大量观测所得的稳定值。

前提条件：

正态分布或大样本。

分析目的：

推断样本所代表的未知总体均数与已知的总体均数0是否相等（=0）。

资料类型：

（1）给定一个已知的总体均数和一个随机抽取的样本，

（2）该随机样本服从正态分布（若原数据是非正态分布，要通过数据变换使之服从正态分布）

第二节成对资料均数的t检验

成对（配对）比较的t检验适用于下列情况：

自身配对:

1同一受试对象处理前后的比较

2同一受试对象接受两种不同处理

异体配对：

3将两个受试者配成对子，施予两种不同处理

要求：

1配对资料（差值d符合正态分布）

2假设成对资料差数的总体均数为0（d=0），检验样本差数的均数与0之间差别有无显著性

第三节两独立样本均数t比较（成组t检验）

目的是推断两样本分别代表的两总体均数是否相等（u1=u2）。

1资料类型：

随机分组的两组资料，为独立样本

满足正态性和方差齐性

2假设检验步骤：

1.建立检验假设，确定检验水准

H0：

µ1=µ2H1：

µ1≠µ2ɑ=0.05

2.计算检验统计量

在μ=μ0成立的前提条件下，计算统计量为：

t=3.785

3.确定P值，做出推断结论

查t界值表t0.0518=2.101

P﹤0.05拒绝H0，接受H1，差异有统计学意义。

内毒素具有升高肌酐的作用。

第五节两样本的方差齐性检验（F检验）

一、两个方差的齐性检验

用检验比较两样本均数的差别，其先决条件之一是两总体方差相等，即

对于两样本方差不等是否由抽样误差所致，需用方差齐性检验（计算F值）

用F检验判断两总体的方差是否齐性？

1.建立检验假设，确定检验水准

H0：

σ21=σ22H1：

σ21≠σ22ɑ=0.05

2.计算检验统计量

F=1.13

3.确定P值，做出推断结论

查F界值表（Fɑ、V）F0.05（99）=4.03，P>0.05接受H0，拒绝H1，差异无统计学意义。

两组资料总体方差齐性

二．方差不齐时两样本均数的比较:

（1）可采用适当的变量变换，使之达到方差齐的要求，再作t检验

（2）作秩和检验

（3）作（近似t检验）

第五章方差分析（F检验）

1方差分析主要用途：

主要应用于两个或多个样本均数之间的差别比较。

目的是推断两个或多个总体均数之间是否有差别。

2方差分析的类型：

完全随机设计的方差分析、随机区组设计的方差分析；析因设计的方差分析；交叉设计的方差分析;拉丁方设计的方差分析；正交设计的方差分析；重复测量的方差分析；裂区设计的方差分析。

3方差分析的条件：

（1）各样本为相互独立的随机样本；

（2）各样本均来自正态总体；

（3）各处理组总体方差相等

4方差分析的应用：

（1）2个或多个样本均数的比较；

（2）方差齐性检验；

（3）回归方程的假设检验；

（4）多因素、多水平、有交互作用资料的方差分析

一、完全随机化设计的方差分析（单因素方差分析）

资料类型：

按一个处理因素的多个水平（水平数＞2）完全随机分组设计

1三个角度：

变异来源变异大小变异性质

1.总变异:

全部测量值大小不同，这种变异称为总变异。

总变异的大小可以用离均差平方和（SS）表示，即各测量值Xij与总均数差值的平方和，记为SS总。

总变异SS总反映了所有测量值之间总的变异程度。

2．组内变异：

在同一处理组中，虽然每个受试对象接受的处理相同，但测量值仍各不相同，这种变异称为组内变异（误差）。

组内变异可用组内各测量值Xij与其所在组的均数的差值的平方和表示，记为SS组内,（抽样误差。

）

3．组间变异：

各处理组由于接受处理的水平不同，各组的样本均数（i＝1，2，…，g）也大小不等，这种变异称为组间变异。

组间变异用各组均数与总均数的离均差平方和表示，记为SS组间。

（处理因素+抽样误差）

2均方差，均方（meansquare，MS）：

3检验统计量：

4假设检验步骤

1）提出假设检验，确定检验水准

2）计算统计量

变异来源

组间

7119.994

3559.997

106.968

<0.05

组内

1098.275

33.281

总变异

8218.269

（3）确定P值，做出推断结论

P<0.05，拒绝H0，接受H1，差异有统计学意义。

不同剂量的郁金下急性缺血小鼠存活时间不全相同。

5多个样本均数的多重比较（两两比较）在多个样本均数的比较中，如果经方差分析得P<0.05，只能说明各总体均数不同或不完全相同，要了解具体是哪两个总体均数不同，还需要做两两比较。

常用的两两比较方法是q检。

。

1、建立假设，确定检验水准

H0：

µA=µBH1：

µA≠µBα=0.05

2、计算检验统计量：

q检验计算表

对比组

两均数之差

q值

对比组包含的组数

q临界值0.05

P值

1与3

34.1084

20.481

3.49

<0.05

1与2

12.8750

7.731

2.89

<0.05

2与3

21.2334

12.750

2.89

<0.05

3、确定P值，做出推断结论：

各对比组均拒绝H0，接受外H1，差异有统计学意义。

C组小鼠存活时间大于A、B组，B组小鼠存活时间大于A组。

6多个样本均数的比较不能用t检验代替方差分析；若用t检验进行多个样本均数比较，会增大犯І型错误的概率。

第三节随机区组设计资料的方差分析

1含义：

它是按照一定的条件（影响试验结果的非处理因素:

如性别、体重、年龄、职业、病情、病程等），将几个条件相同的受试对象划成一个配伍组或分区，然后在每个区组内部按随机原则，将每个受试对象分配到各组，对每组分别予以不同处理，然后对其结果进行方差分析。

------是配对设计的扩展

例如：

假设体重是能够影响实验效应的最重要的非研究因素，做为

区组因素做随机区组设计。

2特点：

①配伍组设计属于两因素设计：

a处理因素b配伍因素（区组因素）

②划分区组，实际是分层，因而组间均衡好，抽样误差较小，实验效率较高。

③在样本分配上，各处理组的样本含量相等，每个区组所含的受试对象例数与处理组数相等。

3应用范围

凡实验目的是回答2种因素（处理因素、配伍组因素）各自的差异有无统计学意义，可采用配伍组设计。

注意事项

1第一因素应当安排该研究的主要因素。

2总的原则是必须将对实验结果有明显影响的非处理因素列为划分组的条件，要求区组间差异越大越好，区间组内差异越小越好。

3若每个区组为同一受试对象时，处理之间应有足够的间隔期。

4变异分解

（1）总变异：

反映所有观察值之间的变异,记为SS总。

（2）处理间变异：

由处理因素的不同水平作用和随机误差产生的变异，记为SS处理。

（3）区组间变异：

由不同区组作用和随机误差产生的变异，记为SS区组.

（4）误差变异：

完全由随机误差产生的变异，记为SS误差。

对总离均差平方和及其自由度的分解，有:

5假设检验

1、建立假设，确定检验水准

处理间

H0：

µSL=µSH=µTL=µTH

H1：

µSL、µSH、µTL、µTH不全相等

区组间

H0：

µ1=µ2=µ3。

。

=µ7

H1：

µ1、µ2、µ3。

。

µ7不全相等

α=0.05

2计算检验统计量

变异

总变异

18.04

处理变异

区组变异

16.1175

1.0952

5.3725

0.1825

116.895

3.97

P<0.01

P<0.05

误差变异

0.8273

0.0460

3.确定P值，作出推断结论：

1处理因素：

拒

展开阅读全文