医学统计复习提纲Word文档格式.docx

资源描述

医学统计复习提纲Word文档格式.docx

《医学统计复习提纲Word文档格式.docx》由会员分享，可在线阅读，更多相关《医学统计复习提纲Word文档格式.docx（14页珍藏版）》请在冰豆网上搜索。

医学统计复习提纲Word文档格式.docx

如按血压测量值大小将血压分为低血压、正常、高血压，从而按分类变量处理。

四、基本概念

1、总体：

根据研究目的确定的同质观察单位的全体。

有限总体？

无限总体？

2、样本：

从总体中随机抽取部分观察单位实测值的集合。

3、同质：

是指具有某些相同因素的个体，而这些因素会对研究指标产生影响（如同一地区、同一年份、同一性别等）。

4、变异是指在同质的基础上各观察值之间的差异。

个体差异来源于一些未加控制或无法控制，甚至不明因素所致的随机误差。

5、变量（variable）：

亦称研究因素或指标，是观察单位的某项属性或特征，由研究目的所确定。

例如体重、白细胞计数、血红蛋白、性别，等。

6、变量值（valueofvariable）亦称观察值（observedvalue）和资料（data）：

是变量的观察结果。

7、参数：

用于描述总体特征的指标，由总体观察值计算而来。

8、统计量：

用于描述样本特征的指标，由样本观察值计算而来。

定量资料的统计描述

一、频数、频数分布、频数表

1、频数：

将原始资料进行分组，每一组的事件数即称为该组频数。

如原始资料为分类资料，则按性质类别进行分组；

如原始资料为计量资料，则按变量值区间来分组。

2、频数分布：

原始资料落在各数据组的分布情况

3、频数表：

将各数据组及其相应的事件数用表格的形式列出来。

4、频数表的用途

（1）揭示资料的分布特征和分布类型

（2）便于进一步计算和分析

（3）便于发现某些特大或特小的可疑值

5、频数表的制作步骤

（1）求极差

（2）定组数、组距及各组段的上、下限（n≈30，分5~6组；

n＞100，分10组左右）。

确定第一组下限时应考虑：

便于分组、计算；

第一组应包括最小值，最后一组应包括最大值。

（3）归组

6、计量资料频数分布的两个特征：

集中趋势？

离散趋势？

7、频数分布的类型：

对称分布？

偏态分布？

二、集中趋势的描述

1、算术均数（简称均数）：

适用于对称分布，特别是正态分布。

2、几何均数：

等比资料如抗体滴度；

对数正态分布资料。

3、中位数：

偏态分布资料；

分布不明资料；

开口资料。

三、离散程度的描述

1、极差：

样本含量相差较大时，不宜用极差比较分布的离散程度。

2、四分位数间距：

P75-P25，描述偏态分布资料的离散趋势，常与中位数结合使用。

3、方差：

多用于假设检验中。

4、标准差：

描述正态或近似正态分布资料的离散趋势，常与均数结合使用。

它主要用于：

（1）说明观察值变异程度的大小，两组观察值均数相近，单位相同时，S越大变异程度越大。

（2）与均数一起描述正态分布资料的特征

（3）计算变异系数

（4）计算标准误

定性资料的统计描述

1.常用的三类相对数及使用的注意事项

统计表与统计图

1.绘制统计表的原则

2.常用的统计图的用途

常用概率分布

一、二项分布的条件、特征及和泊松分布、正态分布的关系。

二、泊松分布的特征。

三、正态分布的概念和特征

1、正态分布的概念：

它是以均数为中心的对称的钟型分布

2、正态分布的两个参数：

均数（集中趋势位置）和标准差（离散程度）

3、正态曲线下面积分布规律：

-1σ到+1σ68.27%；

-1.96σ到+1.96σ95.00%；

-2.58σ到+2.58σ99.00%

二、标准正态分布

为便于描述和应用，将服从正态分布的随机变量作数据变换。

设u=（X-μ）/σ，则u的均数等于0，标准差等于1，即将μ的位置移到原点，横轴尺度以σ为单位，这样将正态分布变换为标准正态分布。

u值又称为标准正态离差。

三、正态分布的主要应用

1、估计频数分布

习题1.1（4）估计该地30~49岁健康男子血清胆固醇小于4.50mmol/L的概率

u=（4.50－4.7351）/0.8816=－0.27，概率为0.3936，即39.4%

2、制定参考值范围

指标过大和过小均异常定双侧；

仅过小异常定单侧下限（如肺活量）；

仅过大异常定单侧上限（如尿铅含量）

正态分布法用于服从正态分布的指标；

百分位数法用于不服从正态分布的指标。

参数估计基础

一、均数的抽样误差与标准误

1、抽样误差：

由个体变异产生，抽样造成的样本统计量与总体参数的差异。

2、中心极限定理：

从正态总体中随机抽取例数为n的样本，样本均数也服从正态分布；

即使从偏态总体中抽样，当n足够大（如n>

50），样本均数也近似正态分布。

（了解）

3、标准误：

反映样本均数间的离散程度，样本均数与总体均数的差异，说明均数抽样误差的大小。

标准误越小，表示抽样误差越小，则统计量越稳定，与参数越接近。

注意跟标准差的区别

二、t分布

1、概念：

当总体标准差未知时，可作正态变量

的t转换:

2、t分布与标准正态分布的联系：

t分布只有1个参数：

自由度（=n-1）。

逐渐增大时，t分布逐渐逼近标准正态分布。

当=∝时，t分布就完全成为标准正态分布了。

3、t界值表的使用：

对于相同的自由度，值愈小，t,值愈大；

对于相同的值，自由度愈大，t,值愈小。

三、总体均数的估计

参数估计：

指用样本指标值（统计量）估计总体指标值（参数）。

1、点（值）估计：

用样本均数估计总体均数。

但未考虑抽样误差。

2、区间估计：

按预先给定的概率（1－α）确定包含未知总体均数的可能范围。

可信度（1-）和可信限（可信区间的两个端点值）的概念？

总体均数的1-可信区间为：

95%可信区间（confidenceinterval）的含义：

有95%的可能认为计算出的可信区间包含了总体参数。

可信区间的可信度和精密度：

99%（范围宽，可信度高，但精密度差）和95%可信区间的比较。

注意和参考值范围区分。

假设检验

1、假设检验的步骤

（1）建立检验假设（H0,H1）和确定检验水准（）

（2）选定检验方法和计算检验统计量

（3）确定P值和作出统计学推断

统计结论：

（两种药物疗效）的差别有（或无）统计学意义。

专业结论：

可认为…不同；

尚不能认为…不同；

甲药疗效优于乙药，尚不能认为两药疗效有差别，等。

2、假设检验的基本原理

要检验两样本均数的差异是由于抽样误差引起，还是由于总体均数不同所致，运用反证法。

首先建立检验假设，假设样本来自同一总体，然后在假设的基础上计算统计量，根据统计量的大小来判断假设成立的概率有多大，当假设成立的概率较大时就不拒绝该假设，当假设成立的概率较小时就拒绝该假设。

3、t检验的用途，适用什么类型的资料

1）单样本t检验（One-samplettest）。

2）配对t检验（Paired-samplesttest）

配对设计主要有以下情形

两个同质受试对象分别接受两种不同的处理

同一受试对象分别接受两种不同的处理

同一受试对象处理前后

应用条件：

要求“差数”服从正态分布

3）两样本t检验（Independent-samplesttest）。

要求两个正态总体方差相等，特别是在样本含量较小时（如n1和n2均小于50）。

4、Ⅰ型错误和Ⅱ型错误

Ⅰ型错误（α）：

拒绝了实际上是成立的H0

Ⅱ型错误（β）：

不拒绝了实际上是不成立的H0

α的β关系：

α小，β大；

α大，β小；

同时减少，只有增加n

1-β：

检验效能，指两总体确有差别，按β水准能发现它们有差别的能力。

5、假设检验时应注意的问题（P越小，是否代表差异越大；

P和α的区别）

6、可信区间与假设检验的区别和联系（了解）

1）可信区间亦可回答假设检验的问题：

如可信区间包含了H0，则……？

2）可信区间比假设检验可提供更多的信息

3）可信区间只能在检验水准α的前提下进行计算（即只能知道P值是否小于α，如0.05），而假设检验能够获得确切的概率P值。

方差分析

一、完全随机设计方差分析

完全随机设计方差分析的总变异分几部分？

F值是与的比值？

如各样本均数来自同一总体，则F值理论上等于。

若各样本均数不是来自同一总体，则变异会增大，F值将明显于1。

二、随机区组方差分析

1、随机区组方差分析的总变异分为几部分？

由于从总变异中分离出变异，减少了个体差异对研究结果的影响，一般而言，较成组设计更容易检验出处理组间的差别，提高了检验效率。

2、区组效应是否具有统计学意义是重要的，它表明了区组的划分是否成功。

如区组效应有统计学意义，可提高检验效率；

如区组效应无统计学意义，则并不能提高检验效率，甚至有可能降低检验效率。

因此，并非任何场合划分区组都好。

若没有足够理由显示不同区组间差别确有统计学意义，则宁可不分

三、方差分析对数据的基本假设

1、任何两个观察值之间均不相关。

2、每一水平下的观察值Xij分别服从总体均数为μi的正态分布。

3、各总体的方差相等。

四、两两比较及其SAS实现

2检验

1、2检验用于解决哪些问题？

2、四格表资料2检验的应用条件？

（1）基本公式：

应用条件为n≥40，T≥5。

（2）校正公式：

应用条件为n≥40，1≤T<

5。

（3）确切概率法：

应用条件为n<

40，或T<

1。

3、配对四格表资料的2检验：

掌握计算方法

4.行×

列表2检验时的注意事项（了解）

（1）当有1/5及以上格子的理论频数T<

5，或有1个格子T<

1时，应该与相邻组合并（但要合理），或增加样本例数。

（2）结论为拒绝H0,是认为各总体率不等或不全相等（其中至少有两个总体率不等）。

（3）若结局变量为单向有序行列表，当等级数大于3时，一般用秩和检验分析更为适宜。

秩和检验

1、参数统计与非参数统计

参数统计：

通常要求样本来自的总体分布型是已知的（如正态分布），在这种假设的基础上，对总体参数进行估计和检验。

非参数统计：

不依赖总体分布类型，也不对总体参数进行推断的假设检验。

2、非参数统计的假设检验（编秩次的方法要掌握）

（1）配对设计差值的符号秩和检验

H0：

差值总体中位数Md=0

H1：

Md≠0

（2）成组设计两样本比较的秩和检验

两总体分布相同

两总体分布不相同

（3）多个样本比较的秩和检验（以3组为例）

三个总体分布相同

三个总体的位置不同或不全相同

3、非参数统计的优缺点

优点：

不受总体分布的限制，适用范围广。

缺点：

没有充分利用资料提供的信息。

适用参数检验条件的资料，应首选参数检验

4、非参数统计的适用情况

（1）等级资料；

（2）偏态分布；

（3）分布不明；

（4）个别数据偏离过大；

（5）各组方差明显不齐

5、判断资料分布类型的途径

（1）据文献或以往经验；

（2）频数表；

（3）正态性检验

（4）若测定值（都是正值）服从正态分布，则一般来说，标准差s不会大于均值，更不会是均值的若干倍。

两变量关联性分析

1、直线相关的概念：

如不要求由X估计Y，而关心的是两个变量间是否确有直线相关关系，如有直线相关关系，那么相关的方向和程度如何？

资料要求：

X、Y服从双变量正态分布。

2、相关系数的意义：

用r表示。

描述两个变量直线相关的方向和紧密程度。

r的取值范围：

-1≤r≤1。

0为正相关,r<

0为负相关,|r|愈接近1，说明两变量关系愈密切。

总体相关系数用ρ表示

3、相关系数的假设检验：

即使X、Y的总体相关系数ρ为零，但由于抽样误差，其样本相关系数r也不一定为零，因此需作ρ是否为零的假设检验。

r和b的假设检验是等价的。

4、秩相关的应用

5、分类变量关联性：

注意和普通的四格表卡方检验或配对卡方检验在应用上的区别。

后者推断的是率或构成比的差别，前者推断的是两个属性的关联性，所以假设检验不同，推断的结论不同，计算公式也可能不同。

简单回归分析

1、直线回归的概念和应用条件：

研究随机变量和选定变量或两个随机变量的依存关系。

用X表示自变量，Y表示应变量。

Y有随X增加而增大趋势，且散点图呈直线趋势，但并非每个散点都在一直线上。

这与两变量间严格对应的函数关系不同，称为直线回归。

最小二乘法的原理。

做回归分析的步骤过程。

2、直线回归方程的一般表达式？

表达式中各项的统计学意义？

回归系数假设检验的无效假设？

3、SS总、SS回和SS剩的关系和意义

SS总=SS回+SS剩

SS总：

Y的离均差平方和，又称总平方和，说明未考虑X与Y的回归关系时Y的变异。

SS回：

回归平方和，它反映在总平方和中可以用X解释的部分。

SS回越大，说明回归效果越好。

SS剩：

剩余平方和，反映在总平方和中无法用X解释的部分。

7、直线回归与相关的区别

（1）资料要求上：

回归要求因变量Y服从正态分布，自变量X可以选定，也可以服从正态分布；

相关要求两个变量服从双变量正态分布。

（2）应用上：

说明两变量间的依存关系用回归，相关关系用相关。

（3）意义上：

b表示X每增（减）一个单位，Y平均改变b个单位，r说明具有直线关系的两个变量间相关关系的密切程度与相关方向。

9、直线回归与相关的联系

（1）b和r的正负号一致，

（2）假设检验等价（tr=tb）

（3）用回归解释相关，决定系数r2=SS回/SS总。

例如：

r=0.20,n=100时，可按检验水准0.05拒绝H0，接受H1，认为两变量有相关关系。

但r=（0.20）2=0.04，表示回归平方和在总平方和中仅占4%，说明两变量间的相关系数实际意义不大。

10、应用直线回归和相关分析时应注意的问题（了解）

（1）不能把毫无关联的两种现象作相关与回归分析。

（2）散点图有助于判断观察点的分布（直线趋势或曲线趋势？

），还能提示资料又无可疑异常点。

（3）直线回归方程的实用范围一般以自变量的取值范围为限，应避免外延。

（4）要推断两变量间相关的紧密程度，样本含量必须很大，如n>

100。

（5）相关关系不一定是因果关系，也可能是伴随关系。

（6）不服从双变量正态分布的两个随机变量，若要作相关分析，可计算等级相关系数。

实验设计

1、调查研究和实验研究的主要区别何在？

干预性的措施

2、实验设计的三个基本原则？

3、为何要设立对照？

常用对照的种类和适用情况？

4、实验设计的三个基本要素？

5、确定研究对象适宜选入标准时应注意的问题？

6、常用的实验设计方法？

调查设计

1、调查研究的主要特点？

2、常用的调查方法？

3、常用的概率抽样方法的有哪些？

展开阅读全文