常用医学统计学方法汇总.docx

资源描述

常用医学统计学方法汇总.docx

《常用医学统计学方法汇总.docx》由会员分享，可在线阅读，更多相关《常用医学统计学方法汇总.docx（11页珍藏版）》请在冰豆网上搜索。

常用医学统计学方法汇总.docx

常用医学统计学方法汇总

选择合适得统计学方法

1连续性资料

1、1两组独立样本比较

1、1、1资料符合正态分布,且两组方差齐性,直接采用t检验。

1、1、2资料不符合正态分布，

（1）可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后得数据采用t检验；

（2）采用非参数检验,如Wilcoxon检验。

1、1、3资料方差不齐，

（1）采用Satterthwate得t'检验；

（2）采用非参数检验,如Wilcoxon检验。

1、2两组配对样本得比较

1、2、1两组差值服从正态分布，采用配对t检验。

1、2、2两组差值不服从正态分布，采用wilcoxon得符号配对秩与检验。

1、3多组完全随机样本比较1、3、1资料符合正态分布，且各组方差齐性，直接采用完全随机得方差分析。

如果检验结果为有统计学意义，则进一步作两两比较，两两比较得方法有LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。

1、3、2资料不符合正态分布，或各组方差不齐，则采用非参数检验得Kruscal－Wallis法。

如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用成组得Wilcoxon检验。

1、4多组随机区组样本比较1、4、1资料符合正态分布，且各组方差齐性，直接采用随机区组得方差分析。

如果检验结果为有统计学意义，则进一步作两两比较，两两比较得方法有LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。

1、4、2资料不符合正态分布，或各组方差不齐，则采用非参数检验得Fridman检验法。

如

果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用符号配对得Wilcoxon检验。

****需要注意得问题：

（1）一般来说，如果就是大样本，比如各组例数大于50，可以不作正态性检验，直接采

用t检验或方差分析。

因为统计学上有中心极限定理，假定大样本就是服从正态分布得。

但不同设计会有

（2）当进行多组比较时，最容易犯得错误就是仅比较其中得两组，而不顾其她组，这样作容易增大犯假阳性错误得概率。

正确得做法应该就是，先作总得各组间得比较，如果总得来说差别有统计学意义，然后才能作其中任意两组得比较，这些两两比较有特定得统计方法，如上面提到得LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。

**绝不能对其中得两组直接采用t检验，这样即使得出结果也未必正确**

3）关于常用得设计方法：

多组资料尽管最终分析都就是采用方差分析，

差别。

常用得设计如完全随即设计，随机区组设计，析因设计，裂区设计，嵌套设计等。

2．分类资料

2、1四格表资料

2、1、1例数大于40，且所有理论数大于5，则用普通得Pearson检验。

2、1、2例数大于40，所有理论数大于1，且至少一个理论数小于5，则用校正得检验或Fisher'确s切概率法检验。

2、1、3例数小于40，或有理论数小于2，则用Fisher'确s切概率法检验。

2、22×C表或R×2表资料得统计分析

2、2、1列变量＆行变量均为无序分类变量，则

（1）例数大于40，且理论数小于5得格子

数目<总格子数目得25％，则用普通得Pearson检验。

（2）例数小于40，或理论数小于5得格子数目>总格子数目得25％，则用Fisher'确s切概率法检验。

2、2、2列变量为效应指标，且为有序多分类变量，行变量为分组变量，用普通得Pearson检验只说明组间构成比不同，如要说明疗效，则可用行平均分差检验或成组得Wilcoxon秩与检验。

2、2、3列变量为效应指标，且为二分类变量，行变量为有序多分类变量，则可采用普通得

Pearson检验比较各组之间有无差别，如果总得来说有差别，还可进一步作两两比较，以说明就是否任意两组之间得差别都有统计学意义。

2、3R×C表资料得统计分析

2、2、1列变量＆行变量均为无序分类变量，则

（1）例数大于40，且理论数小于5得格子

数目<总格子数目得25％，则用普通得Pearson检验。

（2）例数小于40，或理论数小于5得格子数目>总格子数目得25％，则用Fisher'确s切概率法检验。

（3）如果要作相关性分析，可采用Pearson相关系数。

2、2、2列变量为效应指标，且为有序多分类变量，行变量为分组变量，用普通得Pearson检验只说明组间构成比不同，如要说明疗效或强弱程度得不同，则可用行平均分差检验或成组得Wilcoxon秩与检验或Ridit分析。

2、2、3列变量为效应指标，且为无序多分类变量，行变量为有序多分类变量，则可采用普通得Pearson检验比较各组之间有无差别，如果有差别，还可进一步作两两比较，以说明就是否任意两组之间得差别都有统计学意义。

2、2、4列变量＆行变量均为有序多分类变量，

（1）如要做组间差别分析，则可用行平均分差检验或成组得Wilcoxon秩与检验或Ridit分析。

如果总得来说有差别，还可进一步作两两比较，以说明就是否任意两组之间得差别都有统计学意义。

（2）如果要做两变量之间得相关

性，可采用Spearson相关分析。

2、4配对分类资料得统计分析

2、4、1四格表配对资料，

（1）b＋c>40，则用McNemar配对检验。

（2）b＋c<40，则用校正得配对检验。

2、4、1C×C资料，

（1）配对比较：

用McNemar配对检验。

（2）一致性检验，用Kappa检验。

在SPSS软件相关分析中,pearson（皮尔逊）,kendall（肯德尔）与spearman（斯伯曼/斯皮尔曼）三种相关分析方法有什么异同两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析得适用条

件时，使用Spearman秩相关系数来描述、

Spearman相关系数又称秩相关系数，就是利用两变量得秩次大小作线性相关分析，对原始变量得分布不作要求，属于非参数统计方法，适用范围要广些。

对于服从Pearson相关系数得数据亦可计算Spearman相关系数，但统计效能要低一些。

Pearson相关系数得计算公式可以完全套用Spearman相关系数计算公式，但公式中得x与y用相应得秩次代替即可。

Kendall'stau-b等级相关系数：

用于反映分类变量相关性得指标，适用于两个分类变量均为有序分类得情况。

对相关得有序变量进行非参数相关检验；取值范围在-1-1之间，此检验适合于正方形表格；计算积距pearson相关系数，连续性变量才可采用;计算Spearman秩相关系数，适合于定序变量或不满足正态分布假设得等间隔数据;计算Kendall秩相关系数，适合于定序变量或不满足正态分布假设得等间隔数据。

计算相关系数：

当资料不服从双变量正态分布或总体分布未知，或原始数据用等级表示时，宜用spearman或kendall相关

Pearson相关复选项积差相关计算连续变量或就是等间距测度得变量间得相关分析

Kendall复选项等级相关计算分类变量间得秩相关，适用于合并等级资料Spearman复选项等级相关计算斯皮尔曼相关，适用于连续等级资料注：

1若非等间距测度得连续变量因为分布不明-可用等级相关/也可用Pearson相关，对于完全等级离散变量必用等级相关

2当资料不服从双变量正态分布或总体分布型未知或原始数据就是用等级表示时,宜用

Spearman或Kendall相关。

3若不恰当用了Kendall等级相关分析则可能得出相关系数偏小得结论。

则若不恰当使用，可能得相关系数偏小或偏大结论而考察不到不同变量间存在得密切关系。

对一般情况默认数据服从正态分布得，故用Pearson分析方法。

在SPSS里进入Correlate－》Bivariate，在变量下面CorrelationCoefficients复选框组里有3个选项：

Pearson

Kendall'stau-b

Spearman：

Spearman

spearman（斯伯曼/斯皮尔曼）相关系数斯皮尔曼等级相关就是根据等级资料研究两个变量间相关关系得方法。

它就是依据两列成对等级得各对等级数之差来进行计算得，所以又称为“等级差数法”斯皮尔曼等级相关对数据条件得要求没有积差相关系数严格，只要两个变量得观测值就是成对得等级评定资料，或者就是由连续变量观测资料转化得到得等级资料，不论两个变量得总体分布形态、样本容量得大小如何，都可以用斯皮尔曼等级相关来进行研究

Kendall's相关系数

肯德尔（Kendall）W系数又称与谐系数，就是表示多列等级变量相关程度得一种方法。

适用这种方法得数据资料一般就是采用等级评定得方法收集得，即让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物。

等级评定法每个评价者对N件事物排出一个等级顺序，最小得等级序数为1，最大得为N，若并列等级时，则平分共同应该占据得等级，如，平时所说得两个并列第一名，她们应该占据1，2名，所以它们得等级应就

是1、5,又如一个第一名，两个并列第二名，三个并列第三名，则它们对应得等级应该就是1,2、5,2、5,5,5,5,这里2、5就是2,3得平均，5就是4,5,6得平均。

肯德尔（Kendall）U系数又称一致性系数，就是表示多列等级变量相关程度得一种方法。

该方法同样适用于让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物所得得数据资料，只不过评定时采用对偶评定得方法，即每一次评定都要将N个事物两两比较，评定结果如下表所示，表格中空白位（阴影部分可以不管）填入得数据为：

若i比j好记1，若i比j差记0，两者相同则记0、5。

一共将得到K张这样得表格，将这K张表格重叠起来，对应位置得数据累加起来作为最后进行计算得数据，这些数据记为γi。

正态分布得相关检验对来自正态总体得两个样本进行均值比较常使用T检验得方法。

T检验要求两个被比较得样本来自正态总体。

两个样本方差相等与不等时用得计算T值得公式不同。

进行方差齐次性检验使用F检验。

对应得零假设就是：

两组样本方差相等。

P值小于0、05说明在该水平上否定原假设，方差不齐；否则两组方差无显著性差异。

U检验时用服从正态分布得检验量去检验总体均值差异情况得方法。

在这种情况下总体方差通常就是已知得。

虽然T检验法与U检验法所解决得问题大体相同，但在小样本（样本数n）=30作为大样本）且均方差未知得情况下就不能用U检验法了。

均值检验时不同得数据使用不同得统计量

使用MEANS过程求若干组得描述统计量，目得在于比较。

因此必须分组求均值。

这就是与

One-SampleTTest单样本T检

Descriptives过程不同之处。

检验单个变量得均值就是否与给定得常数之间存在差异，用验过程。

检验两个不相关得样本就是否来自来具有相同均值得总体，用Independent-SamplesTtest独立样本t检验过程。

如果分组样本不独立，用PairedSampleTtest配对t检验。

如果分组不止两个，应使用One-WayANOVO一元方差分析（用于检验几个独立得组，就是否来自均值相等得总体）过程进行单变量方差分析。

如果试图比较得变量明显不服从正态分布，则应该考虑使用一种非参数检验过程Nonparametrictest、

如果用户相比较得变量就是分类变量，应该使用Crosstabs功能。

当样本值不能为负值时用右侧单边检验

医学科研中常用医学统计学方法

统计学就是一门透过同质事物得变异性、揭示内在事物规律性与实质性得科学，确切地讲，就是一门关于客观数据分析得科学，研究数据得收集、整理与分析，包括理论与应用两个方面。

医学应用统计学，侧重于实际应用，就是在传承与借鉴传统医学统计学“理论·原理·公式·应用”模式基础上，创造性地以“目得·数据库一变量类型一变量间关系”模式为指导得统计学。

它遵循简单实用得原则，力避复杂得数学原理与公式推导，以解决实际问题为导向，以建立统计数据库、分清变量类型为基础，以分析变量与变量间关系为核心阐述统计学分析方法，对于广大医学科研工作者，具有内容简单、思维明确、操作可行、方法实用得特点。

因此，学好用好医学应用统计学需要掌握如下一些基本方法。

一、明确研究目得与研究设计研究目得就是研究设计得目标与方向，科学研究得基本要素及其基本原则就是科研设计得基础与指南。

完整得科研设计包括专业设计与统计设计两部分：

专业设计就是指课题得实际意义与研究价值，入选对象得诊断标准、纳入标准及排除标准等，决定研究课题得先进性与实用性；统计设计包括选择研究类型与设计方案，确定研究总体、样本量、观察指标、随机化分组或抽样方法，以及数据得质量控制与统计分析方法等，影响课题得可信度与科学价值。

因此，正确得统计学分析一定要建立在明确得研究目得与研究设计得基础之上，那些事先没有研究目得与研究设计，事后找来一堆数据进行统计分析都就是不可取得。

在医学论文得撰、编、审、读过程中经常遇到得问题就是研究得题目与课题设计、论文内容不符，包括文章得方法解决不了论文得目得、文章得结果说明不了论文得题目、文章得讨论偏离了论文得主题；还有就是目得不明确、设计不合理。

如题目过小，论文不够字数，而一些无关紧要得变量指标或结果被分析被讨论；又如题目过大，论文得全部内容不足以说明研究得目得，使论文得论点难以立足。

所以，合理明确得论文题目或目得以及研究设计方案就是撰、编、审、读者应当关注得首要

问题。

此外，样本含量就是否满足，抽样就是否随机，偏倚就是否控制等，也就是不可忽视得问题。

二、建好分析用得数据库数据库即存放数据得“仓库”，就是指将不同研究对象不同观测指标得观察结果逐一有序记录得二维表格形式。

二维表中除第一行属于观察指标外，其余每一行代表一个观察对象得所有观察指标值（即数据）；每一列代表某项观察指标所有观察对象得观察值。

严格得数据库数据可以直接应用相关软件进行统计分析。

由于不同软件对文字存在可识别性问题，一般在统计分析时要求数据库得数据值全部用阿拉伯数字表示，必要时可在适当位置附加批注。

对于论文作者来讲，统计分析需要借助于统计分析软件计算，而统计分析软件都要有完整、符合要求得数据或数据库，所以建好分析数据库就是统计分析得需要。

此外，建好分析数据库还可以理清分析思路。

在试验或调查研究中获取得数据有时多而零散，如果不能进行科学得整理汇总，就会显得杂乱无章，理不清头绪，抓不住要点，甚至无所适从，最后可能束之高阁、弃之不用，造成数据得极大浪费。

相反，建好数据库，可以使观察对象得研究指标一目了然，使研究思路清晰明确。

因此，建好数据库就是正确统计分析得前提与基础，甚至决定了论文分析结果得成败。

对于编、审、读者来讲，一般由于篇幅得限制，往往得不到数据库数据，而只有作者在数据库数据基础上经统计描述计算后给出得诸如各指标均数x、标准差s或中位数M、百分位数Px得“二手”数据，或将研究对象得某一指标按其数值大小或特征属性分组，清点各组观察单位出现得个数或频数得频数表数据等。

无论就是否能够得到数据库数据，作者在统计分析过程中一定依据数据库数据进行计算，得出结果。

如果对“二手”数据或频数表数据得结果等存在疑惑，编辑、审稿专家或读者有权要求作者提供数据库数据以检查其完整性、准确性与真实性，确保研究数据得质量。

假若在投稿须知中对数据库数据作出必要得要求，无疑对于保证刊物得发表质量有着积极得意义。

三、分清楚指标（或变量）得性质与类型指标，即观察指标，就是由研究目得确定得观察对象得内在属性特征或其相关得影响因素。

例如，需要研究本体感觉训练对脑卒中偏瘫患者运动功能（本体感觉、平衡功能）得影响，那么本体感觉、平衡功能反映了脑卒中偏瘫患者运动功能得特征，分别称为研究得本体感觉指标、平衡功能指标，影响本体感觉与平衡功能得有关因素，比如年龄、性别、病种、病程等，称为研究得年龄指标、性别指标、病种指标与病程指标。

变量即观察变量，也称变化得量，实际上就就是观察指标，一般特指用于数学、统计或软件计算得分析指标。

例如，脑卒中偏瘫患者运动功能得本体感觉、平衡功能指标，在统计计算时，分别称为本体感觉变量与平衡功能变量。

按变量就是否影响其它变量或就是否受到其它变量得影响有影响变量与结果变量之分。

影响变量，也称自变量，就是指自身变化并影响结果变量变化得量；结果变量，又称因变量，就是指随影响变量变化而变化得量，瞧作就是影响变量变化得结果。

如果分析康复训练对冠心病患者有氧运动功能得影响，那么康复训练可瞧作就是影响变量，有氧运动功能则为结果变量；如果分析不同性别之间冠心病患者有氧运动功能就是否存在统计学差异，那么性别就是影响变量，有氧运动功能就是结果变量。

分清楚变量得性质，即什么就是结果变量、什么就是影响变量，就是选择统计分析方法得第一步。

一般而言，那些相对固有得、不易改变得特征（如性别、籍贯等）或易于被人控制得处理因素（如实验分组、疫苗接种与否等）作为影响变量或影响因素；而那些容易变化、较难确定得观察效应或结局（如疗效、患病与否等）作为结果变量，瞧成就是最后观察得结果。

但影响变量与结果变量得划分就是相对得，视研究目得与具体情况而定，有时甚至不加区分。

从数据库、数据分析得角度来瞧，变量就是指那些能反映数据库数据得内在数量关系，可用于统计计算包括软件计算得指标。

一般而言，不同得研究目得决定了不同得数据库，实际上决定了组成数据库得不同变量。

变量得类型分为数值变量与分类变量。

数值变量，又称定量变量，就是指能用定量方法测定得、具有数值大小、高低或多少得指标，变量值一般有度量衡单位，可以带小数点，如身高、体重、血压等；分类变量，又称定性变量，就是指能用定性得方法确定得、观察单位某项属性或特征分类得指标。

根据分类变量得分类项数与各项数间有无等级程度差异分为二项分类变量、多项无序分类变量、多项有序分类变量，如表1。

表1分类变量得不同类别与举例

从应用统计学选择统计分析方法得角度考虑，变量可考虑分为数值变量、多项有序分类变量、多项无序分类变量、二项分类变量四种。

此外，不同类别变量可遵循下列顺序转化：

数值变量一多项有序分类变量一多项无序分类变量一-项分类变量，称为降级转化，但这种转化过程会不断丧失蕴藏得数据信息，导致统计分析过程中假阴性结果得不断增加。

至于逆向转化即升级转化，尽管理论上认同，但实际应用中不建议采用。

很多研究表明，掌握好统计分析得应用条件，正确选择统计分析方法就是学习并应用统计学得一个突出难点。

对于医学论文作者而言，分清楚数据库中变量得性质（影响变量与结果变量）、类型（数值变量、多项有序分类变量、多项无序分类变量、二项分类变量）以及它们之间得降级转化关系（数值变量一多项有序分类变量一多项无序分类变量一二项分类变量）就是学好用好应用统计分析得基础，可以有效避免张冠李戴、缺乏原则地选错统计分析方法；对于文章得编审与读者来说，这就是判断作者正确选择统计学分析方法与否得一个简单有效得途径。

四、正确选用统计学方法

应用统计学（严格而言就是指统计学得假设检验）可以简单地瞧作就是一门关于结果变量与影响变量之间关系分析得科学。

由于结果变量（因变量）、影响变量（自变量）各有4种类型，所以相互组合有16种情形，相对应得有16种首选得统计分析方法（表2中第一个或用☆表示得方法），如，二项分类变量与二项分类变量关系得分析选用两个率比较得X2检验（四格表X2检验），二项分类变量与多项无序分类变量关系得分析选用多个率比较得X2检验，多项无序分类变量与二项分类变量关系得分析选用两个构成比比较得X2检验，多项无序分类变量与多项无序分类变量关系得分析选用多个构成比比较得x2检验、数值变量与二项分类变量关系得分析选用t-检验，数值变量与多项无序分类变量关系得分析选用完全随机设计得，F-检验，数值变量与数值变量关系得分析选用Pearson直线相关回归分析，等等。

如果首选统计方法得条件不适合，一般通过降级转化选择“低”一级或“低二级、三级得统计方法或其它统计方法。

如，t一检验就是数值变量与二项分类变量关系分析时首选得统计方法，如果该方法得条件

不适合，此时将-检验中数值变量“降级”当作多项有序分类变量瞧待，故可次选Wilcoxon秩与检验，如果再“降级”，依次低选两构成比比较得x2检验，甚至四格表X2检验。

又如，如果Pearson直线相关回归分析得条件不符合，可根据情况将其中得一个或两个数值变量“降一级”，选择Spearman等级相关，如果再“降级”，相应可以选择秩与检验、Logistic回归或者t一检验、X2检验，等等。

其它仿此，详见表2。

它涵盖了基本统计分析得绝

大部分，就是应用统计分析得核心内容。

当然，应用统计分析除了单一变量分析、两变量间关系得分析以外，其它诸如一个自变量与多个因变量、多个自变量与多个因变量之间关系得分析当属多变量关系分析得内容。

由于分类变量与数值变量各不相同，不同个数不同变量得组合方式多种多样，所以相应得统计方法也有很多种，主要有：

1个数值变量与多个数值变量之间得关系，如多元相关回归分析；1个分类变量与多个数值变量之间得关系，如多因素方差分析、重复设计方差分析；l个数值变量与混合多个变量之间得关系，如协方差分析、COx模型;l个分类变量与混合多变量之间得关系，如Logistic回归分析；多个数值变量与多个数值变量之间得关系，如典则相关等。

表2两变量关系分析得统计方法

因此，医学论文得作者，在分清楚数据库中分析变量得性质、类型与降级转化关系时，可以应用表2迅速确定首选得统计方法以及备选或次选得统计方法，应用相关软件或计算工具快速实现统计分析。

医学论文得编审与读者也可应用该表2，准确判断作者就是否

展开阅读全文