SPSS数据分析的医学统计方法选择.docx-资源下载

SPSS数据分析的医学统计方法选择.docx

1、SPSS数据分析的医学统计方法选择SPSS数据分析的医学统计方法选择数据分析的统计方法选择小结错误 !未定义书签。目录 1资料 1 2完全随机分组设计的资料 2配对设计或随机区组设计 3变量之间的关联性分析 4资料 2 51.连续性资料 51.1两组独立样本比较 51.2两组配对样本的比较 51.3多组完全随机样本比较 61.4多组随机区组样本比较 62分类资料 62.1四格表资料 62.22 表C或 R2表资料的统计分析 72.3R 表C资料的统计分析 72.4配对分类资料的统计分析 7资料 3 8一、两个变量之间的关联性分析 8二、回归分析 9资料 4 9一统计方法抉择的条件 91分析

2、目的 102资料类型 103设计方法 114分布特征及数理统计条件 12二数据资料的描述 121数值变量资料的描述 132分类变量资料的描述 13三数据资料的比较 141假设检验的基本步骤 142假设检验结论的两类错误 153假设检验的注意事项 154常用假设检验方法 16四变量间的相关分析 171数值变量（计量资料）的关系分析 182无序分类变量（计数资料）的相关分析 183有序分类变量（等级资料）等级相关 18资料 1完全随机分组设计的资料一、两组或多组计量资料的比较1.两组资料：1)大样本资料或服从正态分布的小样本资料(1) 若方差齐性，则作成组 t 检验(2) 若方差不齐，则作 t

3、检验或用成组的 Wilcoxon 秩和检验2)小样本偏态分布资料，则用成组的 Wilcoxon 秩和检验2.多组资料：1)若大样本资料或服从正态分布，并且方差齐性，则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法 (如： LSD 检验， Bonferroni 检验等)进行两两比较。2)如果小样本的偏态分布资料或方差不齐，则作 Kruskal Wallis 的统计检验。如果 Kruskal Wallis 的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法 (如：用成组的 Wilcoxon 秩和检验，但用 Bonferron

4、i 方法校正 P 值等) 进行两两比较。分类资料的统计分析1.单样本资料与总体比较1)二分类资料：(1) 小样本时：用二项分布进行确切概率法检验； (2) 大样本时：用 U 检验。2.四格表资料Fisher s 确切概率法检验3)n 40 或存在理论数 40 并且理论数小于 5 的格子数行列表中格子总数的 25%，则用 Fisher s 确切概率法检验4.R C表资料的统计分析CMH1) 列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则或 Kruskal Wallis 的秩和检验2) 列变量为效应指标，并且为无序多分类变量，行变量为有序多分类变量，作none zero cor

5、relation analysis的 CMH 23)列变量和行变量均为有序多分类变量，可以作 Spearman 相关分析4)列变量和行变量均为无序多分类变量，(1)n40 并且理论数小于 5 的格子数行列表中格子总数的 25%，则用 Fisher s 确切概率法检验三、 Poisson 分布资料1.单样本资料与总体比较：1) 观察值较小时：用确切概率法进行检验。2) 观察值较大时：用正态近似的 U检验。2.两个样本比较：用正态近似的 U检验。配对设计或随机区组设计四、两组或多组计量资料的比较1. 两组资料：1) 大样本资料或配对差值服从正态分布的小样本资料，作配对 t 检验2) 小样本并且

6、差值呈偏态分布资料，则用 Wilcoxon 的符号配对秩检验2.多组资料：1)若大样本资料或残差服从正态分布，并且方差齐性，则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法 (如： LSD 检验， Bonferroni 检验等)进行两两比较。2) 如果小样本时，差值呈偏态分布资料或方差不齐，则作 Fredman 的统计检验。如果 Fredman 的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法 (如：用 Wilcoxon 的符号配对秩检验，但用 Bonferroni 方法校正 P值等)进行两两比较。五、分类资料的统计分析

7、1.四格表资料1)b+c40 ，则用 McNemar配对 2 检验或配对边际 2检验2)b+c 40，则用二项分布确切概率法检验2.C C表资料：1）配对比较：用 McNemar配对 2 检验或配对边际 2检验2）一致性问题（ Agreement ）：用 Kap 检验变量之间的关联性分析六、两个变量之间的关联性分析1. 两个变量均为连续型变量1）小样本并且两个变量服从双正态分布，则用 Pearson 相关系数做统计分析2）大样本或两个变量不服从双正态分布，则用 Spearman 相关系数进行统计分析2.两个变量均为有序分类变量，可以用 Spearman 相关系数进行统计分析3.一个变

8、量为有序分类变量，另一个变量为连续型变量，可以用 Spearman 相关系数进行统计分析七、回归分析1.直线回归：如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，则直线回归（单个自变量的线性回归，称为简单回归），否则应作适当的变换，使其满足上述条件。2. 多重线性回归：应变量（ Y）为连续型变量（即计量资料），自变量（ X1，X2， Xp）可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，可以作多重线性回归。1）观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2）实

9、验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用3.二分类的 Logistic 回归：应变量为二分类变量，自变量（ X1，X2， Xp）可以为连续型变量、有序分类变量或二分类变量。1）非配对的情况：用非条件 Logistic 回归（1）观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素（2）实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用2）配对的情况：用条件 Logistic 回归（1）观察性研究：可以用逐步线性回归寻

10、找（拟）主要的影响因素（2）实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用4.有序多分类有序的 Logistic 回归：应变量为有序多分类变量，自变量（ X1，X2， Xp）可以为连续型变量、有序分类变量或二分类变量。1）观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2）实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用5.无序多分类有序的 Logistic 回归：应变量为无序多分类变量，自变量（ X1，X2， Xp

11、）可以为连续型变量、有序分类变量或二分类变量。1）观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2）实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用八、生存分析资料：（要求资料记录结局和结局发生的时间，如：死亡和死亡发生的时间）1. 用 Kaplan-Meier 方法估计生存曲线2.大样本时，可以寿命表方法估计3.单因素可以用 Log rank 比较两条或多条生存曲线4.多个因素时，可以作多重的 Cox 回归1）观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2）实验性研究：在保持主要研究

12、因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用资料 21.连续性资料1.1两组独立样本比较1.1.1资料符合正态分布，且两组方差齐性，直接采用 t 检验。1.1.2资料不符合正态分布（1）可进行数据转换，如对数转换等，使之服从正态分布，然后对转换后的数据采用 t 检验；（ 2）采用非参数检验 ,如 Wilcoxon 检验。1.1.3资料方差不齐（ 1）采用 Satterthwate 的 t 检验；（ 2）采用非参数检验 ,如 Wilcoxon 检验。1.2两组配对样本的比较1.2.1两组差值服从正态分布，采用配对 t 检验。1.2.2

13、两组差值不服从正态分布，采用 wilcoxon 的符号配对秩和检验。1.3多组完全随机样本比较1.3.1资料符合正态分布，且各组方差齐性，直接采用完全随机的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有 LSD检验， Bonferroni 法，tukey 法， Scheffe 法， SNK法等。1.3.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的 Kruscal Wallis法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用 Bonferroni 法校正 P 值，然后用成组的 Wilcoxon 检验。1.4多组随机区组样本比较1.4.1资料符

14、合正态分布，且各组方差齐性，直接采用随机区组的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有 LSD检验， Bonferroni 法，tukey 法， Scheffe 法， SNK法等。1.4.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的 Fridman 检验法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用 Bonferroni 法校正 P 值，然后用符号配对的 Wilcoxon 检验。需要注意的问题：（ 1）一般来说，如果是大样本，比如各组例数大于 50，可以不作正态性检验，直接采用t 检验或方差分析。因为统计学上有中心极限定理，假定

15、大样本是服从正态分布的。（ 2）当进行多组比较时，最容易犯的错误是仅比较其中的两组，而不顾其他组，这样作容易增大犯假阳性错误的概率。正确的做法应该是，先作总的各组间的比较，如果总的来说差别有统计学意义，然后才能作其中任意两组的比较，这些两两比较有特定的统计方法，如上面提到的 LSD检验， Bonferroni 法， tukey 法， Scheffe 法， SNK法等。绝不能对其中的两组直接采用 t 检验，这样即使得出结果也未必正确。（ 3）关于常用的设计方法：多组资料尽管最终分析都是采用方差分析，但不同设计会有差别。常用的设计如完全随即设计，随机区组设计，析因设计，裂

16、区设计，嵌套设计等。2分类资料2.1四格表资料2.1.1例数大于 40，且所有理论数大于 5，则用普通的 Pearson 检验。2.1.2例数大于 40，所有理论数大于 1，且至少一个理论数小于 5，则用校正的检验或 Fisher s 确切概率法检验。2.1.3例数小于 40，或有理论数小于 2，则用 Fisher s 确切概率法检验。2.22C 表或 R2 表资料的统计分析2.2.1列变量行变量均为无序分类变量，则（ 1）例数大于 40，且理论数小于 5 的格子数目总格子数目的 25，则用普通的 Pearson 检验。（ 2）例数小于 40，或理论数小于 5 的格子数目总格子数目的 25

17、，则用 Fisher s 确切概率法检验。2.2.2列变量为效应指标，且为有序多分类变量，行变量为分组变量，用普通的 Pearson 检验只说明组间构成比不同，如要说明疗效，则可用行平均分差检验或成组的 Wilcoxon 秩和检验。2.2.3列变量为效应指标，且为二分类变量，行变量为有序多分类变量，则可采用普通的 Pearson 检验比较各组之间有无差别，如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。2.3RC 表资料的统计分析2.3.1列变量行变量均为无序分类变量，则（ 1）例数大于 40，且理论数小于 5 的格子数目总格子数目的

18、25，则用普通的 Pearson 检验。（ 2）例数小于 40，或理论数小于 5 的格子数目总格子数目的 25，则用 Fisher s 确切概率法检验。（ 3）如果要作相关性分析，可采用 Pearson 相关系数。2.3.2列变量为效应指标，且为有序多分类变量，行变量为分组变量，用普通的 Pearson 检验只说明组间构成比不同，如要说明疗效或强弱程度的不同，则可用行平均分差检验或成组的 Wilcoxon 秩和检验或 Ridit 分析。2.3.3列变量为效应指标，且为无序多分类变量，行变量为有序多分类变量，则可采用普通的 Pearson 检验比较各组之间有无差别，如果有差别，

19、还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。2.3.4列变量行变量均为有序多分类变量（ 1）如要做组间差别分析，则可用行平均分差检验或成组的 Wilcoxon 秩和检验或 Ridit 分析。如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。（ 2）如果要做两变量之间的相关性，可采用 Spearson 相关分析。2.4配对分类资料的统计分析2.4.1四格表配对资料（ 1） b c40 ，则用 McNemar配对检验。（ 2） b c40 ，则用校正的配对检验。2.4.1C C 资料（ 1）配对比较：用 McNemar配对检

20、验。（2）一致性检验，用 Kappa 检验。资料 3在研究设计时 , 统计方法的选择需考虑以下 6 个方面的问题 : （1）看反应变量是单变量、双变量还是多变量 ; （2）看单变量资料属于 3 种资料类型（计量、计数及等级资料）中的哪一种; （3）看影响因素是单因素还是多因素 ; （4）看单样本、两样本或多样本 ; （5）看是否是配对或配伍设计 ; （6）看是否满足检验方法所需的前提条件 , 必要时可进行变量变换 , 应用参数方法进行假设检验往往要求数据满足某些前提条件 , 如两个独立样本比较 t 检验或多个独立样本比较的方差分析 , 均要求方差齐性 , 因此需要做方差

21、齐性检验。如果要用正态分布法估计参考值范围 , 首先要检验资料是否服从正态分布。在建立各种多重回归方程时 , 常需检验变量间的多重共线性和残差分布的正态性。表 1-1连续因变量分类因变量连续自变量回归分析Logistic 回归分类自变量方差分析（ ANOVA）表格检验（比如卡方检验）不同的统计分析方法都有其各自的应用条件和适用范围。实际应用时 , 必须根据研究目的、资料的性质以及所要分析的具体内容等选择适当的统计分析方法 , 切忌只关心 p 值的大小（是否 0.05 ） , 而忽略统计分析方法的应用条件和适用范围。一、两个变量之间的关联性分析1. 两个变量均为连续型变量1）

22、小样本并且两个变量服从双正态分布，则用 Pearson 相关系数做统计分析2）大样本或两个变量不服从双正态分布，则用 Spearman 相关系数进行统计分析2. 两个变量均为有序分类变量，可以用 Spearman 相关系数进行统计分析3.一个变量为有序分类变量，另一个变量为连续型变量，可以用 Spearman 相关系数进行统计分析二、回归分析1. 直线回归：如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，则直线回归（单个自变量的线性回归，称为简单回归），否则应作适当的变换，使其满足上述条件。2. 多重线性回归：应变量（ Y）为连续型变量（即计量资料）

23、，自变量（ X1， X2，Xp）可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，可以作多重线性回归。1）观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2）实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用3.二分类的 Logistic 回归：应变量为二分类变量，自变量（ X1， X2， Xp）可以为连续型变量、有序分类变量或二分类变量。1）非配对的情况：用非条件 Logistic 回归（1）观察性研究：可以用逐步线性

24、回归寻找（拟）主要的影响因素（2）实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用2）配对的情况：用条件 Logistic 回归（1）观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素（2）实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用4.有序多分类有序的 Logistic 回归：应变量为有序多分类变量，自变量（ X1，X2， Xp）可以为连续型变量、有序分类变量或二分类变量。1）观察性研究：可以用逐步线性回归寻找（拟）

25、主要的影响因素2）实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用5.无序多分类有序的 Logistic 回归：应变量为无序多分类变量，自变量（ X1，X2， Xp）可以为连续型变量、有序分类变量或二分类变量。1）观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2）实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用。资料 4一统计方法抉择的条件在临床科研工作中，正确地抉择统计分析方法，应充分考虑科研工作者的分析目的

26、、临床科研设计方法、搜集到的数据资料类型、数据资料的分布特征与所涉及的数理统计条件等。其中任何一个问题没考虑到或考虑有误，都有可能导致统计分析方法的抉择失误。此外，统计分析方法的抉择应在科研的设计阶段来完成，而不应该在临床试验结束或在数据的收集工作已完成之后。对临床科研数据进行统计分析和进行统计方法抉择时，应考虑下列因素：1 分析目的对于临床医生及临床流行病医生来说，在进行统计分析前，一定要明确利用统计方法达到研究者的什么目的。一般来说，统计方法可分为描述与推断两类方法。一是统计描述 (descriptive statistics) ，二是统计推断 (infere

27、ntial statistics) 。统计描述，即利用统计指标、统计图或统计表，对数据资料所进行的最基本的统计分析，使其能反映数据资料的基本特征，有利于研究者能准确、全面地了解数据资料所包涵的信息，以便做出科学的推断。统计表，如频数表、四格表、列联表等；统计图，如直方图、饼图，散点图等；统计指标，如均数、标准差、率及构成比等。统计推断，即利用样本所提供的信息对总体进行推断(估计或比较) ，其中包括参数估计和假设检验，如可信区间、 t 检验、方差分析、 2 检验等，如要分析甲药治疗与乙药治疗两组的疗效是否不相同、不同地区某病的患病率有无差异等。还有些统计方法，既包含了统计

28、描述也包含了统计推断的内容，如不同变量间的关系分析。相关分析，可用于研究某些因素间的相互联系，以相关系数来衡量各因素间相关的密切程度和方向，如高血脂与冠心病、慢性宫颈炎与宫颈癌等的相关分析；回归分析，可用于研究某个因素与另一因素(变量) 的依存关系，即以一个变量去推测另一变量，如利用回归分析建立起来的回归方程，可由儿童的年龄推算其体重。2资料类型资料类型的划分现多采用国际通用的分类方法，将其分为两类：数值变量 (numerical variable) 资料和分类变量 (categorical variable) 资料。数值变量是指其值是可以定量或准确测量的变量，其表现为

29、数值大小的不同；而分类变量是指其值是无法定量或不能测量的变量，其表现没有数值的大小而只有互不相容的类别或属性。分类变量又可分为无序分类变量和有序分类变量两小类，无序分类变量表现为没有大小之分的属性或类别，如：性别是两类无序分类变量，血型是四类无序分类变量；有序分类变量表现为各属性或类别间有程度之分 , 如：临床上某种疾病的“轻、中、重” ，治疗结果的“无效、显效、好转、治愈”。由此可见，数值变量资料、无序分类变量资料和有序分类变量资料又可叫做计量资料、计数资料和等级资料。资料类型的划分与统计方法的抉择有关，在多数情况下不同的资料类型，选择的统计方法不一样。如数

30、值变量资料的比较可选用 t 检验、 u 检验等统计方法；而率的比较多用 2检验。值得注意的是，有些临床科研工作者，常常人为地将数值变量的结果转化为分类变量的临床指标，然后参与统计分析，如患者的血红蛋白含量，研究者常用正常、轻度贫血、中度贫血和重度贫血来表示，这样虽然照顾了临床工作的习惯，却损失了资料所提供的信息量。换言之，在多数情况下，数值变量资料提供的信息量最为充分，可进行统计分析的手段也较为丰富、经典和可靠，与之相比，分类变量在这些方面都不如数值变量资料。因此，在临床实验中要尽可能选择量化的指标反映实验效应，若确实无法定量时，才选用分类数据，通常不宜将定量数据转变成分类数据。3设计方法在众多的临床科研设计方法中，每一种设计方法都有与之相适应的统计方法。在统计方法的抉择时，必须根据不同的临床科研设计方法来选择相应的统计分析方法。如果统计方法

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？