SPSS数据分析的统计方法选择.docx-资源下载

SPSS数据分析的统计方法选择.docx

1、SPSS数据分析的统计方法选择数据分析的统计方法选择小结资料1完全随机分组设计的资料一、两组或多组计量资料的比较1.两组资料：1)大样本资料或服从正态分布的小样本资料(1)若方差齐性，则作成组t检验(2)若方差不齐，则作t检验或用成组的Wilcoxon秩和检验2)小样本偏态分布资料，则用成组的Wilcoxon秩和检验2.多组资料：1)若大样本资料或服从正态分布，并且方差齐性，则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：LSD检验，Bonferroni检验等）进行两两比较。2)如果小样本的偏态分布资料或方差不齐，则作Kruskal Wal

2、lis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：用成组的Wilcoxon秩和检验，但用Bonferroni方法校正P值等）进行两两比较。二、分类资料的统计分析1.单样本资料与总体比较1)二分类资料：(1)小样本时：用二项分布进行确切概率法检验；(2)大样本时：用U检验。2)多分类资料：用Pearson 2检验（又称拟合优度检验）。2. 四格表资料1)n40并且所以理论数大于5，则用Pearson 22)n40并且所以理论数大于1并且至少存在一个理论数5，则用校正 2或用Fishers 确切概率法检验3)n 40或存在理论数40

3、并且理论数小于5的格子数行列表中格子总数的25%，则用Fishers 确切概率法检验4. RC表资料的统计分析1)列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则CMH 2或Kruskal Wallis的秩和检验2)列变量为效应指标，并且为无序多分类变量，行变量为有序多分类变量，作none zero correlation analysis的CMH 23)列变量和行变量均为有序多分类变量，可以作Spearman相关分析4)列变量和行变量均为无序多分类变量，(1)n40并且理论数小于5的格子数行列表中格子总数的25%，则用Fishers 确切概率法检验三、Poisson分布资料1.单

4、样本资料与总体比较：1)观察值较小时：用确切概率法进行检验。2)观察值较大时：用正态近似的U检验。2.两个样本比较：用正态近似的U检验。配对设计或随机区组设计四、两组或多组计量资料的比较1.两组资料：1)大样本资料或配对差值服从正态分布的小样本资料，作配对t检验2)小样本并且差值呈偏态分布资料，则用Wilcoxon的符号配对秩检验2.多组资料：1)若大样本资料或残差服从正态分布，并且方差齐性，则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：LSD检验，Bonferroni检验等）进行两两比较。2)如果小样本时，差值呈偏态分布资料或方差不齐，

5、则作Fredman的统计检验。如果Fredman的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：用Wilcoxon的符号配对秩检验，但用Bonferroni方法校正P值等）进行两两比较。五、分类资料的统计分析1.四格表资料1)b+c40，则用McNemar配对 2检验或配对边际 2检验2)b+c 40，则用二项分布确切概率法检验2.CC表资料：1)配对比较：用McNemar配对 2检验或配对边际 2检验2)一致性问题（Agreement）：用Kap检验变量之间的关联性分析六、两个变量之间的关联性分析1.两个变量均为连续型变量1)小样本并且两个变量服从双正态分布，则用Pears

6、on相关系数做统计分析2)大样本或两个变量不服从双正态分布，则用Spearman相关系数进行统计分析2.两个变量均为有序分类变量，可以用Spearman相关系数进行统计分析3.一个变量为有序分类变量，另一个变量为连续型变量，可以用Spearman相关系数进行统计分析七、回归分析1.直线回归：如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，则直线回归（单个自变量的线性回归，称为简单回归），否则应作适当的变换，使其满足上述条件。2.多重线性回归：应变量（Y）为连续型变量（即计量资料），自变量（X1，X2，Xp）可以为连续型变量、有序分类变量或二分类变量。如果回归分析

7、中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，可以作多重线性回归。1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用3.二分类的Logistic回归：应变量为二分类变量，自变量（X1，X2，Xp）可以为连续型变量、有序分类变量或二分类变量。1)非配对的情况：用非条件Logistic回归(1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素(2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变

8、量，以校正这些混杂因素对结果的混杂作用2)配对的情况：用条件Logistic回归(1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素(2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用4.有序多分类有序的Logistic回归：应变量为有序多分类变量，自变量（X1，X2，Xp）可以为连续型变量、有序分类变量或二分类变量。1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用5.

9、无序多分类有序的Logistic回归：应变量为无序多分类变量，自变量（X1，X2，Xp）可以为连续型变量、有序分类变量或二分类变量。1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用八、生存分析资料：（要求资料记录结局和结局发生的时间，如：死亡和死亡发生的时间）1.用Kaplan-Meier方法估计生存曲线2.大样本时，可以寿命表方法估计3.单因素可以用Logrank比较两条或多条生存曲线4.多个因素时，可以作多重的Cox回归1)观察性研究：可以用逐步线性回

10、归寻找（拟）主要的影响因素2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用资料21.连续性资料1.1两组独立样本比较1.1.1资料符合正态分布，且两组方差齐性，直接采用t检验。1.1.2资料不符合正态分布（1）可进行数据转换，如对数转换等，使之服从正态分布，然后对转换后的数据采用t检验；（2）采用非参数检验,如Wilcoxon检验。1.1.3资料方差不齐（1）采用Satterthwate的t检验；（2）采用非参数检验,如Wilcoxon检验。1.2两组配对样本的比较1.2.1两组差值服从正态分布，采用配对t检验。

11、1.2.2两组差值不服从正态分布，采用wilcoxon的符号配对秩和检验。1.3多组完全随机样本比较1.3.1资料符合正态分布，且各组方差齐性，直接采用完全随机的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。1.3.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的KruscalWallis法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用成组的Wilcoxon检验。1.4多组随机区组样本比较1.4.1资料符合正态分布，且各组方差齐性

12、，直接采用随机区组的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。1.4.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用符号配对的Wilcoxon检验。需要注意的问题：（1）一般来说，如果是大样本，比如各组例数大于50，可以不作正态性检验，直接采用t检验或方差分析。因为统计学上有中心极限定理，假定大样本是服从正态分布的。（2）当进行多组比较时，最容易犯的错误是仅

13、比较其中的两组，而不顾其他组，这样作容易增大犯假阳性错误的概率。正确的做法应该是，先作总的各组间的比较，如果总的来说差别有统计学意义，然后才能作其中任意两组的比较，这些两两比较有特定的统计方法，如上面提到的LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。绝不能对其中的两组直接采用t检验，这样即使得出结果也未必正确。（3）关于常用的设计方法：多组资料尽管最终分析都是采用方差分析，但不同设计会有差别。常用的设计如完全随即设计，随机区组设计，析因设计，裂区设计，嵌套设计等。2分类资料2.1四格表资料2.1.1例数大于40，且所有理论数大于5，则用普通的Pearson

14、检验。2.1.2例数大于40，所有理论数大于1，且至少一个理论数小于5，则用校正的检验或Fishers确切概率法检验。2.1.3例数小于40，或有理论数小于2，则用Fishers确切概率法检验。2.2 2C表或R2表资料的统计分析2.2.1列变量行变量均为无序分类变量，则（1）例数大于40，且理论数小于5的格子数目总格子数目的25，则用Fishers确切概率法检验。2.2.2列变量为效应指标，且为有序多分类变量，行变量为分组变量，用普通的Pearson检验只说明组间构成比不同，如要说明疗效，则可用行平均分差检验或成组的Wilcoxon秩和检验。2.2.3列变量为效应指标，且为二分类变量，行变量

15、为有序多分类变量，则可采用普通的Pearson检验比较各组之间有无差别，如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。2.3 RC表资料的统计分析2.3.1列变量行变量均为无序分类变量，则（1）例数大于40，且理论数小于5的格子数目总格子数目的25，则用Fishers确切概率法检验。（3）如果要作相关性分析，可采用Pearson相关系数。2.3.2列变量为效应指标，且为有序多分类变量，行变量为分组变量，用普通的Pearson检验只说明组间构成比不同，如要说明疗效或强弱程度的不同，则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。2.3

16、.3列变量为效应指标，且为无序多分类变量，行变量为有序多分类变量，则可采用普通的Pearson检验比较各组之间有无差别，如果有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。2.3.4列变量行变量均为有序多分类变量（1）如要做组间差别分析，则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。（2）如果要做两变量之间的相关性，可采用Spearson相关分析。2.4 配对分类资料的统计分析2.4.1四格表配对资料（1）bc40，则用McNemar配对检验。（2）bc40，

17、则用校正的配对检验。2.4.1 CC资料（1）配对比较：用McNemar配对检验。（2）一致性检验，用Kappa检验。资料3在研究设计时, 统计方法的选择需考虑以下6个方面的问题: (1)看反应变量是单变量、双变量还是多变量; (2)看单变量资料属于3种资料类型（计量、计数及等级资料）中的哪一种; (3)看影响因素是单因素还是多因素; (4)看单样本、两样本或多样本; (5)看是否是配对或配伍设计; (6)看是否满足检验方法所需的前提条件, 必要时可进行变量变换, 应用参数方法进行假设检验往往要求数据满足某些前提条件, 如两个独立样本比较t检验或多个独立样本比较的方差分析, 均要求方差齐

18、性, 因此需要做方差齐性检验。如果要用正态分布法估计参考值范围, 首先要检验资料是否服从正态分布。在建立各种多重回归方程时, 常需检验变量间的多重共线性和残差分布的正态性。表1-1连续因变量分类因变量连续自变量回归分析Logistic回归分类自变量方差分析（ANOVA)表格检验（比如卡方检验）不同的统计分析方法都有其各自的应用条件和适用范围。实际应用时, 必须根据研究目的、资料的性质以及所要分析的具体内容等选择适当的统计分析方法, 切忌只关心p值的大小（是否0.05）, 而忽略统计分析方法的应用条件和适用范围。一、两个变量之间的关联性分析1.两个变量均为连续型变量1)小样本并且两个变量服从双

19、正态分布，则用Pearson相关系数做统计分析2)大样本或两个变量不服从双正态分布，则用Spearman相关系数进行统计分析2.两个变量均为有序分类变量，可以用Spearman相关系数进行统计分析3.一个变量为有序分类变量，另一个变量为连续型变量，可以用Spearman相关系数进行统计分析二、回归分析1.直线回归：如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，则直线回归（单个自变量的线性回归，称为简单回归），否则应作适当的变换，使其满足上述条件。2.多重线性回归：应变量（Y）为连续型变量（即计量资料），自变量（X1，X2，Xp）可以为连续型变量、有序分类变量或

20、二分类变量。如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，可以作多重线性回归。1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用3.二分类的Logistic回归：应变量为二分类变量，自变量（X1，X2，Xp）可以为连续型变量、有序分类变量或二分类变量。1)非配对的情况：用非条件Logistic回归(1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素(2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入

21、一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用2)配对的情况：用条件Logistic回归(1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素(2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用4.有序多分类有序的Logistic回归：应变量为有序多分类变量，自变量（X1，X2，Xp）可以为连续型变量、有序分类变量或二分类变量。1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂

22、因素对结果的混杂作用5.无序多分类有序的Logistic回归：应变量为无序多分类变量，自变量（X1，X2，Xp）可以为连续型变量、有序分类变量或二分类变量。1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用。资料4一统计方法抉择的条件在临床科研工作中，正确地抉择统计分析方法，应充分考虑科研工作者的分析目的、临床科研设计方法、搜集到的数据资料类型、数据资料的分布特征与所涉及的数理统计条件等。其中任何一个问题没考虑到或考虑有误，都有可能导致统计分析方法的抉择失误

23、。此外，统计分析方法的抉择应在科研的设计阶段来完成，而不应该在临床试验结束或在数据的收集工作已完成之后。对临床科研数据进行统计分析和进行统计方法抉择时，应考虑下列因素：1分析目的对于临床医生及临床流行病医生来说，在进行统计分析前，一定要明确利用统计方法达到研究者的什么目的。一般来说，统计方法可分为描述与推断两类方法。一是统计描述(descriptivestatistics)，二是统计推断(inferentialstatistics)。统计描述，即利用统计指标、统计图或统计表，对数据资料所进行的最基本的统计分析，使其能反映数据资料的基本特征，有利于研究者能准确、全面地了解数据资料所包涵的信息，以

24、便做出科学的推断。统计表，如频数表、四格表、列联表等；统计图，如直方图、饼图，散点图等；统计指标，如均数、标准差、率及构成比等。统计推断，即利用样本所提供的信息对总体进行推断（估计或比较），其中包括参数估计和假设检验，如可信区间、t检验、方差分析、 2检验等，如要分析甲药治疗与乙药治疗两组的疗效是否不相同、不同地区某病的患病率有无差异等。还有些统计方法，既包含了统计描述也包含了统计推断的内容，如不同变量间的关系分析。相关分析，可用于研究某些因素间的相互联系，以相关系数来衡量各因素间相关的密切程度和方向，如高血脂与冠心病、慢性宫颈炎与宫颈癌等的相关分析；回归分析，可用于研究某个因素与另一因素（变

25、量）的依存关系，即以一个变量去推测另一变量，如利用回归分析建立起来的回归方程，可由儿童的年龄推算其体重。2资料类型资料类型的划分现多采用国际通用的分类方法，将其分为两类：数值变量(numericalvariable)资料和分类变量(categoricalvariable)资料。数值变量是指其值是可以定量或准确测量的变量，其表现为数值大小的不同；而分类变量是指其值是无法定量或不能测量的变量，其表现没有数值的大小而只有互不相容的类别或属性。分类变量又可分为无序分类变量和有序分类变量两小类，无序分类变量表现为没有大小之分的属性或类别，如：性别是两类无序分类变量，血型是四类无序分类变量；有序分类变量表

26、现为各属性或类别间有程度之分,如：临床上某种疾病的“轻、中、重”，治疗结果的“无效、显效、好转、治愈”。由此可见，数值变量资料、无序分类变量资料和有序分类变量资料又可叫做计量资料、计数资料和等级资料。资料类型的划分与统计方法的抉择有关，在多数情况下不同的资料类型，选择的统计方法不一样。如数值变量资料的比较可选用t检验、u检验等统计方法；而率的比较多用 2检验。值得注意的是，有些临床科研工作者，常常人为地将数值变量的结果转化为分类变量的临床指标，然后参与统计分析，如患者的血红蛋白含量，研究者常用正常、轻度贫血、中度贫血和重度贫血来表示，这样虽然照顾了临床工作的习惯，却损失了资料所提供的信息量。换

27、言之，在多数情况下，数值变量资料提供的信息量最为充分，可进行统计分析的手段也较为丰富、经典和可靠，与之相比，分类变量在这些方面都不如数值变量资料。因此，在临床实验中要尽可能选择量化的指标反映实验效应，若确实无法定量时，才选用分类数据，通常不宜将定量数据转变成分类数据。3设计方法在众多的临床科研设计方法中，每一种设计方法都有与之相适应的统计方法。在统计方法的抉择时，必须根据不同的临床科研设计方法来选择相应的统计分析方法。如果统计方法的抉择与设计方法不一致，统计分析得到的任何结论都是错误的。在常用的科研设计方法中，有成组设计（完全随机设计）的t检验、配对t检验、成组设计（完全随机设计）的方差分析、

28、配伍设计（随机区组设计）的方差分析等，都是统计方法与科研设计方法有关的佐证。因此，应注意区分成组设计（完全随机设计）与配对和配伍设计（随机区组设计），在成组设计中又要注意区别两组与多组设计。最常见的错误是将配对或配伍设计（随机区组设计）的资料当做成组设计（完全随机设计）来处理，如配对设计的资料使用成组t检验、配伍设计（随机区组设计）使用成组资料的方差分析；或将三组及三组以上的成组设计（完全随机设计）资料的比较采用多个t检验、三个或多个率的比较采用四格表的卡方检验来进行比较，都是典型的错误。如下表：表1常见与设计方法有关的统计方法抉择错误表格1设计方法错误的统计方法正确统计方法两个均数的比较（成

29、组设计、完全随机设计）成组设计的t检验成组设计的秩和检验多个均数的比较（成组设计、完全随机设计）多个成组设计的t检验完全随机设计的方差分析及q检验、完全随机设计的秩和检验及两两比较数值变量的配对设计成组设计的t检验配对t检验、配对秩和检验随机区组设计（配伍设计）多个成组设计的t检验、完全随机设计的方差分析随机区组设计的方差分析及q检验、随机区组设计的秩和检验及两两比较交叉设计成组设计的t检验、配对t检验、配对秩和检验交叉设计的方差分析、交叉设计的秩和检验4分布特征及数理统计条件数理统计和概率论是统计的理论基础。每种统计方法都要涉及数理统计公式，而这些数理统计公式都是在一定条件下推导和建立的。也

30、就是说，只有当某个或某些条件满足时，某个数理统计公式才成立，反之若不满足条件时，就不能使用某个数理统计公式。在数理统计公式推导和建立的条件中，涉及最多的是数据的分布特征。数据的分布特征是指数据的数理统计规律，许多数理统计公式都是在特定的分布下推导和建立的。若实际资料服从（符合）某种分布，即可使用该分布所具有的数理统计规律来分析和处理该实际资料，反之则不能。在临床资料的统计分析过程中，涉及得最多的分布有正态分布、偏态分布、二项分布等。许多统计方法对资料的分布有要求，如：均数和标准差、t和u检验；方差分析都要求资料服从正态分布，而中位数和四分位数间距、秩和检验等，可用于不服从正态分布的资料。所以，临床资料的统计分析过程中，应考虑资料的分布特征，最起码的要求是熟悉正态分布与偏态分布。例如：在临床科研中，许多资料的描述不考虑资料的分布特征，而多选择均数与标准差。如某妇科肿瘤化疗前的血象值，资料如下表：某妇科

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？