统计实验与SAS上机简易过程步.docx

资源描述

统计实验与SAS上机简易过程步.docx

《统计实验与SAS上机简易过程步.docx》由会员分享，可在线阅读，更多相关《统计实验与SAS上机简易过程步.docx（17页珍藏版）》请在冰豆网上搜索。

统计实验与SAS上机简易过程步.docx

统计实验与SAS上机简易过程步

数据统计分析一般可遵循以下思路:

（1）先确定研究目的，根据研究目的选择方法。

不同研究目的采用的统计方法不同，常见的研究目的主要有三类：

①差异性研究，即比较组间均数、率等的差异，可用的方法有t检验、方差分析、χ2检验、非参数检验等。

②相关性分析，即分析两个或多个变量之间的关系，可用的方法有相关分析。

③影响性分析，即分析某一结局发生的影响因素，可用的方法有线性回归、logistic回归、Cox回归等。

（2）明确数据类型，根据数据类型进一步确定方法：

①定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。

②分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。

下图简要列出了不同研究目的、不同数据类型常用的统计分析方法。

（3）选定统计方法后，需要利用统计软件具体实现统计分析过程。

SAS中，不同的统计方法对应不同的命令，只要方法选定，便可通过对应的命令辅之以相应的选项实现统计结果的输出。

（4）统计结果的输出并非数据分析的完成。

一般统计软件都会输出很多结果，需要从中选择自己需要的部分，并做出统计学结论。

但统计学结论不同于专业结论，最终还需要结合实际做出合理的专业结论。

第一部分：

统计描述

1.定量资料的统计描述指标及SAS实现；

（1）数据分布检验：

PROCUNIVARIATE

①基本格式：

②语句格式示例：

1.PROCUNIVARIATEnormal;/*normal选项表示进行正态性检验*/

2.CLASSgroup;/*指定group为分组变量*/

3.VARweight;/*指定分析变量为weight*/

4.RUN;

③结果：

正态性检验（testsfornormality）结果，常用的是Shapiro-Wilk

检验和Kolmogorov-Smirnov检验。

当例数小于2000时，采用Shapiro-Wilk检验W值为标准；当例数大于2000时，SAS中不显示Shapiro-Wilk检验结果，采用Kolmogorov-Smirnov检验D值为判断标准。

正态性检验的P≤0.05提示不服从正态分布，P＞0.05提示服从正态分布。

注：

若服从正态分布，进行PROCMEANS过程步；若不服从则计算百分位数，

转（3）

（2）数据描述（符合正态分布的数据）：

PROCMEANS

①基本格式：

关键字（可以无视）：

不写任何关键字时默认输出n，mean，std，max，min；

n：

有效数据记录数（有效样本量）median：

中位数

mean：

均数qrange：

四分位数间距

std：

标准差var：

方差

clm：

95%可信区间max、min：

最大、最小值

②语句格式示例：

1.PROCMEANSnmeanstdmedianqrangeclm;/*关调用procmeans过程，要求输出的指标有例数、均值、标准差、中位数、四分位数间距、95%可信区间*/

2.CLASSgroup;/*指定group为分组变量*/

3.VARweight;/*指定分析变量为weight*/

4.Run;

③结果以“均数±标准差”表示

（3）偏正态分布的统计描述：

①基本思想：

计算中位数和百分位数，并且用“中位数（Q1～Q3）”表示

②语句格式示例：

1.procunivariatedata=aa;

2.varx;

3.outputout=cpctlpre=Ppctlpts=0to100by2.5;/*计算0到100百分位数，间隔2.5个百分位数，并将结果输出在数据集“aa”中*/

4.run;

5.proctransposedata=cout=d;

6.procprintdata=d;

7.run;/*以上是求解百分位数语句*/

1.procunivariatedata=aa

2.CIPCTLDF（alpha=0.05）;/*求百分位数的95%可信区间，（alpha=0.05）此处可缺省；若需求可信区间，只需指定相应的alpha水平*/

3.varx;

4.run;

③结果：

a.偏态分布的统计描述以“中位数（Q1～Q3）”表示

b.总体参数的95%可信区间

2.分类（定性）资料的统计描述指标及SAS实现

（1）输出频数表：

PROCFREQ

①基本格式：

②语句格式示例：

1.PROCFREQ;

2.TABLEgroup*weight;/*table后有group和grade两个变量，交叉形成一个行X列的表格，若group为2类，grade为3类，因此形成2X3=6个格子，每一格子中给出例数和相应比例*/

3.RUN;

（2）直方图的绘制

①基本语句：

histogram变量x

②语句格式示例：

1.procunivariate;

2.varx;

3.histogramx/midpoints=163to183by2;/*要求Univariate过程绘制的直方图中各直条的组中值为163、165、……183（自行改动）*/

4.run;

（3）计算基本统计量和95%可信区间：

PROCUNIVARIATE

①基本要求：

计算定性资料的95%可信区间

②语句格式示例：

1.procunivariatecibasic;/*基本统计量及其可信区间，对应于CIBASIC选项*/

2.varx;

3.run;

③结果：

此步骤结果只需观察SAS结果中的“基本置信限正态假设”一栏，其他可无视。

第二部分：

定量资料的统计分析

1.单一样本均数的检验

（1）直接公式编辑

①适用条件：

没有原始数据，而只知道样本均数及已知总体的总体均数时

②方法示例：

某医生测量了36名从事某作业的男性工人的血红蛋白含量，其均值为130.83g/L，标准差为25.74g/L。

问从事该作业男性工人的血红蛋白含量是否不同于正常成年男性的均值140g/L

③SAS过程步：

1.dataaa;

2.n=36;

3.sm=130.83;/*样本均数*/

4.std=25.74;/*样本标准差*/

5.pm=140;/*总体均数*/

6.df=n-1;/*自由度*/

7.t=（sm-pm）/（std/sqrt（n））;/*单样本t检验的计算公式*/

8.p=（1-probt（abs（t）,df））*2;/*①abs（x）函数：

返回x的绝对值。

②probt（x,df）函数：

是studentt分布的概率分布函数，用于计算自由度为df的t分布在t取x值时的概率。

因为是做双侧检验，所以求得一侧的概率值后再乘以2*/

9.procprint;

10.vartp;

11.run;

③结果使用t和p值

（2）利用MEANS或UNIVARIATE过程计算

①已知样本资料的原始数据，单样本t检验可以利用MEANS过程和UNIVARIATE过程实现

②语句格式示例：

1.procmeansmeanstdtptr;

2.vary;/*y值为每一个观测值与已知总体均数的差值*/

3.run;

或者

1.procunivariate;

2.vary；/*y值为每一个观测值与已知总体均数的差值*/

3.run;

③方法类似于统计描述，结果指标为t和p值

2.完全随机两组正态分布资料的比较

①分析思路：

两组比较属于差异性研究，再看是否正太，可考虑方法有独立样本的t检验或Wilcoxon秩和检验，具体还应进一步看资料的分布情况。

②正态性检验：

1.procunivariatenormal;

2.classgroup;varx;

3.run;

若为正态性则可使用t检验，否则使用Wilcoxon秩和检验（见后文）

③t检验语句：

1.procttest

2.classgroup;

3.varx;

4.run;

④结果：

观察t值和p值，给出结论

3.完全随机两组非正态分布资料的比较

①思路同上2，首先进行正态性检验；语句略

②非正态分布时两组之间的秩和检验语句：

1.procnpar1wayWilcoxon;/*wilcoxon选项给出wilcoxon和Kruskal-Wallis检验值*/

2.classgroup;

3.varx;

4.run;

③秩和检验观察Z值和P值，得出结论

4.完全随机多组正态分布资料的比较

①前提是研究为完全随机设计，需要分析两组数据的变化值，因此可以考虑方差分析或Kruskal-Wallis秩和检验，具体还应进一步看资料是否符合正态分布；

②正态性检验确定具体分析方法，若为正态，使用方差分析，否则为Kruskal-Wallis秩和检验（非参数检验，见后文）：

正态性检验过程步略···

③方差分析：

只有glm过程，anova过程请参考课件

1.procglm;

2.classgroup;

3.modelx=group;

4.meansgroup/hovtestlsd;/*使用lsd法进行两两比较并给出p值*/

5.run；

④根据两组之间p值是否有意义给出结论

5.完全随机多组非正态分布资料的比较

①同上思路，首先正态检验，不符合时候，使用多组之间的Kruskal-Wallis秩和检验；

首先进行秩和检验：

1.procnpar1wayWilcoxon;/*wilcoxon选项给出wilcoxon和Kruskal-Wallis检验值*/

2.classgroup;

3.varx;

4.run;

②多组非正态分布资料两两之间的比较的过程步：

（原理：

对研究变量的秩进行排序，用方差分析对秩次进行两两比较）；

1.procrankdata=ex12_5out=rank5;

2.varx;

3.run;

4.procprintdata=ranks;

5.run;

6.procglmdata=ranks;

7.classgroup;

8.modelx=group;

9.meansgroup/lsd;

10.run;

完全copyPPT···

③结果观察：

先看χ2和p值（总体指标）有无统计学意义，若无意义，无需进行两两比较，只有总体指标χ2和p值有意义才需进行两两检验。

6.析因设计方差分析

①析因设计有一点重要的是：

A和B两个指标之间可能会有交互作用，需考虑二者之间的交互作用a*b

②首先仍然是正态性检验，若符合可直接用析因设计的方差分析，否则可用Kruskal-Wallis秩和检验（类似于完全随机设计）；

③析因设计的过程步（符合正态分布）：

1.procglmdata=aa;

2.classab;

3.modelx=aba*b;/*计算a，b以及a*b，之间的相互作用*/

4.outputout=glmoutP=predR=resi;/*将三者之间的P值和R值输出到新的数据集glmout中，并对二者进行赋值*/

5.run；

1.procgplotdata=glmout;

2.plotpred*a=b/HAIXS=0.5122.5VAIXS=0.1to0.2by0.02;/*2*2析因设计交互效应作图*/

3.symbolI=join;

4.run;

③结果参考：

同样先看总体之间差异有无统计学意义：

若有意义，继续观察两两之间的p值；若无意义，可无视。

7.配对资料的分析

①配对分析思路：

配对设计分析一般以差值作为分析指标，实际上是前后数据分析差值与0相比是否有统计学意义。

利用procunivariate程序对差值的正态性及分布进行检验；

②首先正态性检验，过程步略···

③若符合正态分布，可直接用glm过程（若不符合正态分布，其差值具体大小需要结合中位数来看，而不是均数）：

1.dataaa；

2.inputx1x2@@;

3.y=x1-x2;/*用y来表示配对两者资料的差值*/

4.cards;

5.···············（具体数据）

6.;

7.procunivariate;

8.vary;

9.run;

③结果推断：

结合SAS结果中的“TestforLocation”结果的S和Pr值判断是否有意义

8.随机区组资料的分析（配伍组资料分析）

①要点：

随机区组设计有分区变量block、分组变量group以及分析变量x；具体分析方法根据正态性选择方差分析或Friedman检验；

②若为正态分布的数据，采用随机区组方差分析：

procglm过程步

1.PROCGLM;

2.CLASSgroupblock;/*将组别和区组均指定为分类变量*/

3.MODELx=groupblock;/*model语句指定x为分析变量，group为分组变量，block为区组变量。

如果不加block，其效果等同于完全随机设计的方差分析*/

4.meansa/snk;/*用SNK法分析处理组a间的两两比较*/

5.RUN;

③若非正态分布，采用Friedman检验，即偏态分布时使用的随机区组分析方法：

PROCFREQ语句

1.PROCFREQ;/*调用FREQ命令*/

2.TABLEblock*group*den/noprintscores=rankcmh2;/*TABLE语句指明分组变量和分析变量，noprint表示不打印交叉表，scores=rank表示执行非参数检验，cmh2表示输出行平均得分差值*/

3.RUN；

3结果分析：

根据总的差异统计量G和P值得出结论

第三部分：

定性资料的统计分析

1.四格表（2×2）资料的分析

①对于两个变量均为二分类变量，首选方法是四个表资料的χ2检验，还可以采用Logistic回归（略）；

②四格表资料χ2检验的数据步和过程步：

1.PROCFREQ;/*调用freq程序*/

2.WEIGHTf;/*表明输人的f是一个权重值*/

3.TABLEa*b/chisqexpectedrelrisk;/*table语句列出列联表，chisq选项调用χ2检验结果，expected输出理论频数，relrisk输出相对危险度*/

4.RUN;

③注意点：

输入语句中第一个do语句输人行变量，第二个do语句输人列变量，顺序一定要和后面的数据对应起来;inputf后一定要有两个@；一定要有output语句，且要在end语句前；end与do语句是相对应的，有几个do语句，output后就要加几个end；weight语句一定要指定频数变量，如果无weight语句，SAS会认为四格表中每个格子的例数均为1。

④结果中会给出χ2检验结果和Fisher检验的结果当研究例数＜40或理论频数＜1时，用Fisher精确检验更为可靠。

危险度请参考课本···

2.R×2表资料的分析

①R×2表含义：

R×2表指行变量为多分类的分组指标，列变量为二分类的分析指标，组间差异比较可采用χ2检验。

②分析中只要分析指标为无序变量，则不论分组指标是有序还是无序均可采用χ2检验进行分析。

如果组间总的差异有统计学意义，还可进一步做两两比较。

③过程步：

1.PROCFREQ;

2.WEIGHTf;

3.TABLEa*b/nopercentnocolchisq;/*nopercent表示不输出总百分比，nocol表示不输出列百分比，chisq选项调用卡方检验结果*/

4.RUN;

④若需用精确检验法时，可在table语句后加入fisher选项。

3.2×C表无序资料的分析

①2×C表无序资料：

2×C表资料指行变量为二分类的分组指标，列变量为多分类的分析指标。

如果分析指标为无序分类变量，可用χ2检验分析组间构成比是否有差异，如果例数小于40或有理论频数小于1，可以采用Fisher精确概率检验法。

②过程步同四格表χ2检验程序，无其他特殊语句

4.2×C表有序资料的分析

①2×C表有序资料：

如果分析指标为有序分类变量，用χ2检验只能说明组间构成比是否有统计学差异，无法说明等级的差别。

如要比较组间等级差异是否有统计学意义，可用Wilcoxon秩和检验

②过程语句

1.PROCNPARIWAYwilcoxon;/*调用秩和检验程序，指定采用Wilcoxon检验*/

2.CLASSgroup;/*指明分组变量*/

3.VAReffect;/*指明分析变量*/

4.FREQf;/*freq语句与procfreq命令中的weight语句类似，因为数据输人都是频数方式，因此通过freq指定f为频数*/

5.RUN;

③例如在检验药品疗效时分析变量有“无效、有效、显效、痊愈”，采用χ2检验，结果显示两组的分布有统计学差异，但是不说明疗效问题，如果将结果指标的顺序打乱，如按“无效、痊愈、显效、有效”的顺序排列，χ2检验的结果仍然不变，而秩和检验的结果会发生变化

5.配对四格表（2×2）资料的分析

①类似于定量资料的配对设计

②语句

1.PROCFREQ;

2.WEIGHTf;

3.TABLEa*b/nopercentnocolnorowchisq;

4.RUN;

③检验统计量为结果中第一行的Pearson卡方。

6.CochranArmitage趋势检验

①属于定性资料χ2检验的一部分，在table语句后面多了一个trend选项

②语句示例

1.PROCFREQ;

2.WEIGHTf;

3.TABLEpath*hp/nopercentnocolchisqtrend;

4.RUN;

③Cochran-Armitage趋势检验结果中，统计量（Z）≤0时，单侧P值给出的是左侧P值，单侧第一列呈下降趋势。

当统计量（Z）＞0，单侧P值给出的是右侧P值，表明第一列呈上升趋势。

注：

Cochran-Armitage趋势检验只能有两列。

④结果示例：

此结果统计量Z小于0，表示在原始数据中第一列（阴性率）呈下降趋势。

第四部分：