SAS统计分析教程方法总结.docx

上传人:b****5 文档编号:8303823 上传时间:2023-01-30 格式:DOCX 页数:39 大小:524.37KB
下载 相关 举报
SAS统计分析教程方法总结.docx_第1页
第1页 / 共39页
SAS统计分析教程方法总结.docx_第2页
第2页 / 共39页
SAS统计分析教程方法总结.docx_第3页
第3页 / 共39页
SAS统计分析教程方法总结.docx_第4页
第4页 / 共39页
SAS统计分析教程方法总结.docx_第5页
第5页 / 共39页
点击查看更多>>
下载资源
资源描述

SAS统计分析教程方法总结.docx

《SAS统计分析教程方法总结.docx》由会员分享,可在线阅读,更多相关《SAS统计分析教程方法总结.docx(39页珍藏版)》请在冰豆网上搜索。

SAS统计分析教程方法总结.docx

SAS统计分析教程方法总结

对定量结果进行差异性分析

1.单因素设计一元定量资料差异性分析

1.1.单因素设计一元定量资料t检验与符号秩和检验

T检验前提条件:

定量资料满足独立性和正态分布,若不满足则进行单因素设计一元定量资料符号秩和检验。

1.2.配对设计一元定量资料t检验与符号秩和检验

配对设计:

整个资料涉及一个试验因素的两个水平,并且在这两个水平作用下获得的相同指标是成对出现的,每一对中的两个数据来自于同一个个体或条件相近的两个个体。

1.3.成组设计一元定量资料t检验

成组设计定义:

设试验因素A有A1,A2个水平,将全部n(n最好是偶数)个受试对象随机地均分成2组,分别接受A1,A2,2种处理。

再设每种处理下观测的定量指标数为k,当k=1时,属于一元分析的问题;当k≥2时,属于多元分析的问题。

在成组设计中,因2组受试对象之间未按重要的非处理因素进行两两配对,无法消除个体差异对观测结果的影响,因此,其试验效率低于配对设计。

T检验分析前提条件:

独立性、正态性和方差齐性。

1.4.成组设计一元定量资料Wilcoxon秩和检验

不符合参数检验的前提条件,故选用非参数检验法,即秩和检验。

1.5.单因素k(k>=3)水平设计定量资料一元方差分析

方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。

这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。

方差分析的假定条件为:

  

(1)各处理条件下的样本是随机的。

  

(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。

(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。

(4)各处理条件下的样本方差相同,即具有齐效性。

1.6.单因素k(k>=3)水平设计定量资料一元协方差分析

协方差分析(AnalysisofCovariance)是将回归分析与方差分析结合起来使用的一种分析方法。

在这种分析中,先将定量的影响因素(即难以控制的因素)看作自变量,或称为协变量(Covariate),建立因变量随自变量变化的回归方程,这样就可以利用回归方程把因变量的变化中受不易控制的定量因素的影响扣除掉,从而,能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的样本均数之间的差别是否有统计学意义,这就是协方差分析解决问题的基本计算原理。

在试验中,试验因素有时会受到某个重要的定量的非试验因素的影响,为了消除这种定量非试验因素对定量观测结果的影响和干扰。

前提条件:

一、要求各组定量资料(主要指观测结果)来自方差相等的正态总体;

二、各组的总体回归斜率要相等且不等于零。

1.7.单因素k(k>=3)水平设计一元定量资料Kruskal-Wallis秩和检验

定量资料不满足参数检验的前提条件时,则可选择秩和检验

2.单因素设计一元生存资料差异性分析

生存分析(SurvivalAnalysis)是将重点事件的出现与否和达到终点所经历的时间结合起来的一种统计分析方法,其主要特点就是考虑了每个观察对象达到终点所经理的时间长短。

终点事件不限于死亡,可以是疾病的发生、一种处理(治疗)的反映、疾病的复发等。

生存分析可用于生存曲线估计、生存曲线比较、影响因素分析和生存预测。

生存分析有一套完整的方法:

统计描述(包括求生存时间的分位数、中位生存期、平均数、生存函数的估计、判断生存时间分布的图示法)、非参数检验(检验分组变量各水平所对应的生存曲线是否一致)、COX模型(半参数)回归分析、参数模型回归分析。

研究者比较k条生存曲线之间是否有显著差别时,SAS软件提供了3种常用的方法:

对数秩检验(log-rankTest)、威尔考克森(WilcoxonTest)和似然比检验(LikelihoodRatioTest)。

当生存时间的分布为Weibull分布或属于比例风险比模型时,Log-Rank检验效率较高;当生存时间的分布为对数正态分布时,Wilcoxon检验效率较高;因似然比检验是建立在指数分布模型上的,故当资料偏离此模型时,其结果不如前两种检验方法稳健。

非参数法估计生存率有乘积极限法(Product-LimitMethod,PL)和寿险法(LifeTableMethod),其中乘积极限法又称为Kaplan-Meier法(简称KM法)。

前者适用于小样本或大样本未分组资料,后者适用于观察倒数较多的分组资料。

3.多因素设计一元定量资料差异性分析

3.1.随机区组设计一元定量资料方差分析与Friedman秩和检验

随机区组设计(Randomizedblockdesign),亦称完全随机区组设计(randomcompleteblockdsign)。

这种设计的特点是根据“局部控制”的原则,将试验地按肥力程度划分为等于重复次数的区组,一区组安排一重复,区组内各处理都独立的随机排列。

参数检验前提条件:

独立性、正态性和方差齐性

若不满足参数检验的前提条件,采用秩和检验。

3.2.双因素无重复实验设计一元定量资料方差分析

有两个试验因素,全部试验条件由两因素各水平全面组合而成,在每个条件下获得定量资料的均值数据。

3.3.平衡不完全随机区组设计一元定量资料方差分析

所谓平衡不完全随机区组试验(BalancedIncompleteBlockDesign,简称BIB试验)就是试验方案因受地块限制,不能把试验处理全部安置在试验区组内的情况下,所进行的试验设计。

其缺点是:

区组数必须严格按规定数目设立,缺一不可,否则各处理之间的比较将失去均衡性。

BIB试验设计需满足如下条件:

其中N为试验小区总数;

为任两处处理在同一区组中出现的次数;

是每个处理的重复数;b是不完全随机区组数;k是每区组内的小区数。

3.4.拉丁方设计一元定量资料方差分析

拉丁方设计(Latinsquaredesign)使研究人员得以在统计上控制两个不相互作用的外部变量并且操纵自变量。

每个外部变量或分区变量被划分为一个相等数目的区组或级别,自变量也同样被分为相同数目的级别。

拉丁方以表格的形式被概念化,其中行和列代表两个外部变量中的区组,然后将自变量的级别分配到表中各单元中。

简单的说就是某一变量在其所处的任意行或任意列中,只出现一次。

假设我现在要做一个实验,被试一共要进行5个小测试,并且需要重测多次,因此对这5个测试的排序就需要列入变量控制之内,不可能多次都一样的顺序,因此为了平衡这种顺序效应,采取拉丁方设计,先命名5个小测试分别为1,2,3,4,5。

那么对其的排序就是这样的:

  

第一组测试顺序:

1,2,5,3,4

第二组测试顺序:

2,3,1,4,5

第三组测试顺序:

3,4,2,5,1

第四组测试顺序:

4,5,3,1,2

第五组测试顺序:

5,1,4,2,3

其顺序是这样确定的,横排:

1,2,n,3,n-1,4,n-2……(n代表要排序的量的个数)竖排:

1,2,3,4,5再轮回。

3.5.二阶段交叉设计一元定量资料方差分析

在医学研究中,要将A、B两种处理先后施加于同一批试验对象,随机地使半数受试者先接受A后接受B,而另一半受试者正好相反,即先接受B再接受A。

由于两种处理在全部试验过程中交叉进行,这种设计称为交叉设计(cross-overdesign)。

在交叉设计中,A、B两种处理先后以同等的机会出现在两个试验阶段中,故又称为两阶段交叉设计。

试验效应受到3个因素的影响,一个是处理因素,一个是处理顺利因素,还有一个是试验阶段因素,而且必须保证这3个因素之间没有交互作用。

虽然交叉试验的处理是单因素,但影响试验结果的因素还有非人为控制的受试者的个体差异和试验阶段这两个因素。

因此,该设计不仅平衡了处理顺序的影响,而且能把处理方法间的差别、时间先后之间的差别和受试者之间的差别分别进行分析。

3.6.析因设计一元定量资料方差分析

析因设计是一种多因素的交叉分组设计。

它不仅可检验每个因素各水平间的差异,而且可检验各因素间的交互作用。

两个或多个因素如存在交互作用,表示各因素不是各自独立的,而是一个因素的水平有改变时,另一个或几个因素的效应也相应有所改变;反之,如不存在交互作用,表示各因素具有独立性,一个因素的水平有所改变时不影响其他因素的效应。

3.7.含区组因素的析因设计一元定量资料方差分析

3.8.嵌套设计一元定量资料方差分析

试验中涉及两个或多个试验因素,且依据专业知识可以认为各试验因素对观测指标的影响有主次之分,主要因素各水平下嵌套着次要因素,次要因素各水平下又嵌套着更次要的因素,这样的试验设计称为嵌套设计。

此类设计有两种情形:

第一种情形是,受试对象本身具有分组再分组的各种分组因素,处理(即最终的试验条件)是各因素各水平的全面组合,且因素之间在专业上有主次之分(如年龄与性别对心室射血时间的影响,性别的影响大于年龄);第二种情形是,受试对象本身并非具有分组再分组的各种分组因素,处理(即最终的试验条件)不是各因素各水平的全面组合,而是各因素按其隶属关系系统分组,且因素之间在专业上有主次之分(如研究不同代次不同家庭成年男性的身高资料,不同家庭之间的差别大于同一个家庭内部不同代次之间的差别)。

3.9.裂区设计一元定量资料方差分析

试验因素分两阶段进入试验过程,通常由先进入试验的试验因素(设为A)构成单因素多水平设计或由先进入试验的试验因素(设为A)与区组因素(设为B)构造出含m次独立重复试验的随机区组设计;再把接受因素A各水平处理或接受因素A与因素B各组合水平处理的m个受试对象随机地分配给在第二阶段进入试验的试验因素C的m个水平,这样安排试验因素的方法称为裂区设计或分割设计。

结合实际问题,当试验研究过程自然形成2个或多阶段(有时称为工序),各阶段涉及的试验因素彼此不同,但需要等整个试验过程结束后,才能观测定量指标的结果,就需要用到此设计。

3.10.正交设计一元定量资料方差分析

正交试验设计(Orthogonalexperimentaldesign)是研究多因素多水平的又一种设计方法,它是根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备了“均匀分散,齐整可比”的特点,正交试验设计是分析因式设计的主要方法。

是一种高效率、快速、经济的实验设计方法。

正交表是一整套规则的设计表格,每个因素的每个水平与另一个因素各水平各碰一次,这就是正交性。

进行c因素t水平n次试验的正交表为

,其中,L为正交表的代号,n为试验的次数,t为水平数,c为列数,也就是可能安排最多的因素个数。

3.11.重复测量设计一元定量资料方差分析

重复测量设计指将一组或多组被试者先后重复地施加不同的实验处理,或在不同场合和时间点被测量至少两次的情况。

重复测量设计大体有两类.一类是对每个人在同一时间不同因子组合间测量;另外一类是对每个人在不同时间点上重复.前者常见于裂区设计,而后者常见于经典试验设计即包括前测,处理,一次或几次后测的情况.后者比前者要多见。

3.12.常见多因素实验设计一元定量资料协方差分析

试验中存在极为重要的非试验因素,需进行协方差分析,判断其对主要因素的影响。

3.13.多个单因素两水平设计定量资料Meta分析

Meta分析是指用统计学方法对收集的多个研究资料进行分析和概括,以提供量化的平均效果来回答研究的问题.其优点是通过增大样本含量来增加结论的可信度,解决研究结果的不一致性。

meta分析是对同一课题的多项独立研究的结果进行系统的、定量的综合性分析。

它是文献的量化综述,是以同一课题的多项独立研究的结果为研究对象,在严格设计的基础上,运用适当的统计学方法对多个研究结果进行系统、客观、定量的综合分析。

基本分析步骤:

(1)明确简洁地提出需要解决的问题。

(2)制定检索策略,全面广泛地收集随机对照试验。

(3)确定纳入和排除标准,剔除不符合要求的文献。

(4)资料选择和提取。

(5)各试验的质量评估和特征描述。

(6)统计学处理。

  a.异质性检验(齐性检验)。

  b.统计合并效应量(加权合并,计算效应尺度及95%的置信区间)并进行统计推断。

  c.图示单个试验的结果和合并后的结果。

  d.敏感性分析。

  e.通过“失安全数”的计算或采用“倒漏斗图”了解潜在的发表偏倚。

(7)结果解释、作出结论及评价。

(8)维护和更新资料。

4.单因素设计多元定量资料差异性分析

4.1.单因素设计定量资料多元方差和协方差分析

在某试验设计之下,若每次只分析一个或多个定性影响因素对一个定量指标的影响,常采用一元方差分析;若每次用参数法同时分析一个或多个定性影响因素对两个或者两个以上在专业上有一定联系的定量指标的影响时,就称为多元方差分析(MultivariateAnalysisofVariance,MANOVA)。

做方差分析时,影响因素都是定性的。

当除了定性的影响因素之外还有定量的影响因素存在(或者不可忽略)时,要分析各影响因素对定量指标的影响,则需要采用另外一种统计学分析方法,即协方差分析(AnalysisofCovariance)才能达到目的。

5.多因素设计多元定量资料差异性分析

5.1.多因素设计定量资料多元方差分析和协方差分析

对定性结果进行差异性分析

6.单因素设计一元定性资料差异性分析

6.1.单组设计一维表资料统计分析

group

count

1

978

2

22

6.2.配对设计四格表资料统计分析

1.先将实验对象配对后随机安排到两个不同处理组,所得的二分类结果的资料。

2.同一批对象两个时间点(或两个部位)的测定,或同一对象用两种方法(或两种仪器、两名化验员、两种条件)的测定,所得的二分类(如阳性、阴性)结果的资料。

6.3.配对设计扩大形式的方表资料统计分析

配对设计扩大形式的方表形式

-

+

++

+++

合计

-

15

0

2

3

20

+

2

19

1

2

24

++

1

3

17

0

21

+++

0

2

0

6

8

合计

18

24

20

11

73

6.4.成组设计横断面研究四格表资料统计分析

性别

人数

通过

未通过

合计

41

32

73

43

8

51

合计

84

40

124

该表设计上属于结果变量为二值变量的成组设计定性资料,列联表分类上属于横截面研究设计四格表资料。

6.5.成组设计队列研究四格表资料统计分析

血压情况

例数

患者

未患病

合计

偏好

19

61

80

正常

20

465

485

合计

39

526

565

该资料是成组设计队列研究四格表资料。

队列研究设计是通过对不同暴露水平的对象进行追踪观察,随访观察疾病发生情况,从而判断该因素与发病之间有无关联。

6.6.成组设计病例对照研究四格表资料统计分析

喂养方式

例数

患龋

未患龋

合计

母乳

37

81

118

人工或混合

66

76

142

合计

103

157

260

该表是成组设计病例对照研究四格表资料。

病例对照设计是以确诊的患者作为病例,以不患该病但具有可比性的个体作为对照,收集以往危险因素的暴露史,用统计学方法比较两组中危险因素的暴露比例,从而判断因素与疾病之间是否存在统计学关联。

6.7.成组设计结果变量为多值有序变量的2×C表资料统计分析

6.8.成组设计结果变量为多值名义变量的2×C表资料统计分析

6.9.单因素多水平设计无序原因变量R×2表资料统计分析

6.10.单因素多水平设计有序原因变量R×2表资料统计分析

6.11.单因素多水平设计双向无序R×C表资料统计分析

6.12.单因素多水平设计有序结果变量R×C表资料统计分析

6.13.单因素多水平设计双向有序R×C表资料统计分析

7.多因素设计一元定性资料差异性分析

7.1.用加权

检验处理结果变量为二值变量的高维列联表资料

在三维列联表中,通常有两个原因变量和一个结果变量,不同的研究目的决定了选用不同的统计分析方法。

对于结果变量为二值变量的高维列联表,可选用加权

检验、CMH

检验、多重logistic回归、对数线性模型等。

若不想用复杂的对数线性模型模型或logistic回归模型来分析三维列联表资料,并且资料又不合适采用简单“合并”方式处理时,就可采用加权

检验(消除掉一个原因变量对结果变量的影响,考察另一个原因变量与结果变量之间是否独立)、CMH

检验(消除掉一个原因变量对结果变量的影响,计算优势比OR或相对危险度RR,并对其进行假设检验)。

这两种检验方法都无法回答被合并掉的那个原因变量对结果变量的影响作用有多大,只是对其进行分层计算,即评价另一个原因变量对结果变量的影响时将其对结果变量的影响扣除掉。

7.2.用CHM

检验处理结果变量具有3种性质的高维列联表资料

结果变量为二值变量的三维列联表,可以选用加权

检验,CMH

检验、logistic回归和对数线性模型。

CMH统计分析(CochranMantelHaenszelStatics)是在MH统计分析方法的基础上发展并提出来的,现在统称为扩展的MH卡方统计量,也统称为MH检验,用于分层分析即控制混杂因素后对二维列联表资料的统计处理。

结果变量为多值有序变量的高维列联表资料,可以选用CMH

检验(即CMH校正的秩和检验)和有序变量logistic回归分析进行处理。

对数线性模型无法利用资料的有序性,因此不宜选用。

若采用有序变量多重logistic回归分析,应注意结合原因变量是否存在多值名义变量或多值有序变量而决定对原因变量的赋值方法。

结果变量为多值无序变量的高维列联表资料,可以采用CMH

检验、扩展的logistic回归分析和对数线性模型。

注,CMH

检验包含三种检验方法:

(1)非零相关检验(适合于原因变量与结果变量都是多值有序变量)

(2)行平均得分检验(仅考察原因变量全部水平组之间在结果上的差别是否具有统计学意义,结果变量必须是多值有序变量)。

(3)一般关联性检验(适合于原因变量和结果变量都是名义变量)。

这里所提及的“原因变量”是指在多个原因变量中被保留下来的那个原因变量。

7.3.用Meta分析分别合并处理多个成组设计定性资料

7.4.ROC方法分析诊断试验资料

8.多因素设计一元定性资料对数线性模型分析

8.1.用对数线性模型分析列联表资料

对数线性模型是分析高维列联表行之有效的方法,最先由Yule、Bartlett利用Yule(1900年)定义的交叉乘积比分析三维交互作用,然后由Kullback(1968年)引入方差分析的思想发展而来。

对数线性模型把各分组变量(包括自变量和因变量)水平组合下期望(理论频数)的自然对数表示为各组变量及其交互作用的线性函数,通过迭代计算求得模型中参数的估计值,进而运用方差分析的思想检验各主效应和交互作用的效应大小。

对定量结果进行预测性分析

9.两变量简单线性回归分析

9.1.Pearson线性相关分析

当两个变量取值之间出现一个增大,另一个也增大(或减小)的情况时,则称这种现象为共变,也就是说这两个变量之间有“相关关系”。

简单线性相关关系是描述两定量变量间是否含有直线关系以及直线关系的方向和密切程度的分析方法。

此分析方法主要通过计算相关系数的大小并对其进行假设检验以及结合专业知识来评价得到的相关系数是否有实际意义来完成。

前提条件:

两变量需满足正态分布。

9.2.Spearman秩相关分析

在做Pearson相关分析时,要求两变量服从正态分布,然而当得到的原始数据并不服从正态分布或其总体分布未知,有时3数据中还存在所谓“超限值”(如限于仪器的灵敏度,仅知道血样某物质浓度小于0.001ug/ml),甚至数据本身就是等级材料。

此时,宜采用等级相关或称秩相关来分析两变量的线性联系程度与方向。

这类方法是利用两变量的秩次大小做线性相关分析,对原变量分布不做要求,属非参数统计分析方法。

9.3.简单线性回归分析

简单线性回归分析是用直线回归方程表示两个定量变量间依存关系的统计分析方法。

此分析方法主要由三部分组成:

(1)计算反映两定量变量依赖关系的直线回归方程,即计算直线回归方程的截距a、斜率b。

(2)根据样本截距a、斜率b,检验样本所抽自的总体截距

是否为0、总体斜率

是否为0。

(3)结合专业知识,评价此直线回归方程是否有实用价值。

前提条件:

①线性(linear):

即X和Y之间的关系为线性关系;

②独立(independent):

即n个个体的观察资料间必须是独立的;

③正态(normal):

即给定X后,Y为正态分布,且Y的均数就是回归线上对应于X值的点;

④等方差(equalvariance):

即不同X值对应的Y的分布具有相同的方差,换句话说Y的方差与X无关。

9.4.加权线性回归分析

此方法未弄明白。

10.两变量可直线化曲线回归分析

10.1.对数函数、幂函数和双曲函数曲线回归分析

1.对数函数

对数函数:

变化方法:

直线化结果:

2.幂函数

幂函数:

变换方法:

直线化结果:

3.双曲线函数

双曲线函数:

(a>0)变换方法:

直线化结果:

10.2.指数函数曲线回归分析

指数函数:

变换方法:

直线化结果:

10.3.Logistic函数曲线回归分析

Logistic曲线:

变换方法:

直线化结果:

11.各种复杂曲线回归分析

11.1.多项式曲线回归分析

二项式

的可能曲线形式有:

三项式

的可能曲线形式有:

11.2.Logistic曲线回归分析

11.3.Gompertz曲线回顾分析

Gompertz曲线方程:

,L为上渐近线。

11.4.二项型指数曲线回归分析

二项式指数曲线:

11.5.三项型指数曲线回归分析

三项式指数曲线:

12.多重线性回归分析

多重线性回归是指因变量为一个、自变量为多个的线性回归分析。

前提条件:

1、自变量与因变量之间存在线性关系;

2、各观测间相互独立;

3、残差服从正太分布;

4、方差齐性。

需要注意的是,在回归方程中,不能直接根据各自变量回归系数绝对值的大小来评价该自变量的作用大小,因为自变量的单位不尽相同,回归系数的大小要收到单位的影响。

如果要比较各自变量的作用大小,应消除自变量单位的影响,这就需要求标准化的回归系数。

标准化回归系数没有量纲,统计学上常用它的绝对值大小来衡量自变量对因变量影响的相对重要性,标准化回归系数的绝对值越大,说明该自变量对隐变量的作用越大。

13.主成分回归分析

主成分回归分析是将多个彼此相关、信息重叠的指标通过适当的线性组合,使之成为彼此独立而又提取了原指标变异信息并带有特定专业含义的综合潜变量,即主成分,建立潜变量和因变量间的线性回归方程,再将回归方程中的潜变量转换为原自变量的一种统计学方法。

多重线性回归分析和主成分回归分析都是用于分析单因素设计多元定量资料的统计学方法。

基本步骤:

(1)进行多重线性回归分析,并进行共线性诊断;

(2)如果自变量之间存在共线性,则可选择进行主成分分析,以解决由于共线性的影响,造成回归结果不合理或无法解释的问题。

(3)用主成分分析求自变量的主成分和主成分得分,将贡献率小的主成分舍弃。

(4)将因变量对保留的主成分得分进行回归分析

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工作范文 > 行政公文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1