统计分析方法Word文档下载推荐.docx

资源描述

统计分析方法Word文档下载推荐.docx

《统计分析方法Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《统计分析方法Word文档下载推荐.docx（21页珍藏版）》请在冰豆网上搜索。

统计分析方法Word文档下载推荐.docx

Explore-->

选右上角的Plots-->

打开后，选中间的normallyplotswithtests

-->

OK。

结果就出来啦

TestsofNormality

Kolmogorov-Smirnova

Shapiro-Wilk

Statistic

Sig.

rand

.048

111

.200*

.990

.596

3、它会用两种方法来检验正态分布，当sig>

0.05时服从正态分布,如果不服从正态分布，就要看峰度和偏度啦：

偏度主要是研究分布形状是否对称。

约＝0则可以认为分布是对称的；

0则可以认为右偏态，此时在均值右边的数据更为分散；

0则可以认为左偏态，同理。

峰度它是以正态分布为标准，比较两侧极端数据分布情况的指标。

正态的＝0

0此时分布有一个沉重的尾巴

0正好相反

附加检验：

（Ⅱ）附加检验之一，观察正态概率图，如果数据来自正态分布，图形的散点应该呈现一条直线。

用Plot绘制正态分布的概率图，里面的“+”构成一条直线（正态分布数据概率图散点应该成一条直线），“*”代表样本数据散点。

根据“*”覆盖“+”的程度，说明样本数据是否来自正态分布数据。

（Ⅲ）附加检验之二，绘制数据的条形图，如果数据来自正态分布，条形图呈现“钟形”分布。

用histogram绘制直方图/normal在直方图中拟合正态分布的密度曲线，可以看到，曲线几乎是个标准钟形，可以认为数据是正态分布。

（Ⅳ）附加检验之三，观察描述性统计量中偏度系数（Skewness）g1和峰度系数（Kurtosis）g2，如果数据来自正态分布，则两者都应该是0。

用g1,g2,бg1,бg2来计算U值，用U检验法。

U1=同理计算U2，要两个都小于1.96，即p大于0.05才可以

SAS过程

正态分布检验的一般格式如下：

procunivariatedata=数据集normal;

var变量;

histogram变量;

/*产生直方图*/

probplot变量;

/*产生概率分布图*/

run;

在检验中，我们的零假设是变量服从正态分布，如果testfornormality检验结果的p值小于0.05水平，则拒绝零假设，否则接受零假设。

⏹

单变量均值检验（单样本的均值t检验）

所谓单变量均值检验就是检验变量的均值是否等于某个给定的值。

如果一个变量服从正态分布，那么可以用T检验（One-SampleTTest）来对它进行均值检验。

Analyze——CompareMeans——One-SampleTTest

One-SampleStatistics

Mean

Std.Deviation

Std.ErrorMean

-.1244

1.01700

.09653

均值为-0.1244，比给定的0稍微小一点，接着看下面的结果

One-SampleTest

TestValue=0

Sig.（2-tailed）

MeanDifference

95%ConfidenceIntervaloftheDifference

Lower

Upper

-1.289

110

.200

-.12443

-.3157

.0669

解释：

T值等于-1.289，自由度为110，双尾SIG.（significance的缩写）值为0.200大于0.05，因此我们可以说原假设成立，即均值在0.05水平下等于0。

T检验的一般格式如下：

procttestdata=数据集H0=某个值;

/*必须指明零假设H0*/

var变量;

记录数为22E4,均值为26.76，方差为42.84，获得的t值为-253.439，自由度为218177，P值小于0.0001，所以我们拒绝原假设，即可以说均值不等于50。

注意：

前提是该变量服从正态分布，正态分布检验参考相关正态分布检验介绍

两独立样本的均值检验

两独立样本的t检验用于两个独立样本的均数比较。

前提条件：

两独立样本都来自正态分布，并且在t检验之前需要进行方差齐性检验（f检验）。

Analyze——CompareMeans——independent-SampleTTest

GroupStatistics

group

var1

-.1226

1.02133

.11144

-.1301

1.02266

.19681

基本统计量

IndependentSamplesTest

Levene'

sTestforEqualityofVariances

（方差齐性检验）

t-testforEqualityofMeans

（均值相等的t检验）

Std.ErrorDifference

Equalvariancesassumed

.085

.772

.033

109

.974

.00746

.22602

-.44050

.45542

Equalvariancesnotassumed

43.929

.22617

-.44837

.46330

通过上面两个表的方差以及方差齐性检验可以看到sig值为0.772>

0.05，没有显著差异（方差齐），均值检验双尾sig0.974>

0.05，我们可以说两独立样本的均值没有明显差异。

两独立样本的均值T检验的一般格式如下：

procttestdata=数据集;

class分类变量;

第一部分为基本统计量；

第二部分为2样本t检验的结果，第一行是假设方差相等使用pooled方法得出的结果，第二行是方差不等使用satterthwaite方法得到的近似t检验结果；

第三部分为两独立样本（2组）方差是否相等（方差齐性）的检验结果；

首先第三部分P值0.2994>

0.05，方差齐（相等），再看第二部分uqual部分的结果p值0.1814>

0.05，我们可以说均值相等。

配对（成对）总体均值检验（配对样本的t检验，Paired-SampleTTest）

检验两个有联系正态总体/样本的均值是否存在显著的差异。

如检验某种产品广告的前后销量是否显著有差异，需要对广告前后销量进行比较。

前提：

正态分布

Analyze——CompareMeans——Paired-SampleTTest

PairedSamplesStatistics——样本基本统计量

Pair1

var2

.2026

.91468

.08682

PairedSamplesCorrelations——配对样本相关分析

Correlation

var1&

var2

.044

.645

PairedSamplesTest——配对样本均值差检验表

PairedDifferences

var1-var2

-.32704

1.33744

.12694

-.57861

-.07546

-2.576

.011

得到双尾sig.等于0.011<

0.05，拒绝原假设，可以得出前后差异显著。

对前后的差值（add=new-old）进行单因素t检验

例如：

varadd;

回归分析

回归分析是统计分析的一项重要内容，可以帮助我们了解变量之间的数量关系。

●线性回归分析

1、线性回归的假设理论

（1）正态性假设：

即所研究的变量均服从正态分布；

（2）等方差假设：

即各变量总体的方差是相等的；

（3）独立性假设,即各变量之间是相互独立的；

（4）残差项无自相关性，即误差项之间互不相关，Cov（ei,ej=0

2、线性回归模型的检验项目

（1）回归系数的检验（t检验）

（2）回归方程的检验（F检验）

（3）拟合程度判定（可决系数R2）

（4）D.W检验（残差项是否自相关）

（5）共线性检验（多元线性回归）

（6）残差图示分析（判断异方差性和残差序列自相关）

Analyze——Regression——Linear

SAS提供的回归过程比较多，包含REG（回归）过程、rsreg（二次响应面回归）过程、orthoreg（病态数据回归）过程、nlin（非线性回归）过程、transreg（变换回归）过程、calis（线性机构方程和路径分析）过程、glm（一般线性回归）过程、genmod（广义线性回归）过程等

reg的一般格式：

PROCREGDATA=数据集选项;

VAR变量列表;

MODEL因变量=自变量列表/selection=回归模型;

PRINT输出结果;

PLOT诊断图形;

RUN;

使用不同的线性回归模型

selection=forward为顺向选择法，将全模型中的自变项逐一加入至最佳模型

selction=backward为反向排除法，将全模型中的自变项逐一去除至最佳模型

selection=stepwise为逐步排除法，为前二者之合并

PROCREGDATA=SASUSER.SCORE;

VARMATHENGLISHCHINESE;

MODELMATH=ENGLISHCHINESE;

回归结果为第三部分，可以看到P都大于0.05，则English、Chinese的作用不显著。

Nlin过程（非线性回归）

所谓非线性回归就是指因变量的表达式是非线性的。

由于非线性回归的模型比较复杂，为了估计系数而需要进行的计算量也很大，所以在过程中需要指明模型的表达式且给定系数的初始值。

以stock为例

首先假设模型为：

price=b0*eps+b1*scale+b2*eps*scale+b3

设定b0、b1、b2、b3的初始值分别为1、1、1、10然后编程如下：

procnlindata=stock;

modelprice=b0*eps+b1*scale+b2*eps*scale+b3;

parametersb0=1b1=1b2=1b3=10;

/*parameters可缩写为parms*/

得到结果如下：

分析结果包括5个部分

iterativephase：

主要计算迭代情况，给出每次迭代序号以及每次迭代中的系数值。

在这次回归过程中，用牛顿法（newton）进行了2次迭代达到了收敛临界值。

estimationsummary：

回归过程的总结，使用了什么方法、哪些数据。

方差分析表：

介绍各部分方差的来源，给出回归模型的p值，检验回归模型的是否有效。

在这里，回归模型的p值为0.0004<

0.05，所以模型是显著的。

approx：

近似系数表，给出系数的估计值、估计标准差、95%置信上下限。

ApproximateCorrelationMatrix：

近似相关系数矩阵，给出模型参数的相关系数矩阵的估计值。

在使用nlin过程的时候不是给定任意一个模型和初始值都能干得到回归结果，不恰当的初始值和模型很可能无法得到正常的回归模型，这个时候可以试着调整模型和参数的初值。

GLM过程

glm是一般线性模型的缩写，使用的是最小二乘法来回归线性的模型。

在glm过程不但可以进行回归分析，还可以进行方差分析、协方差分析、多变量方差分析、偏相关系数分析。

一般格式为：

PROCGLM<

options>

;

CLASSvariables<

/option>

MODELdependents=independents<

/options>

ABSORBVARIABLES;

BYVARIABLES;

FREQVARIABLE;

IDVARIABLES;

WEIGHTVARIABLE;

CONTRAST'

label'

effectvalues<

...effectvalues>

ESTIMATE'

LSMEANSeffects<

MANOVA<

test-options>

/detail-options>

MEANSeffects<

OUTPUT<

OUT=SAS-data-set>

keyword=names<

...keyword=names>

RANDOMeffects<

REPEATEDfactor-specification<

TEST<

H=effects>

E=effect<

结果在最后一部分，给出了参数的估计值和P值，小于0.05则模型显著。

orthoreg过程

病态数据回归过程，它的数学核心是最小二乘法。

当处理一些病态数据的时候，得到的结果比其他的线性回归方法（reg、glm）精确得多。

procorthoregdata=Longley;

modelEmployment=PricesPrices*Prices

GNPGNP*GNP

JOBLESSJOBLESS*Jobless

MilitaryMilitary*Military

POPSIZEPOPSIZE*PopSize

YearYear*Year;

结果略

第一部分为方差分析表，下面是参数的估计值。

方差分析

方差分析（ANOVA）又称变异数分析或F检验，其目的是推断两组或多组资料的总体均数是否相同，检验两个或多个样本均数的差异是否有统计学意义。

●单因素方差分析

单因素方差分析是最简单的方差分析，指分析一个变量不同情况下的值是否有差异。

方差分析的核心思想是把样本与平均值的方差分解为两部分，一部分来自不同因素的差异，一部分来自同组之间的差异，如果不同因素之间的差异占到一个比较大的比例，那么有理由相信各因素之间是有明显差异的。

正态性检验，独立性检验，方差齐性

anova过程一般格式

procanovadata=数据集;

CLASS因素;

MODEL结果=因素;

例如

procanova;

classbrand;

modelNitrogen=brand;

meansbrand/t;

除了ANOVA过程，GLM过程也可以进行单因素的方差检验。

PROCGLMDATA=数据集;

MODEL结果=因素;

●多因素方差分析

多个因素交叉作用，常用anova（要求数目相等）和glm过程（数目可不等）

classPainLevelCodeineAcupuncture;

modelRelief=PainLevelCodeine|Acupuncture;

其中A|B=ABA*B（交互作用）

modelRelief=PainLevelCodeineAcupuncture;

另外可以在期间添加means变量列表;

核心思想与接过解释统上单因素方差分析

另附：

PROCANOVA<

options>

/option>

MODELdependents=effects<

/options>

ABSORBvariables;

BYvariables;

FREQvariable;

test-options>

/detail-options>

H=effects>

E=effect;

列联表检验

对于一些离散值的变量要检验它们之间是否独立，只能使用列联表的检验方法。

零假设：

因素x与因素y独立。

列联表检验的核心是x2检验，比较频数与理论均值的差，如果差异达到一定程度，则说明两个因素之间具有一定的关系。

列联表检验是通过在freq过程中添加x2检验的选项来实现，一般用法如下：

procfreqdata=数据集;

tables因素a*因素b/chisq;

weight试验结果;

Procfreqdata=heart;

Tablesa*b/chisq;

Weightf;

Run;

第一部分为频数统计表

第二部分为卡方检验的结果

第三部分为fisher精确检验的结果，卡方检验要求每个单元格的频数不少于5，否则就要看fisher精确检验的结果。

PROCFREQ<

BYvariables;

EXACTstatistic-options<

/computation-options>

OUT=SAS-data-set>

options;

TABLESrequests<

TESToptions;

WEIGHTvariable<

多元统计分析

⏹主成分分析

主成分就是由原来的m个变量生成的m个互不相关的、未丢失原有信息的新变量。

通过主成分分析，可以寻找能够理解观测结果本质的因素，并给出这些因素合理的解释。

主成分的基本条件与主成分的基本性质可概括如下：

主成分之间互不相关

全部m个主成分反映n例样本的总信息，等于m个原变量的总信息

各个主成分的作用大小是：

z1>

z2>

…>

第i个主成分的贡献率为（λi/m）*100%

前P个主成分的累计贡献率为∑（λi/m）*100%，在观察结果时，如果前几个主成分的累计贡献率已经达到70%到85%以上，那么我们就取它们作为主成分

PRINCOMP过程简介

SAS中的PRINCOMP过程可以完成主成分分析，它的主要功能包括：

主成分的个数、名称可以由用户自己定义，主成分得分是否标准化自己确定

输入的数据集可以是原始数据集、相关阵、协方差阵

计算结果包括：

简单统计量、相关阵或协方差阵，从大到小排序的特征值以及对应的特征向量，各个主成分解释的方差比例以及累计比例

可以解释变量间的相关关系

PROCPRINCOMP<

FREQvariable;

PARTIALvariables;

VARvariables;

WEIGHTvariable;

举例：

procprincompout=Crime_Components;

得到如下结果

⏹解释：

从特征值表我们可以看到第一个特征值为4.11495951，它的贡献率为58.79%，第二个特征值为1.23872182，累计贡献率76.48%，第三个0.72581663，了几贡献

展开阅读全文