统计分析方法Word文档下载推荐.docx

上传人:b****6 文档编号:20377691 上传时间:2023-01-22 格式:DOCX 页数:21 大小:318.82KB
下载 相关 举报
统计分析方法Word文档下载推荐.docx_第1页
第1页 / 共21页
统计分析方法Word文档下载推荐.docx_第2页
第2页 / 共21页
统计分析方法Word文档下载推荐.docx_第3页
第3页 / 共21页
统计分析方法Word文档下载推荐.docx_第4页
第4页 / 共21页
统计分析方法Word文档下载推荐.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

统计分析方法Word文档下载推荐.docx

《统计分析方法Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《统计分析方法Word文档下载推荐.docx(21页珍藏版)》请在冰豆网上搜索。

统计分析方法Word文档下载推荐.docx

Explore-->

选右上角的Plots-->

打开后,选中间的normallyplotswithtests 

-->

OK。

结果就出来啦

TestsofNormality

Kolmogorov-Smirnova

Shapiro-Wilk

Statistic

df

Sig.

rand

.048

111

.200*

.990

.596

3、它会用两种方法来检验正态分布,当sig>

0.05时服从正态分布,如果不服从正态分布,就要看峰度和偏度啦:

偏度主要是研究分布形状是否对称。

约=0则可以认为分布是对称的;

>

0则可以认为右偏态,此时在均值右边的数据更为分散;

<

0则可以认为左偏态,同理。

峰度它是以正态分布为标准,比较两侧极端数据分布情况的指标。

正态的=0

0此时分布有一个沉重的尾巴

0正好相反

附加检验:

(Ⅱ)附加检验之一,观察正态概率图,如果数据来自正态分布,图形的散点应该呈现一条直线。

用Plot绘制正态分布的概率图,里面的“+”构成一条直线(正态分布数据概率图散点应该成一条直线),“*”代表样本数据散点。

根据“*”覆盖“+”的程度,说明样本数据是否来自正态分布数据。

(Ⅲ)附加检验之二,绘制数据的条形图,如果数据来自正态分布,条形图呈现“钟形”分布。

用histogram绘制直方图/normal在直方图中拟合正态分布的密度曲线,可以看到,曲线几乎是个标准钟形,可以认为数据是正态分布。

(Ⅳ)附加检验之三,观察描述性统计量中偏度系数(Skewness)g1和峰度系数(Kurtosis)g2,如果数据来自正态分布,则两者都应该是0。

用g1,g2,бg1,бg2来计算U值,用U检验法。

U1=同理计算U2,要两个都小于1.96,即p大于0.05才可以

SAS过程

正态分布检验的一般格式如下:

procunivariatedata=数据集normal;

var变量;

histogram变量;

/*产生直方图*/

probplot变量;

/*产生概率分布图*/

run;

在检验中,我们的零假设是变量服从正态分布,如果testfornormality检验结果的p值小于0.05水平,则拒绝零假设,否则接受零假设。

单变量均值检验(单样本的均值t检验)

所谓单变量均值检验就是检验变量的均值是否等于某个给定的值。

如果一个变量服从正态分布,那么可以用T检验(One-SampleTTest)来对它进行均值检验。

Analyze——CompareMeans——One-SampleTTest

One-SampleStatistics

N

Mean

Std.Deviation

Std.ErrorMean

-.1244

1.01700

.09653

均值为-0.1244,比给定的0稍微小一点,接着看下面的结果

One-SampleTest

TestValue=0

t

Sig.(2-tailed)

MeanDifference

95%ConfidenceIntervaloftheDifference

Lower

Upper

-1.289

110

.200

-.12443

-.3157

.0669

解释:

T值等于-1.289,自由度为110,双尾SIG.(significance的缩写)值为0.200大于0.05,因此我们可以说原假设成立,即均值在0.05水平下等于0。

T检验的一般格式如下:

procttestdata=数据集H0=某个值;

/*必须指明零假设H0*/

var变量;

记录数为22E4,均值为26.76,方差为42.84,获得的t值为-253.439,自由度为218177,P值小于0.0001,所以我们拒绝原假设,即可以说均值不等于50。

注意:

前提是该变量服从正态分布,正态分布检验参考相关正态分布检验介绍

Ø

两独立样本的均值检验

两独立样本的t检验用于两个独立样本的均数比较。

前提条件:

两独立样本都来自正态分布,并且在t检验之前需要进行方差齐性检验(f检验)。

Analyze——CompareMeans——independent-SampleTTest

GroupStatistics

group

var1

1

84

-.1226

1.02133

.11144

2

27

-.1301

1.02266

.19681

基本统计量

IndependentSamplesTest

Levene'

sTestforEqualityofVariances

(方差齐性检验)

t-testforEqualityofMeans

(均值相等的t检验)

F

Std.ErrorDifference

Equalvariancesassumed

.085

.772

.033

109

.974

.00746

.22602

-.44050

.45542

Equalvariancesnotassumed

43.929

.22617

-.44837

.46330

通过上面两个表的方差以及方差齐性检验可以看到sig值为0.772>

0.05,没有显著差异(方差齐),均值检验双尾sig0.974>

0.05,我们可以说两独立样本的均值没有明显差异。

两独立样本的均值T检验的一般格式如下:

procttestdata=数据集;

class分类变量;

第一部分为基本统计量;

第二部分为2样本t检验的结果,第一行是假设方差相等使用pooled方法得出的结果,第二行是方差不等使用satterthwaite方法得到的近似t检验结果;

第三部分为两独立样本(2组)方差是否相等(方差齐性)的检验结果;

首先第三部分P值0.2994>

0.05,方差齐(相等),再看第二部分uqual部分的结果p值0.1814>

0.05,我们可以说均值相等。

配对(成对)总体均值检验(配对样本的t检验,Paired-SampleTTest)

检验两个有联系正态总体/样本的均值是否存在显著的差异。

如检验某种产品广告的前后销量是否显著有差异,需要对广告前后销量进行比较。

前提:

正态分布

Analyze——CompareMeans——Paired-SampleTTest

PairedSamplesStatistics——样本基本统计量

Pair1

var2

.2026

.91468

.08682

PairedSamplesCorrelations——配对样本相关分析

Correlation

var1&

var2

.044

.645

PairedSamplesTest——配对样本均值差检验表

PairedDifferences

var1-var2

-.32704

1.33744

.12694

-.57861

-.07546

-2.576

.011

得到双尾sig.等于0.011<

0.05,拒绝原假设,可以得出前后差异显著。

对前后的差值(add=new-old)进行单因素t检验

例如:

varadd;

回归分析

回归分析是统计分析的一项重要内容,可以帮助我们了解变量之间的数量关系。

●线性回归分析

1、线性回归的假设理论

(1)正态性假设:

即所研究的变量均服从正态分布;

(2)等方差假设:

即各变量总体的方差是相等的;

(3)独立性假设,即各变量之间是相互独立的;

(4)残差项无自相关性,即误差项之间互不相关,Cov(ei,ej=0

2、线性回归模型的检验项目

(1)回归系数的检验(t检验)

(2)回归方程的检验(F检验)

(3)拟合程度判定(可决系数R2)

(4)D.W检验(残差项是否自相关)

(5)共线性检验(多元线性回归)

(6)残差图示分析(判断异方差性和残差序列自相关)

Analyze——Regression——Linear

SAS提供的回归过程比较多,包含REG(回归)过程、rsreg(二次响应面回归)过程、orthoreg(病态数据回归)过程、nlin(非线性回归)过程、transreg(变换回归)过程、calis(线性机构方程和路径分析)过程、glm(一般线性回归)过程、genmod(广义线性回归)过程等

reg的一般格式:

PROCREGDATA=数据集选项;

VAR变量列表;

MODEL因变量=自变量列表/selection=回归模型;

PRINT输出结果;

PLOT诊断图形;

RUN;

使用不同的线性回归模型

selection=forward为顺向选择法,将全模型中的自变项逐一加入至最佳模型

selction=backward为反向排除法,将全模型中的自变项逐一去除至最佳模型

selection=stepwise为逐步排除法,为前二者之合并

PROCREGDATA=SASUSER.SCORE;

VARMATHENGLISHCHINESE;

MODELMATH=ENGLISHCHINESE;

回归结果为第三部分,可以看到P都大于0.05,则English、Chinese的作用不显著。

Nlin过程(非线性回归)

所谓非线性回归就是指因变量的表达式是非线性的。

由于非线性回归的模型比较复杂,为了估计系数而需要进行的计算量也很大,所以在过程中需要指明模型的表达式且给定系数的初始值。

以stock为例

首先假设模型为:

price=b0*eps+b1*scale+b2*eps*scale+b3

设定b0、b1、b2、b3的初始值分别为1、1、1、10然后编程如下:

procnlindata=stock;

modelprice=b0*eps+b1*scale+b2*eps*scale+b3;

parametersb0=1b1=1b2=1b3=10;

/*parameters可缩写为parms*/

得到结果如下:

分析结果包括5个部分

iterativephase:

主要计算迭代情况,给出每次迭代序号以及每次迭代中的系数值。

在这次回归过程中,用牛顿法(newton)进行了2次迭代达到了收敛临界值。

estimationsummary:

回归过程的总结,使用了什么方法、哪些数据。

方差分析表:

介绍各部分方差的来源,给出回归模型的p值,检验回归模型的是否有效。

在这里,回归模型的p值为0.0004<

0.05,所以模型是显著的。

approx:

近似系数表,给出系数的估计值、估计标准差、95%置信上下限。

ApproximateCorrelationMatrix:

近似相关系数矩阵,给出模型参数的相关系数矩阵的估计值。

在使用nlin过程的时候不是给定任意一个模型和初始值都能干得到回归结果,不恰当的初始值和模型很可能无法得到正常的回归模型,这个时候可以试着调整模型和参数的初值。

GLM过程

glm是一般线性模型的缩写,使用的是最小二乘法来回归线性的模型。

在glm过程不但可以进行回归分析,还可以进行方差分析、协方差分析、多变量方差分析、偏相关系数分析。

一般格式为:

PROCGLM<

options>

;

CLASSvariables<

/option>

MODELdependents=independents<

/options>

ABSORBVARIABLES;

BYVARIABLES;

FREQVARIABLE;

IDVARIABLES;

WEIGHTVARIABLE;

CONTRAST'

label'

effectvalues<

...effectvalues>

<

ESTIMATE'

LSMEANSeffects<

MANOVA<

test-options>

/detail-options>

MEANSeffects<

OUTPUT<

OUT=SAS-data-set>

keyword=names<

...keyword=names>

RANDOMeffects<

REPEATEDfactor-specification<

TEST<

H=effects>

E=effect<

结果在最后一部分,给出了参数的估计值和P值,小于0.05则模型显著。

orthoreg过程

病态数据回归过程,它的数学核心是最小二乘法。

当处理一些病态数据的时候,得到的结果比其他的线性回归方法(reg、glm)精确得多。

procorthoregdata=Longley;

modelEmployment=PricesPrices*Prices

GNPGNP*GNP

JOBLESSJOBLESS*Jobless

MilitaryMilitary*Military

POPSIZEPOPSIZE*PopSize

YearYear*Year;

结果略

第一部分为方差分析表,下面是参数的估计值。

方差分析

方差分析(ANOVA)又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。

●单因素方差分析

单因素方差分析是最简单的方差分析,指分析一个变量不同情况下的值是否有差异。

方差分析的核心思想是把样本与平均值的方差分解为两部分,一部分来自不同因素的差异,一部分来自同组之间的差异,如果不同因素之间的差异占到一个比较大的比例,那么有理由相信各因素之间是有明显差异的。

正态性检验,独立性检验,方差齐性

anova过程一般格式

procanovadata=数据集;

CLASS因素;

MODEL结果=因素;

例如

procanova;

classbrand;

modelNitrogen=brand;

meansbrand/t;

除了ANOVA过程,GLM过程也可以进行单因素的方差检验。

PROCGLMDATA=数据集;

MODEL结果=因素;

●多因素方差分析

多个因素交叉作用,常用anova(要求数目相等)和glm过程(数目可不等)

classPainLevelCodeineAcupuncture;

modelRelief=PainLevelCodeine|Acupuncture;

其中A|B=ABA*B(交互作用)

modelRelief=PainLevelCodeineAcupuncture;

另外可以在期间添加means变量列表;

核心思想与接过解释统上单因素方差分析

另附:

PROCANOVA<

options>

/option>

MODELdependents=effects<

/options>

ABSORBvariables;

BYvariables;

FREQvariable;

test-options>

/detail-options>

H=effects>

E=effect;

列联表检验

对于一些离散值的变量要检验它们之间是否独立,只能使用列联表的检验方法。

零假设:

因素x与因素y独立。

列联表检验的核心是x2检验,比较频数与理论均值的差,如果差异达到一定程度,则说明两个因素之间具有一定的关系。

列联表检验是通过在freq过程中添加x2检验的选项来实现,一般用法如下:

procfreqdata=数据集;

tables因素a*因素b/chisq;

weight试验结果;

Procfreqdata=heart;

Tablesa*b/chisq;

Weightf;

Run;

第一部分为频数统计表

第二部分为卡方检验的结果

第三部分为fisher精确检验的结果,卡方检验要求每个单元格的频数不少于5,否则就要看fisher精确检验的结果。

PROCFREQ<

BYvariables;

EXACTstatistic-options<

/computation-options>

OUT=SAS-data-set>

options;

TABLESrequests<

TESToptions;

WEIGHTvariable<

多元统计分析

⏹主成分分析

主成分就是由原来的m个变量生成的m个互不相关的、未丢失原有信息的新变量。

通过主成分分析,可以寻找能够理解观测结果本质的因素,并给出这些因素合理的解释。

主成分的基本条件与主成分的基本性质可概括如下:

主成分之间互不相关

全部m个主成分反映n例样本的总信息,等于m个原变量的总信息

各个主成分的作用大小是:

z1>

z2>

…>

zm

第i个主成分的贡献率为(λi/m)*100%

前P个主成分的累计贡献率为∑(λi/m)*100%,在观察结果时,如果前几个主成分的累计贡献率已经达到70%到85%以上,那么我们就取它们作为主成分

 

PRINCOMP过程简介

SAS中的PRINCOMP过程可以完成主成分分析,它的主要功能包括:

主成分的个数、名称可以由用户自己定义,主成分得分是否标准化自己确定

输入的数据集可以是原始数据集、相关阵、协方差阵

计算结果包括:

简单统计量、相关阵或协方差阵,从大到小排序的特征值以及对应的特征向量,各个主成分解释的方差比例以及累计比例

可以解释变量间的相关关系

PROCPRINCOMP<

FREQvariable;

PARTIALvariables;

VARvariables;

WEIGHTvariable;

举例:

procprincompout=Crime_Components;

得到如下结果

⏹解释:

从特征值表我们可以看到第一个特征值为4.11495951,它的贡献率为58.79%,第二个特征值为1.23872182,累计贡献率76.48%,第三个0.72581663,了几贡献

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1