多元回归分析SPSS案例.docx

资源描述

多元回归分析SPSS案例.docx

《多元回归分析SPSS案例.docx》由会员分享，可在线阅读，更多相关《多元回归分析SPSS案例.docx（14页珍藏版）》请在冰豆网上搜索。

多元回归分析SPSS案例.docx

多元回归分析SPSS案例

多兀回归分析

在大多数的实际问题中，影响因变量的因素不是一个而是多个，我们称这类回问题为多元回归分析。

可以建立因变量y与

各自变量Xj（j=1,2,3,…,之间的多元线性回归模型:

^=⅛÷⅛X1+Λ2⅞+-..+⅛jt⅞+β

其中：

bo是回归常数；bk（k=1,2,3,…,n是回归参数；e是随机误差。

多元回归在病虫预报中的应用实例：

某地区病虫测报站用相关系数法选取了以下4个预报因子；X1为最多连续10天诱蛾量（头）;X2为4月上、中旬百束小谷草

把累计落卵量（块）;X3为4月中旬降水量（毫米），X4为4月中旬雨日（天）；预报一代粘虫幼虫发生量y（头/m2）。

分级别数值列成表2-1。

预报量y：

每平方米幼虫0~10头为1级，11~20头为2级，21~40头为3级，40头以上为4级。

预报因子：

X1诱蛾量0~300头为I级，301~600头为2级，601~1000头为3级，1000头以上为4级；X2卵量0~150块为1

级，15l~300块为2级，301~550块为3级，550块以上为4级；X3降水量0~10.0毫米为1级，10.1~13.2毫米为2级，13.3~17.0

毫米为3级，17.0毫米以上为4级；X4雨日0~2天为1级，3~4天为2级，5天为3级，6天或6天以上为4级。

表2-1

年

蛾量

级别

卵量

级别

降水量

级别

雨日

级别

幼虫密度

级别

1960

1022

112

4.3

1961

300

440

0.1

1962

699

7.5

1963

1876

675

17.1

1965

1.9

1966

422

1967

806

510

11.8

1976

115

240

0.6

1971

718

1460

18.4

1972

803

630

13.4

1973

572

280

13.2

匚16

1974

264

330

3寸

42.2

1975

198

165

2寸

71.8

1976

461

140

7.5

匚28

3二

1977

769

640

44.7

4二

1978

2551

2二

数据保存在DATA6-5.SAV”文件中。

1）准备分析数据

在SPSS数据编辑窗口中，创建年份”蛾量”卵量”降水量”、雨日”和幼虫密度”变量，并输入数据。

再创建蛾量、

卵量、降水量、雨日和幼虫密度的分级变量X1”X2”X3”X4”和y”它们对应的分级数值可以在SPSS数据编辑窗口中通

过计算产生。

编辑后的数据显示如图2-1。

图2-1

或者打开已存在的数据文件DATA6-5.SAV”。

2）启动线性回归过程

单击SPSS主菜单的“Analyze下的"Regression中"Linear项，将打开如图2-2所示的线性回归过程窗口。

图2-2线性回归对话窗口

3）设置分析变量

设置因变量：

用鼠标选中左边变量列表中的幼虫密度[y]'变量，然后点击“DePendent栏左边的二O向右拉按钮，该变量就

移到“DePendent因变量显示栏里。

设置自变量：

将左边变量列表中的蛾量[x1]”卵量[x2]”降水量[x3]”雨日[x4]'变量，选移到“Independent（S）自'变量

显示栏里。

设置控制变量：

本例子中不使用控制变量，所以不选择任何变量。

选择标签变量：

选择年份”为标签变量。

选择加权变量：

本例子没有加权变量，因此不作任何设置。

4）回归方式

本例子中的4个预报因子变量是经过相关系数法选取出来的，在回归分析时不做筛选。

因此在“Method”!

中选中“Enter选项,

建立全回归模型。

5）设置输出统计量

单击“StatiStiCS按钮，将打开如图2-3所示的对话框。

该对话框用于设置相关参数。

其中各项的意义分别为:

Hegre⅛B∣o∏COetliCIent3

I*I；SIiITlΛ⅛¾

厂Cαnlidenccin⅛rvu∣9厂QσγariancemaMk

ΓDurbinY∕Bt3on

厂Cascwi^cdiagnovtica

Btnn（IBrddtvrflliαm

图2-3“StatiStiCs对话框

1“RegreSSiOnCOeffiCients回归系数选项：

V“EStimate輸出回归系数和相关统计量。

'“Confidenceinterval回归系数的95%置信区间。

厂“Covariancematrix回归系数的方差-协方差矩阵。

本例子选择“EStimateS输出回归系数和相关统计量。

2“ReSidUaIS残差选项：

“DUrbiHWatSOn”DUrbi-WatSOn检验。

'“CasewisediagnoStie输出满足选择条件的观测量的相关信息。

选择该项，下面两项处于可选状态:

'”“OutliersOUtSideStandarddeviatiOnS选择标准化残差的绝对值大于输入值的观测量；

“AllCaSeS选择所有观测量。

本例子都不选。

3其它输入选项

7“MOdelfit输出相关系数、相关系数平方、调整系数、估计标准误、ANoVA表。

'“RSqUaredChange俞出由于加入和剔除变量而引起的复相关系数平方的变化。

'“DeSCriPtiVeS输出'变量矩阵、标准差和相关系数单侧显著性水平矩阵。

“PartandPartialcorrelation相关系数和偏相关系数。

厂"Collinearitydiagnostics显示单个变量和共线性分析的公差。

本例子选择“Modelfit项。

6）绘图选项

“X和“Y”

在主对话框单击“Plots按钮，将打开如图2-4所示的对话框窗口。

该对话框用于设置要绘制的图形的参数。

图中的

框用于选择X轴和Y轴相应的变量。

左上框中各项的意义分别为

*“DEPENDNT因变量。

*“ZPRED标准化预测值。

*“ZRESID标准化残差。

*“DRESID删除残差。

*“ADJPRED调节预测值。

*“SRESID学生氏化残差。

*“SDRESID'学生氏化删除残差。

“StandardizedReSidUaIPlotS设置各变量的标准化残差图形输出。

其中共包含两个选项:

“HiStOgram用直方图显示标准化残差。

厂“NormalPrObabiIityplots比较标准化残差与正态残差的分布示意图。

“PrOdUCeallPartiaIplot偏残差图。

"对每一个自变量生成其残差对因变量残差的散点图。

本例子不作绘图，不选择。

7）保存分析数据的选项

在主对话框里单击“SaVe按钮，将打开如图2-5所示的对话框。

图2-5“SaV对话框

①"PredictedValUeS预测值栏选项:

PRE_开头命名的变量，存放根据回

UnStandardized非标准化预测值。

就会在当前数据文件中新添加一个以字符归模型拟合的预测值。

Standardized标准化预测值。

AdjUSted调整后预测值。

S.E.OfmeanPrediCtiOns预测值的标准误。

本例选中“UnStandardized非标准化预测值。

②“DiStanCeS距离栏选项:

MahaIanobis:

距离。

Cook'S”：

CoO距离。

LeVerageValues:

杠杆值。

③"PredictionInterValS预测区间选项:

Mean:

区间的中心位置。

厂Individual:

观测量上限和下限的预测区间。

在当前数据文件中新添加一个以字符“LICL开头命名的变量，存放

预测区间下限值；以字符“UICL开头命名的变量，存放预测区间上限值。

ConfidenceInterval:

置信度。

本例不选。

4“SaVetoNeWFile保存为新文件：

选中“COeffiCientStatiStiCS项将回'归系数保存到指定的文件中。

本例不选。

5“EXPOrtmodelinformationtoXMLfile导出统计过程中的回归模型信息到指定文件。

本例不选。

6“ReSidUaIS"保存残差选项：

“UnStandardizec非标准化残差。

1“Standardizec标准化残差。

I“StUdentized学生氏化残差。

I“Deleted删除残差。

I-“StUdentizeddeletec学生氏化删除残差。

本例不选。

7“InfIUenCeStatiStiCS统计量的影响。

“DfBeta（S）删除一个特定的观测值所引起的回归系数的变化。

I“StandardizedDfBeta（S）标准化'的DfBeta值。

“DiFit删除一个特定的观测值所引起的预测值的变化。

I“StandardizedDiFit标准化的DiFit值。

I“Covarianceratio删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。

本例子不保存任何分析变量，不选择。

8）其它选项

在主对话框里单击“Options按钮，将打开如图2-6所示的对话框。

£ntry：

JjjQCUSeFyalue

Untly

Lme-SFRe⅞∣re*⅞M）fιk:

OPtKlm

SIeIPPiftgMCthDdCriterfid

r7USeIlFCLbaUlityOrF

RerIlOVflt.TU

fit；ITltJYaL

WIncludeconstant∖nequatioπ

袖冷MCgV⅛lue⅞

ZEXCIUdcWFUSlisħ*∣sc厂ExCIU（Iecase⅝PSirWiSer'BcpF⅞ccWiIrImean

图2-6"Options设置对话框

①“StePPingMethOdCriteria框用于进行逐步回归时内部数值的设定。

其中各项为:

*“USePrObabiIityOfF如果一个变量的F值的概率小于所设置的进入值（Entry）,那么这个变量将被选入回归方程

中；当变量的F值的概率大于设置的剔除值（RemoVal）,则该变量将从回归方程中被剔除。

由此可见，设置

“USePrObabiIityofF时，应使进入值小于剔除值。

'“UeSFValUe如果一个变量的F值大于所设置的进入值（Entry），那么这个变量将被选入回归方程中；当变量的

F值小于设置的剔除值（RemOVaI），则该变量将从回归方程中被剔除。

同时，设置“USeIVaIUe时，应使进

入值大于剔除值。

本例是全回归不设置。

2“InCIUdeCOnStantinequation选择此项表示在回归方程中有常数项。

本例选中“InCIUdeCOnStantinequation选项在回归方程中保留常数项。

3“MiSSingVaIUeS框用于设置对缺失值的处理方法。

其中各项为：

*“EXCIUdeCaSeSIiStWiSe剔除所有含有缺失值的观测值。

'“EXChUdeCaSeSPairWiSe仅剔除参与统计分析计算的变量中含有缺失值的观测量。

“RePIaCeWithmean用变量的均值取代缺失值。

本例选中“EXCIUdeCaSeSIiStWiSe。

9）提交执行

在主对话框里单击“0K,提交执行，结果将显示在输出窗口中。

主要结果见表2-2至表2-4。

10）结果分析

主要结果：

表2-2

表2-2是回归模型统计量：

R是相关系数；RSqUare相关系数的平方，又称判定系数，判定线性回归的拟合程度：

用来说

明用自变量解释因变量变异的程度（所占比例）；AdjUStedRSqUare调整后的判定系数；Std.ErrorOftheEStimate估计标准误差。

表2-3

表6-SANOVA〔方差分析表〕

IJodeI

SumOffSeJUareS（平方和）

〔自由度）

（均方）

⅛⅛

（⅛≡⅛水平）

1RegreSSion（回归）

lfl<779

4.155

10-930

.OOKa）

Residual（剩兼J

4.221

.384

TCtaL（总的1

2L005

表2-3回归模型的方差分析表，F值为10.930,显著性概率是0.001,表明回归极显著。

表2-4

表6-9COeffiiCientS（回归系数）

MOdel

IJrlStandardiZe（JCOeffiCientS

（非标准化回归系

StandardizedCOeffiCientS

I（标准化回归系数）

⅛

Sig

Std.ErrOf

Beta（P>

（Cannant）C當黴）

*0.182

442

-412

696

礙

0J42

.166

.133

.900

.337

0.245

213

253

1.145

.27E

降水量

0.210

224

.244

936

369

雨日

0.605

246

465

2.473

D31

分析：

根据多元回归模型:

建立回归模型:

把表6-9中非标准化回归系数”栏目中的“列系数代入上式得预报方程:

y=-0,182+0,142χι+0.245χ^+α.210χ,+0.605χ>∣

预测值「

'的标准差可用剩余均方估计：

回归方程的显著性检验:

从表6-8方差分析表中得知：

F统计量为10.93,系统自动检验的显著性水平为0.001。

F（0∙05,4,11）值为3.36，F（0∙01,4,11）值为5.67，F（0.001,4,11）值为10.35。

因此回归方程相关非常显著。

（F值可在Excel中用FINV（）函数获得）。

回代检验

需要作预报效果的验证时，在主对话框（图6-8）里单击“Save”钮，在打开如图3-6所示对话框里，选中“PrediCtedValUeS

预测值选项栏中的“UnStandardized非标准化预测值选项。

这样在过程运算时，就会在当前文件中新添加一个“PRE_1命名的变量，

该变量存放根据回归模型拟合的预测值。

然后，在SPSS数据窗口计算y”与“PRE_1变量的差值（图2-7）,本例子把绝对差值大于0.8视为不符合，反之则符合。

结果

IT新虫密度1IdIQl£帀

JnIj

图2-7

符合的年数为15年，1年不符合，历史符合率为93.75%。

多元回归分析法可综合多个预报因子的作用，作出预报，在统计预报中是一种应用较为普遍的方法。

在实际运用中，采取将预报因子和预报量按一定标准分为多级，用分级尺度代换较大的数字，更能揭示预报因子与预报量的

关系，预报效果比采用数量值统计方法有明显的提高，在实际应用中具有一定的现实意义。

展开阅读全文