资料回归分析逐步回归分析.docx
《资料回归分析逐步回归分析.docx》由会员分享,可在线阅读,更多相关《资料回归分析逐步回归分析.docx(17页珍藏版)》请在冰豆网上搜索。
资料回归分析逐步回归分析
逐步回归分析
在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且X之间可能不完全相互独立的,可能有种种互作关系。
在这种情况下可用逐步回归分析,进行X因子的筛选,这样建立的多元回归模型预测效果会更较好。
逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每一个自变量进行假设检验。
当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某一个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。
筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。
回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值夕的误差也愈小,模拟的效果愈好。
但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。
因此在多元回归模型中,选择适宜的变量数目尤为重要。
逐步回归在病虫预报中的应用实例:
以陕西省长武地区1984〜1995年的烟盼传毒病情资料、相关虫情和气象资料为例(数据见,建立蜗传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。
影响妈传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病惜指数影响显著的因子,从而建立相应的模型。
对1984X993年的病惜指数进行回检,然后对1996^1998年的病情进行预报,再检验预报的效果。
变量说明如下:
xlh
5月份均温
历年病情指数
xl2:
5月份降水量
xh
前年冬季油菜越冬时的妍量(头/株)X13:
6月份均温
x2:
前年冬季极端气温
xl4:
6月份降水量
x3:
5月份最高气温
xl5\
第一次妍迁高峰期百株烟草
x4t
5月份最低气温
有翅妍量
x5z
3~5月份降水量
xl6:
5月份油菜白株妍量
x6:
4~6月份降水量
xl7:
7月份降水量
x7:
3~5月份均温
X18x
8月份降水量
xSt
4~6月份均温
xl9:
7月份均温
x9:
4月份降水量
x20:
8月份均温
x21z
元月均温
xlOx4月份均温1)准备分析数据
在SPSS数据编辑窗口中,用“File-Open-Data”命令,打开“DATA6.xls”数据文件。
数据工作区如下图3-1显示。
年份1y1X11X2
i4
x6|x7|18
2)启动线性回归过程
单击SPSS主菜单的"Analyze”下的"Regression”中"Linear"项,将打开如图3-2所示的线性回归过程窗口。
■LinearRegression
图3-2线性回归对话窗口
3)设置分析变量
设置因变量:
将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。
设置自变量:
将左边变量列表中的“xl”~“x21”变量,全部选移到
"Independent(S)”自变量栏里。
设置控制变量:
本例子中不使用控制变量,所以不选择任何变量。
选择标签变量:
选择“年份”为标签变量。
选择加权变量:
本例子没有加权变量,因此不作任何设置。
4)回归方式
在“Method”分析方法框中选中“Stepwise”逐步分析方法。
该方法是根据“Options”选择对话框中显著性检验(尸)的设置,在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。
设置后的对话窗口如图3-3o
图3-3
3)设置变量检验水平
在图6-15主对话框里单击“Options”按钮,将打开如图3-4所示的对话框。
图3-4
“SteppingMethodCriteria^框里的设置用于逐步回归分析的选择标准。
其中"UseprobabilityofF”选项,提供设置显著性F检验的概率。
如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的F值检验概率大于剔除“Remo^r栏里设置的值,则该变量将从回归方程中被剔除。
山此可见,设置F检验概率时,应使进入值小于剔除值。
“UesFvalue”选项,提供设置显著性F检验的分布值。
如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。
同时,设置F分布值时,应该使进入值大于剔除值。
本例子使用显著性F检验的概率,在进入"Entry"栏里设置为“0・15",在剔除"Removal"栏里设置为“0.20"(剔除的概率值应比进入的值大),如图6-17所示。
图6-17窗口中的其它设置参照一元回归设置。
6)设置输岀统计量
在主对话图3-2窗口中,单击“Statistics"按钮,将打开如图6-18所示的对话框。
该对话框用于设置相关参数。
其中各项的意义分别为:
RegressionCoetticientsR?
Estimates厂Confidenceintervals厂Covariancematrix
Residuals
厂DyrbinY/atson
f"Casewisediagnostics
介OblJieruoutside(3BiandarddcviaBions
C^||cases
图3-5"Statistics”对话框
1uRegressionCoefficients”回归系数选项:
0"Estimates"输出回归系数和相关统计量。
厂"Confidenceinterval回归系数的95%置信区间。
厂"Covariancematrixn回归系数的方差-协方差矩阵。
本例子选择"Estimates"输岀回归系数和相关统计量。
2"Residuals”残差选项:
厂“Durbin-Watson"Durbin-Watson检验。
厂uCasewisediagnosticM输出满足选择条件的观测量的相关信息。
选择该项,下面两项处于可选状态:
auOutliersoutsidestandarddeviationsn选择标准化残差的绝对值大于输入值的观测量;
「“Allcases”选择所有观测量。
本例子都不选。
3其它输入选项
0“Modelfit”输出相关系数、相关系数平方、调整系数、估计标准误、AN0VA表。
厂“RsquaredchangeM输出山于加入和剔除变量而引起的复相关系数平方的变化。
厂"Descriptives"输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。
厂44Partandpartialcorrelation^相关系数和偏相关系数。
厂44Collinearitydiagnosticsn显示单个变量和共线性分析的公
差。
本例子选择"Modelfit”项。
7)绘图选项
在主对话框单击“Plots”按钮,将打开如图3-6所示的对话框窗口。
该对话框用于设置要绘制的图形的参数。
图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。
图3-6“Plots”绘图对话框窗口
左上框中各项的意义分别为:
•“DEPENDNT”因变量。
•“ZPRED”标准化预测值。
•“ZRESID”标准化残差。
•“DRESID”删除残差。
・"ADJPRED”调节预测值。
・"SRESID”学生氏化残差。
・"SDRESID”学生氏化删除残差。
uStandardizedResidualPlots”设置各变量的标准化残差图形输出。
其中共包含两个选项:
厂“Histogram”用直方图显示标准化残差。
厂"Normalprobabilityplots”比较标准化残差与正态残差的分布示意图。
uProduceallpartialplot”偏残差图。
对每一个自变量生成其残差对因变量残差的散点图。
本例子不作绘图,不选择。
8)保存分析数据的选项
在主对话框里单击“Save”按钮,将打开如图3-7所示的对话框。
图3-7"Save"对话框
1"FredictedValues"预测值栏选项:
厂Unstandardized非标准化预测值。
就会在当前数据文件中新添加一个以字符“PREJ开头命名的变量,存放根据回
归模型拟合的预测值。
厂Standardized标准化预测值。
厂Adjusted调整后预测值。
厂S.E.ofmeanpredictions预测值的标准误。
本例选中"Unstandardized”非标准化预测值。
2“Distances”距离栏选项:
厂Mahalanobis:
距离。
厂Cook's”:
Cook距离。
厂Leveragevalues:
杠杆值。
3"PredictionIntervalsw预测区间选项:
厂Mean:
区间的中心位置。
厂Individual:
观测量上限和下限的预测区间。
在当前数据文件中新添加一个以字符开头命名的变量,存放
预测区间下限值;以字符
开头命名的变量,存放预测区间上限值。
ConfidenceInterval:
置信度。
本例不选。
4“SavetoNewFile”保存为新文件:
选中“Coefficientstatistics”项将回归系数保存到指定的文件中。
本例不选。
5"ExportmodelinformationtoXMLf订e"导出统计过程中的回归模型信息到指定文件。
本例不选。
6“Residuals”保存残差选项:
厂"Unstandardized”非标准化残差。
厂"Standardized”标准化残差。
厂"Studentized"学生氏化残差。
厂“Deleted”删除残差。
厂"Studentizeddeleted”学生氏化删除残差。
本例不选。
7"InfluenceStatistics"统计量的影响。
厂“DfBetd(s)”删除一个特定的观测值所引起的回归系数的变化。
厂uStandardizedDfBeta(s)”标准化的DfBeta值。
厂“DiFit”删除一个特定的观测值所引起的预测值的变化。
厂uStandardizedDiFit”标准化的DiFit值。
厂“Covaridnceratio"删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。
本例子不保存任何分析变量,不选择。
9)提交执行
在主对话框里单击“0K”,提交执行,结果将显示在输出窗口中。
主要结果见表6-10至表6-13o
10)结果分析主要结果:
^6-10VariablesEntered/RemovedO(进入/剔除变量)
Model
(歩)
VariablesEntered(逬入)
VariablesRemoved(剔除)
Method(方袪)
1
xl5
-
Stepwise(Criteria:
Probability-of^F-to-enter<=KProbability-oSF-to-remove>=.200).
2
x4
-
Stepwise(Criteria:
Probability-of-F-to-enter<=kProbability-of1?
-to-remove>=.200).
3
x7
Stepwise(C