SPSS学习系列27回归分析报告.docx
《SPSS学习系列27回归分析报告.docx》由会员分享,可在线阅读,更多相关《SPSS学习系列27回归分析报告.docx(27页珍藏版)》请在冰豆网上搜索。
SPSS学习系列27回归分析报告
27.回归分析
回归分析是研究一个或多个变量〔因变量〕与另一些变量〔自变量〕之间关系的统计方法。
主要思想是用最小二乘法原理拟合因变量与自变量间的最优回归模型〔得到确定的表达式关系〕。
其作用是对因变量做解释、控制、或预测。
回归与拟合的区别:
拟合侧重于调整曲线的参数,使得与数据相符;而回归重在研究两个变量或多个变量之间的关系。
它可以用拟合的手法来研究两个变量的关系,以与出现的误差。
回归分析的步骤:
〔1〕获取自变量和因变量的观测值;
〔2〕绘制散点图,并对异常数据做修正;
〔3〕写出带未知参数的回归方程;
〔4〕确定回归方程中参数值;
〔5〕假设检验,判断回归方程的拟合优度;
〔6〕进展解释、控制、或预测。
〔一〕一元线性回归
一、根本原理
一元线性回归模型:
Y=𝛽0+𝛽1X+ε
其中X是自变量,Y是因变量,𝛽0,𝛽1是待求的未知参数,𝛽0也称为截距;ε是随机误差项,也称为残差,通常要求ε满足:
①ε的均值为0;
②ε的方差为𝜎2;
③协方差COV(εi,εj)=0,当i≠j时。
即对所有的i≠j,εi与εj互不相关。
二、用最小二乘法原理,得到最优拟合效果的值:
,
三、假设检验
1.拟合优度检验
计算R2,反映了自变量所能解释的方差占总方差的百分比,值越大说明模型拟合效果越好。
通常可以认为当R2大于0.9时,所得到的回归直线拟合得较好,而当R2小于0.5时,所得到的回归直线很难说明变量之间的依赖关系。
2.回归方程参数的检验
回归方程反响了因变量Y随自变量X变化而变化的规律,假设𝛽1=0,如此Y不随X变化,此时回归方程无意义。
所以,要做如下假设检验:
H0:
𝛽1=0,H1:
𝛽1≠0;
〔1〕F检验
假设𝛽1=0为真,如此回归平方和RSS与残差平方和ESS/(N-2)都是𝜎2的无偏估计,因而采用F统计量:
来检验原假设β1=0是否为真。
〔2〕T检验
对H0:
𝛽1=0的T检验与F检验是等价的〔t2=F〕。
3.用回归方程做预测
得到回归方程后,预测X=x0处的Y值.
的预测区间为:
其中tα/2的自由度为N-2.
二、实例
例1有30名儿童棒球选手的数据:
变量Height表示“击球高度〞,Distance表示“球飞出的距离〞,用回归分析研究球飞出的距离与击球高度的关系。
1.【分析】——【回归】——【线性】,打开“线性回归〞窗口,将变量“Distance〞选入【因变量】框,“Height〞选入【自变量】框;
注:
【选择变量+规如此】:
可以对某个变量,只对满足某条件的个案做回归分析;
【WLS权重】:
可选择加权变量进展加权最小二乘法的回归分析;
2.点【统计量】,打开“统计量〞子窗口,勾选【回归系数】下的“估计〞、“置信区间〞,勾选【残差】下的“Durbin-Watson〞,勾选“模型拟合度〞、“描述性〞;点【继续】;
3.【保存】可选项
点【保存】,打开“保存〞子窗口,【预测值】给出用回归方程计算的预测值;勾选“未标准化〞,【残差】给出做残差分析模型诊断用的各种残差,勾选“标准化〞;将在原数据上增加两列PRE_1和ZRE_1分别存储预测值和残差值;点【继续】;
点【确定】,得到
描述性统计量
均值
标准偏差
N
球飞出的距离
30
击球高度
30
相关性
球飞出的距离
击球高度
Pearson相关性
球飞出的距离
.613
击球高度
.613
Sig.〔单侧〕
球飞出的距离
.
.000
击球高度
.000
.
N
球飞出的距离
30
30
击球高度
30
30
给出了两个变量的相关性描述,相关系数为0.613.
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
击球高度b
.
输入
a.因变量:
球飞出的距离
b.已输入所有请求的变量。
选入回归模型的变量以与剔除的变量,本例只有一个自变量。
模型汇总b
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.613a
.376
.353
a.预测变量:
(常量),击球高度。
b.因变量:
球飞出的距离
模型的R2反映了自变量所能解释的方差占总方差的百分比,值越大说明模型拟合效果越好,本例R2=0.376,说明线性回归关系并不强,球飞出的距离可能还和其它因素如选手的年龄、经验有关。
Durbin-Watson检验值=1.569,说明残差根本上是独立的〔靠近2说明误差根本上是独立的,小于2说明是正相关。
Anovaa
模型
平方和
df
均方
F
Sig.
1
回归
1
.000b
残差
28
总计
29
a.因变量:
球飞出的距离
b.预测变量:
(常量),击球高度。
回归模型的F检验,原假设H0:
回归系数=0;本例P值<0.001<0.05,故拒绝原假设H0,即回归系数不为0.
注:
对一元线性回归模型,由于T值=F值的平方根,故T检验与F检验是等价的。
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量)
.752
击球高度
.705
.613
.000
a.因变量:
球飞出的距离
给出回归方程的常数项、回归系数的估计值与置信区间,以与检验结果〔原假设H0:
其值=0〕,得到回归方程:
95*Height
斜率2.895的t检验P值=0.0003<0.05,说明该结果在显著水平α下有统计学意义;但截距的t检验结果并不显著。
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
30
残差
.000
30
标准预测值
.000
30
标准残差
.000
.983
30
a.因变量:
球飞出的距离
〔二〕多元线性回归
一、根本原理
多元线性回归模型:
Y=𝛽0+𝛽1X1+…+𝛽NXN+ε
其中X1,…,XN是自变量,Y是因变量,𝛽0,𝛽1…,𝛽N是待求的未知参数,ε是随机误差项〔残差〕,假设记
多元线性回归模型可写为矩阵形式:
Y=Xβ+ε
通常要求:
矩阵X的秩为k+1〔保证不出现共线性〕,且k用最小二乘法原理,令残差平方和
最小,得到
为β的最优线性无偏估计量〔高斯-马尔可夫定理〕。
2.𝜎2的估计和T检验
选取𝜎2的估计量:
如此
假设t值的绝对值相当大,就可以在适当选定的置信水平上否认原假设,参数的1-α置信区间可由下式得出:
其中tα/2为与α%显著水平有关的t分布临界值。
3.R2和F检验
假设因变量不具有0平均值,如此必须对R2做如下改良:
随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R2进展修正〔校正拟合优度对自由度的依赖关系〕:
做假设检验:
H0:
𝛽1=…=𝛽N=0;H1:
𝛽1…,𝛽N至少有一个≠0;
使用F统计量做检验,
假设F值较大,如此否认原假设。
4.回归诊断
〔1〕残差图分析
残差图就是以残差为纵坐标,某一个适宜的自变量为横坐标的散点图。
回归模型中总是假定误差项是独立的正态分布随机变量,且均值为零和方差相等为𝜎2.如果模型适合于观察到的数据,那么残差作为误差的无偏估计,应根本反映误差的假设特征。
即残差图应该在零点附近对称地密布,越远离零点的地方就疏散〔在形象上似有正态趋势〕,如此认为模型与数据拟合得很好。
假设残差图呈现如图〔a〕所示的形式,如此认为建立的回归模型正确,更进一步再诊断“学生化残差〞是否具有正态性:
图〔b〕明确数据有异常点,应处理掉它重新做回归分析〔在SAS的REG回归过程步中用来度量异常点影响大小的统计量是COOKD统计量〕;
图〔c〕残差随x的增大而增大,图〔d〕残差随x的增大而先增后减,都属于异方差。
此时应该考虑在回归之前对数据y或x进展变换,实现方差稳定后再拟合回归模型。
原如此上,当误差方差变化不太快时取变换;当误差方差变化较快时取变换logy或lny;当误差方差变化很快时取变换1/y;还有其他变换,如著名的Box-Cox幂变换.
图〔e〕〔f〕表示选用回归模型是错误的。
〔2〕共线性
回归分析中很容易发生模型中两个或两个以上的自变量高度相关,从而引起最小二乘估计可能很不准确〔称为共线性问题〕。
在实际中最常见的问题是一些重要的自变量很可能由于在假设检验中t值不显著而被不恰当地剔除了。
共线性诊断问题就是要找出哪些变量间存在共线性关系。
〔3〕误差的独立性
回归分析之前,要检验误差的独立性。
假设误差项不独立,那么回归模型的许多处理,包括误差项估计、假设检验等都将没有推导依据。
由于残差是误差的合理估计,因此检验统计量通常是建立在残差的根底上。
检验误差独立性的最常用方法,是对残差的一阶自相关性进展Durbin-Watson检验。
H0:
误差项是相互独立的;H1:
误差项是相关的
检验统计量:
DW接近于0,表示残差中存在正自相关;如果DW接近于4,表示残差中存在负自相关;如果DW接近于2,表示残差独立性。
二、实例
例2有31位成年人心肺功能的调查数据:
用多元线性回归模型,研究耗氧量的是如何依赖其它变量的。
1.【分析】——【回归】——【线性】,打开“线性回归〞窗口,将变量“Oxygen〞选入【因变量】框,将变量“age〞、“weight〞、“runtime〞、“rstpulse〞、“runpulse〞、“Maxpulse〞选入【自变量】框;
【方法】下拉菜单项选择择“向后〞;
注:
多元线性回归涉与到自变量的筛选,SPSS提供了5种筛选方法:
〔1〕进入法——选入【自变量】框的自变量都参加模型;
〔2〕向前法——先将局部自变量参加模型,再逐个添加其它变量,假设自变量对模型有统计学意义的影响如此参加〔只进不出〕;
〔3〕向后法——先把全部自变量参加模型,假设自变量对模型无统计学意义的影响如此剔除〔只出不进〕;
〔4〕逐步回归法——综合“向前法〞和“向后法〞逐个引入自变量;
〔5〕删除法——规定为删除的自变量被强制剔除出模型,运行结果会给出假设将其引入的参数估计和检验结果〔做比照时用〕。
2.点【统计量】打开“统计量〞子窗口,勾选【回归系数】的“估计〞;勾选【残差】的“Durbin-Watson〞〔残差独立性检验〕;勾选“模型拟合度〞、“R方变化〞、“局部相关和偏相关性〞、“共线性诊断〞;点【继续】;
注:
多元线性回归要求变量根本相互独立,所以有必要进展共线性诊断,假设有共线性将对结果造成较大误差。
3.用【图形】进展残差独立性检验。
点【绘制】,打开“图〞子窗口,勾选【标准化残差图】的“直方图〞、“正态概率图〞;残差的方差齐性,可用回归标准化残差图考察:
将“ZPRED〞〔标准化预测值〕选入【X2(X)】框,将“ZRESID〞〔标准化残差〕选入【Y(Y)】框;点【继续】;
注意:
假设自变