SPSS回归分析过程详解pptPPT文件格式下载.ppt

资源描述

SPSS回归分析过程详解pptPPT文件格式下载.ppt

《SPSS回归分析过程详解pptPPT文件格式下载.ppt》由会员分享，可在线阅读，更多相关《SPSS回归分析过程详解pptPPT文件格式下载.ppt（21页珍藏版）》请在冰豆网上搜索。

SPSS回归分析过程详解pptPPT文件格式下载.ppt

多分变量逻辑回归Ordinal序回归Probit：

概率单位回归Nonlinear：

非线性回归WeightEstimation：

加权估计2-StageLeastsquares：

二段最小平方法OptimalScaling最优编码回归我们只讲前面3个简单的（一般教科书的讲法）,10.1线性回归（Liner）,一元线性回归方程:

y=a+bxa称为截距b为回归直线的斜率用R2判定系数判定一个线性回归直线的拟合程度：

用来说明用自变量解释因变量变异的程度（所占比例）多元线性回归方程:

y=b0+b1x1+b2x2+bnxnb0为常数项b1、b2、bn称为y对应于x1、x2、xn的偏回归系数用AdjustedR2调整判定系数判定一个多元线性回归方程的拟合程度：

用来说明用自变量解释因变量变异的程度（所占比例）一元线性回归模型的确定:

一般先做散点图（Graphs-Scatter-Simple）,以便进行简单地观测（如：

Salary与Salbegin的关系）若散点图的趋势大概呈线性关系，可以建立线性方程，若不呈线性分布，可建立其它方程模型，并比较R2（-1）来确定一种最佳方程式（曲线估计）多元线性回归一般采用逐步回归方法-Stepwise,逐步回归方法的基本思想,对全部的自变量x1,x2,.,xp,按它们对Y贡献的大小进行比较，并通过F检验法，选择偏回归平方和显著的变量进入回归方程，每一步只引入一个变量，同时建立一个偏回归方程。

当一个变量被引入后，对原已引入回归方程的变量，逐个检验他们的偏回归平方和。

如果由于引入新的变量而使得已进入方程的变量变为不显著时，则及时从偏回归方程中剔除。

在引入了两个自变量以后，便开始考虑是否有需要剔除的变量。

只有当回归方程中的所有自变量对Y都有显著影响而不需要剔除时，在考虑从未选入方程的自变量中，挑选对Y有显著影响的新的变量进入方程。

不论引入还是剔除一个变量都称为一步。

不断重复这一过程，直至无法剔除已引入的变量，也无法再引入新的自变量时，逐步回归过程结束。

10.1.6线性回归分析实例p240,实例：

P240Data07-03建立一个以初始工资Salbegin、工作经验prevexp、工作时间jobtime、工作种类jobcat、受教育年限edcu等为自变量，当前工资Salary为因变量的回归模型。

先做数据散点图,观测因变量Salary与自变量Salbegin之间关系是否有线性特点Graphs-Scatter-SimpleXAxis：

SalbeginYAxis：

Salary若散点图的趋势大概呈线性关系，可以建立线性回归模型Analyze-Regression-LinearDependent:

SalaryIndependents:

Salbegin,prevexp,jobtime,jobcat,edcu等变量Method:

Stepwise比较有用的结果：

拟合程度AdjustedR2：

越接近1拟合程度越好回归方程的显著性检验Sig回归系数表Coefficients的Model最后一个中的回归系数B和显著性检验Sig得模型：

Salary=-15038.6+1.37Salbegin+5859.59jobcat-19.55prevexp+154.698jobtime+539.64edcu,10.2曲线估计（CurveEstimation）,对于一元回归，若散点图的趋势不呈线性分布，可以利用曲线估计方便地进行线性拟合（liner）、二次拟合（Quadratic）、三次拟合（Cubic）等。

采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述（看修正AdjustedR2-1）,10.2.3曲线估计（CurveEstimation）分析实例,实例P247Data11-01：

有关汽车数据，看mpg（每加仑汽油行驶里程）与weight（车重）的关系先做散点图（Graphs-Scatter-Simple）：

weight（X）、mpg（Y），看每加仑汽油行驶里程数mpg（Y）随着汽车自重weight（X）的增加而减少的关系，也发现是曲线关系建立若干曲线模型（可试着选用所有模型Models）Analyze-Regression-CurveEstimationDependent:

mpgIndependent:

weightModels:

全选（除了最后一个逻辑回归）选Plotmodels：

输出模型图形比较有用的结果：

各种模型的AdjustedR2，并比较哪个大，结果是指数模型Compound的AdjustedR2=0.70678最好（拟合情况可见图形窗口）,结果方程为：

mpg=60.15*0.999664weight说明：

Growth和Exponential的结果也相同，也一样。

10.3二项逻辑回归（BinaryLogistic）,在现实中，经常需要判断一些事情是否将要发生，候选人是否会当选？

为什么一些人易患冠心病？

为什么一些人的生意会获得成功？

此问题的特点是因变量只有两个值，不发生（0）和发生

（1）。

这就要求建立的模型必须因变量的取值范围在01之间。

Logistic回归模型Logistic模型：

在逻辑回归中，可以直接预测观测量相对于某一事件的发生概率。

包含一个自变量的回归模型和多个自变量的回归模型公式：

其中：

z=B0+B1X1+BpXp（P为自变量个数）。

某一事件不发生的概率为Prob（noevent）1-Prob（event）。

因此最主要的是求B0,B1,Bp（常数和系数）数据要求：

因变量应具有二分特点。

自变量可以是分类变量和定距变量。

如果自变量是分类变量应为二分变量或被重新编码为指示变量。

指示变量有两种编码方式。

回归系数：

几率和概率的区别。

几率=发生的概率/不发生的概率。

如从52张桥牌中抽出一张A的几率为（4/52）/（48/52）=1/12，而其概率值为4/52=1/13根据回归系数表，可以写出回归模型公式中的z。

然后根据回归模型公式Prob（event）进行预测。

10.3.3二项逻辑回归（BinaryLogistic）实例,实例P255Data11-02：

乳腺癌患者的数据进行分析，变量为：

年龄age,患病时间time,肿瘤扩散等级pathscat（3种）,肿瘤大小pathsize,肿瘤史histgrad（3种）和癌变部位的淋巴结是否含有癌细胞ln_yesno，建立一个模型，对癌变部位的淋巴结是否含有癌细胞ln_yesno的情况进行预测。

Analyze-Regression-BinaryLogisticDependent:

ln_yesnoCovariates:

age,time,pathscat,pathsize,histgrad比较有用的结果：

在VariablesinEquation表中的各变量的系数（B），可以写出z=-0.86-0.331pathscat+0.415pathsize0.023age+0.311histgrad。

根据回归模型公式Prob（event）=1/（1+e-z），就可以计算一名年龄为60岁、pathsize为1、histgrad为1、pathscat为1的患者，其淋巴结中发现癌细胞的概率为1/（1+e-（-1.845）=0.136（Prob（event）0.5预测事件将会发生）,补充：

回归分析,以下的讲义是吴喜之教授有关回归分析的讲义，很简单，但很实用,定量变量的线性回归分析,对例1（highschoo.sav）的两个变量的数据进行线性回归，就是要找到一条直线来最好地代表散点图中的那些点。

检验问题等,对于系数b1=0的检验对于拟合的F检验R2（决定系数）及修正的R2.,多个自变量的回归,如何解释拟合直线?

什么是逐步回归方法?

自变量中有定性变量的回归,例1（highschoo.sav）的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元（dummyvariable）的方式出现;

这里收入的“低”,“中”,“高”，用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了.以例1数据为例,可以用下面的模型来描述:

自变量中有定性变量的回归,现在只要估计b0,b1,和a1,a2,a3即可。

哑元的各个参数a1,a2,a3本身只有相对意义，无法三个都估计，只能够在有约束条件下才能够得到估计。

约束条件可以有很多选择，一种默认的条件是把一个参数设为0，比如a3=0，这样和它有相对意义的a1和a2就可以估计出来了。

对于例1，对b0,b1,a1,a2,a3的估计分别为28.708,0.688,-11.066,-4.679,0。

这时的拟合直线有三条，对三种家庭收入各有一条:

SPSS实现（hischool.sav）,AnalizeGenerallinearmodelUnivariate，在Options中选择ParameterEstimates，再在主对话框中把因变量（s1）选入DependentVariable，把定量自变量（j3）选入Covariate，把定量因变量（income）选入Factor中。

然后再点击Model，在SpecifyModel中选Custom，再把两个有关的自变量选入右边，再在下面BuildingTerm中选Maineffect。

Continue-OK，就得到结果了。

输出的结果有回归系数和一些检验结果。

注意,这里进行的线性回归，仅仅是回归的一种，也是历史最悠久的一种。

但是，任何模型都是某种近似；

线性回归当然也不另外。

它被长期广泛深入地研究主要是因为数学上相对简单。

它已经成为其他回归的一个基础。

总应该用批判的眼光看这些模型。

SPSS的回归分析,自变量和因变量都是定量变量时的线性回归分析：

菜单：

AnalizeRegressionLinear把有关的自变量选入Independent，把因变量选入Dependent，然后OK即可。

如果自变量有多个（多元回归模型，选Method:

Stepwise），只要都选入就行。

SPSS的回归分析,自变量中有定性变量（哑元）和定量变量而因变量为定量变量时的线性回归分析（hischool.sav）菜单：

AnalizeGenerallinearmodelUnivariate，在Options中选择ParameterEstimates，再在主对话框中把因变量（s1）选入DependentVariable，把定量自变量（j3）选入Covariate，把定性因变量（income）选入Factor中。

点击Model，在SpecifyModel中选Custom，再把两个有关的自变量选入右边，再在下面BuildingTerm中选Maineffect。

然后就Continue-OK。

展开阅读全文