数学建模培训SPSS.ppt

资源描述

数学建模培训SPSS.ppt

《数学建模培训SPSS.ppt》由会员分享，可在线阅读，更多相关《数学建模培训SPSS.ppt（186页珍藏版）》请在冰豆网上搜索。

数学建模培训SPSS.ppt

第7章回归分析,在数量分析中，经常会看到变量与变量之间存在着一定的联系。

要了解变量之间如何发生相互影响的，就需要利用相关分析和回归分析。

在上一章讲述了相关分析有关内容。

本章介绍回归分析基本概念，回归分析的主要类型：

一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。

7.1回归分析基本概念,相关分析和回归分析都是研究变量间关系的统计学课题。

在应用中，两种分析方法经常相互结合和渗透，但它们研究的侧重点和应用面不同。

在回归分析中，变量y称为因变量，处于被解释的特殊地位；而在相关分析中，变量y与变量x处于平等的地位，研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。

在回归分析中，因变量y是随机变量，自变量x可以是随机变量，也可以是非随机的确定变量；而在相关分析中，变量x和变量y都是随机变量。

相关分析是测定变量之间的关系密切程度，所使用的工具是相关系数；而回归分析则是侧重于考察变量之间的数量变化规律，并通过一定的数学表达式来描述变量之间的关系，进而确定一个或者几个变量的变化对另一个特定变量的影响程度。

具体地说，回归分析主要解决以下几方面的问题。

通过分析大量的样本数据，确定变量之间的数学关系式。

对所确定的数学关系式的可信程度进行各种统计检验，并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。

利用所确定的数学关系式，根据一个或几个变量的值来预测或控制另一个特定变量的取值，并给出这种预测或控制的精确度。

作为处理变量之间关系的一种统计方法和技术，回归分析的基本思想和方法以及“回归（Regression）”名称的由来都要归功于英国统计学家FGalton（18221911）。

在实际中，根据变量的个数、变量的类型以及变量之间的相关关系，回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。

7.2一元线性回归分析,7.2.1统计学上的定义和计算公式,定义：

一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下，分析某一个因素（自变量）是如何影响另一事物（因变量）的过程，所进行的分析是比较理想化的。

其实，在现实社会生活中，任何一个事物（因变量）总是受到其他多种事物（多个自变量）的影响。

在实际问题中，由于所要研究的现象的总体单位数一般是很多的，在许多场合甚至是无限的，因此无法掌握因变量y总体的全部取值。

也就是说，总体回归方程事实上是未知的，需要利用样本的信息对其进行估计。

显然，样本回归方程的函数形式应与总体回归方程的函数形式一致。

通过样本数据建立一个回归方程后，不能立即就用于对某个实际问题的预测。

因为，应用最小二乘法求得的样本回归直线作为对总体回归直线的近似，这种近似是否合理，必须对其作各种统计检验。

一般经常作以下的统计检验。

（1）拟合优度检验回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度，从而判断回归方程对样本数据的代表程度。

回归方程的拟合优度检验一般用判定系数R2实现。

该指标是建立在对总离差平方和进行分解的基础之上。

（2）回归方程的显著性检验（F检验）回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。

回归方程的显著性检验一般采用F检验，利用方差分析的方法进行。

（3）回归系数的显著性检验（t检验）所谓回归系数的显著性检验，就是根据样本估计的结果对总体回归系数的有关假设进行检验。

之所以对回归系数进行显著性检验，是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异，它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量。

因此，可以通过回归系数显著性检验对每个回归系数进行考察。

回归参数显著性检验的基本步骤。

提出假设计算回归系数的t统计量值根据给定的显著水平确定临界值，或者计算t值所对应的p值作出判断,研究问题合成纤维的强度与其拉伸倍数有关，测得试验数据如表7-1所示。

求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。

7.2.2SPSS中实现过程,表7-1强度与拉伸倍数的试验数据,实现步骤,图7-1在菜单中选择“Linear”命令,图7-2“LinearRegression”对话框

（一）,图7-3“LinearRegression：

Statistics”对话框,图7-4“LinearRegression：

Plots”对话框,图7-5“LinearRegression：

Save”对话框,图7-6“LinearRegression：

Options”对话框,

（1）输出结果文件中的第一个表格如下表所示。

7.2.3结果和讨论,

（2）输出的结果文件中第二个表格如下表所示。

（3）输出的结果文件中第三个表格如下表所示。

（4）输出的结果文件中第四个表格如下表所示。

7.3多元线性回归分析,7.3.1统计学上的定义和计算公式,定义：

在上一节中讨论的回归问题只涉及了一个自变量，但在实际问题中，影响因变量的因素往往有多个。

例如，商品的需求除了受自身价格的影响外，还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响；影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。

因此，在许多场合，仅仅考虑单个变量是不够的，还需要就一个因变量与多个自变量的联系来进行考察，才能获得比较满意的结果。

这就产生了测定多因素之间相关关系的问题。

研究在线性相关条件下，两个或两个以上自变量对一个因变量的数量变化关系，称为多元线性回归分析，表现这一数量关系的数学公式，称为多元线性回归模型。

多元线性回归模型是一元线性回归模型的扩展，其基本原理与一元线性回归模型类似，只是在计算上更为复杂，一般需借助计算机来完成。

对多元线性回归，也需要测定方程的拟合程度、检验回归方程和回归系数的显著性。

（1）拟合优度检验测定多元线性回归的拟合程度，与一元线性回归中的判定系数类似，使用多重判定系数，其定义为,

（2）回归方程的显著性检验（F检验）多元线性回归方程的显著性检验一般采用F检验，利用方差分析的方法进行。

（3）回归系数的显著性检验（t检验）回归系数的显著性检验是检验各自变量x1，x2，对因变量y的影响是否显著，从而找出哪些自变量对y的影响是重要的，哪些是不重要的。

与一元线性回归一样，要检验解释变量对因变量y的线性作用是否显著，要使用t检验。

研究问题用多元回归分析来分析36个员工多个心理变量值（z1z8）对员工满意度my的预测效果，测得试验数据如表7-2所示。

7.3.2SPSS中实现过程,表7-2员工多个心理变量值和员工满意度数据,实现步骤,图7-7“LinearRegression”对话框

（二）,

（1）输出结果文件中的第一个表格如下表所示。

7.3.3结果和讨论,2）输出的结果文件中第二个表格如下表所示。

（3）输出的结果文件中第三个表格如下表所示。

（4）输出的结果文件中第四个表格如下表所示。

（5）输出的结果文件中第五个表格如下表所示。

（6）输出的结果文件中第六个表格为回归系数分析，如下表所示,（7）输出的结果文件中第七个表格如下表所示。

（8）输出的结果文件中第八部分为图形，为回归因变量和每个自变量之间的关系点图。

图7-8为自变量z1和my之间的关系点图。

7.4.1统计学上的定义和计算公式,7.4非线性回归分析,定义：

研究在非线性相关条件下，自变量对因变量的数量变化关系，称为非线性回归分析。

在实际问题中，变量之间的相关关系往往不是线性的，而是非线性的，因而不能用线性回归方程来描述它们之间的相关关系，而要采用适当的非线性回归分析。

非线性回归问题大多数可以化为线性回归问题来求解，也就是通过对非线性回归模型进行适当的变量变换，使其化为线性模型来求解。

一般步骤为：

根据经验或者绘制散点图，选择适当的非线性回归方程；通过变量置换，把非线性回归方程化为线性回归；用线性回归分析中采用的方法来确定各回归系数的值；对各系数进行显著性检验。

计算公式如下。

在本节中介绍几种常见的非线性回归模型，并分别给出其线性化方法及图形。

研究问题研究民用汽车总量与国内生产总值的关系。

数据如表7-3所示。

（资料来源：

中国统计年鉴2007，中国统计出版社，2007年）,7.4.2SPSS中实现过程,实现步骤,图7-9“SimpleScatterplot”对话框,图7-10散点图,图7-11“CurveEstimation”对话框

（一）,7.4.3结果和讨论,

（1）第一部分输出相关统计量和参数的值，如下表所示。

（2）第二部分输出的是观察值和Cubic，Power两种曲线预测值的对比图，如图7-12所示。

7.5.1统计学上的定义和计算公式,7.5曲线估计,定义：

在一元回归分析中，一般首先绘制自变量和因变量间的散点图，然后通过数据在散点图中的分布特点选择所要进行回归分析的类型，是使用线性回归分析还是某种非线性的回归分析。

然而，在实际问题中，用户往往不能确定究竟该选择何种函数模型更接近样本数据，这时可以采用曲线估计的方法，其步骤如下：

首先根据实际问题本身特点，同时选择几种模型；然后SPSS自动完成模型的参数估计，并显示R2、F检验值、相伴概率值等统计量；最后，选择具有R2统计量值最大的模型作为此问题的回归模型，并作一些预测。

研究问题试用SPSS对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析。

数据如表7-4所示。

（资料来源：

中国统计年鉴2007，中国统计出版社，2007年）,7.5.2SPSS中实现过程,表7-419782006年社会消费品零售总额,实现步骤,图7-13“CurveEstimation”对话框

（二）,图7-14“CurveEstimation：

Save”对话框

（一）,

（1）SPSS输出结果文件中的第一部分如下表所示。

7.5.3结果和讨论,

（2）输出的结果文件中第二部分如图7-15所示。

（3）由于进行曲线估计时所选的曲线模型种类较多，所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂，不易分辨出究竟Linear，Quadratic，Cubic及Power这4种曲线究竟哪种的对样本观察值的拟合优度更符合实际。

图7-16对比图2,（4）重新回到图7-13所示对话框，在“Model”框内只选中“Quadratic”和“Cubic”这两种拟合优度更高的曲线模型进行估计。

得出它们与观察值的对比图，如图7-17所示。

图7-17对比图3,（5）如果在图7-13所示对话框中选中了“DisplayANOVAtable”项，作回归方程显著性检验，将输出相应的方差分析表，以Cubic模型为例（如下表所示），其结果是：

回归方程显著有意义，并且x,x2,x3三个自变量的系数显著不为零。

（6）由于在图7-13所示对话框中选了“Save”项，且在图7-14所示的“SaveVariables”框中选择了“Predictedvalues”，“Residuals”和“Predictionintervals”3个选项，因此在SPSS数据编辑窗口中就增了fit_1，err_1，lcl_1，ucl_1等44个变量的值，如图7-18所示。

图7-18曲线估计分析结果保存,7.6.1统计学上的定义和计算公式,7.6时间序列的曲线估计,定义：

时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计。

通常把时间设为自变量x，代表具体的经济或社会现象的变量设为因变量y，研究变量x与y之间关系的方法就是时间序列曲线估计。

其具体步骤与一般的曲线估计基本类似。

计算公式：

SPSS中时间序列的曲线估计模型与上一节所介绍相同。

研究问题试用SPSS对19782006年间社会消费品零售总额之间的关系进行曲线回归分析。

数据如表7-5所示。

（资料来源：

中国统计年鉴2007，中国统计出版社，2007年）,7.6

展开阅读全文