EXCEL和SPSS在回归分析正交试验设计和判别分析中应用.docx

资源描述

EXCEL和SPSS在回归分析正交试验设计和判别分析中应用.docx

《EXCEL和SPSS在回归分析正交试验设计和判别分析中应用.docx》由会员分享，可在线阅读，更多相关《EXCEL和SPSS在回归分析正交试验设计和判别分析中应用.docx（14页珍藏版）》请在冰豆网上搜索。

EXCEL和SPSS在回归分析正交试验设计和判别分析中应用.docx

EXCEL和SPSS在回归分析正交试验设计和判别分析中应用

实验2指导：

EXCEL和SPSS在回归分析、正交试验设计和判别分析中的应用

实验目的

1.熟悉EXCEL和SPSS在数据分析中的操作；

2.使用EXCEL和SPSS进行回归分析、正交试验设计和判别分析。

实验内容

1.一元线性回归分析

例：

近年来国家教育部决定将各高校的后勤社会化。

某从事饮食业的企业家认为这是一个很好的投资机会，他得到十组高校人数与周边饭店的季销售额的数据资料，并想根据高校的数据决策其投资规模，数据见data.xls的Sheet1。

1）选择数据区域B2:

C11，从“插入”菜单中选择“散点图”。

Excel将显示相应散点图。

2）选择图上的点，右键菜单，选择添加趋势线，如下图所示：

3）在趋势线选项，将“显示公式”和“显示R平方”选项打勾，如下图：

结果不仅显示散点图的趋势线，还会显示相应公式，即一元线性回归的回归函数，同时显示R平方值，R即相关系数，其绝对值越接近1，表示两组数据的线性相关程度越高。

一元线性回归函数描述了两组数据间存在的线性关系，在上述例子中只要知道其它高校的人数即可根据该公式预测大概的季度销售额。

而R的大小能够用于度量这种预测的准确度。

另外，使用EXCEL自带的函数也能实现一元线性回归：

截距函数INTERCEPT

功能：

利用已知的x值与y值计算回归直线在y轴的截距。

语法结构：

INTERCEPT（known_y's,known_x's）

斜率函数SLOPE

功能：

返回根据known_y‘s和known_x’s中的数据点拟合的线性回归直线的斜率。

语法结构：

SLOPE（known_y's,known_x's）

相关系数函数RSQ

功能：

返回根据known_y‘s和known_x’s中数据点计算得出的相关系数的平方。

语法结构：

RSQ（known_y's,known_x's）

试比较图表法和函数法计算得出的一元线性回归方程是否一致。

2.多元线性回归分析

例：

一家房地产评估公司想对某城市的房地产销售价格（y）与地产的评估价值（x1）和使用面积（x2）建立一个模型，一边对销售价格作出合理的预测。

为此收集20栋住宅的房地产评估数据（data.xls的Sheet2）。

由于本问题有两个自变量，因此需要使用多元线性回归，需要借助于Excel的数据分析功能。

1）点击“数据分析”,跳出回归分析对话框；

2）填充应变量y和自变量x1，x2对应的区域和输出区域，如下图：

3）点击确定后将出现多元线性回归的结果，对于结果（如下图a,b,c）的一些重要项解释如下：

图a

图b

图c

图b中的SignificanceF及线性回归的pvalue，该值小于0.05表示此线性回归结果显著，及回归方程可信，房地产的销售价格与地产估价和使用面积是有关系的。

图c中的Coefficients为回归方程的系数，因此，回归结果为y=—285.0094+1.5598x1+03145x2，在使用面积不变的情况下，地产估价每增加1万元，房产销售的平均价格就会提高1.5598万元；在房地产估价不变的条件下，使用面积每增加1平方米，房产销售的平均价格就会提高0.3145元；图a中AdjustedRSquare为调整复测定系数，本例中约为0.71，它表示两个变量x1,x2对导致结果y的贡献，也就是说还有导致结果y的原因中有29%是由除了x1,x2以外的因素造成的。

习题：

在黄芪提取工艺的研究中，选择了前煮时间、煎煮次数和加水量进行考察，实验数据见data.xls的Sheet3，试对实验数据进行多元线性回归，对结果进行讨论。

3.logistic回归分析

质量性状（qualitativecharacter）是指能观察到而不能直接测量的，只能用文字来描述其特征的性状，如食品颜色、风味等等。

这类性状本身不能直接用数值表示，要获得这类性状的数据资料，须对其观察结果作数量化处理。

例如：

是否抽烟，是否患病。

采用线性回归分析显然不太合适，而logistic回归能较好地解决质量性状分析的问题。

例：

我们有一组数据，45个观测值，四个变量，包括：

age（年龄，数值型）；vision（视力状况，分类型，1表示好，0表示有问题）；drive（驾车教育，分类型，1表示参加过驾车教育，0表示没有）和一个分类型输出变量accident（去年是否出过事故，1表示出过事故，0表示没有）。

我们的目的就是要考察前三个变量与发生事故的关系。

数据见data.xls的Sheet4.

3.1计算优势比

优势（odds）是指某影响因素控制在某种水平时，事件发生率与事件不发生率的比值，即P/（1-P）。

某影响因素的两个不同水平的优势的比值称为优势比，如某影响因素的一个水平为c1，另一个水平为c0，则这两个水平的优势比为：

例如：

吸烟与食管癌关系的病例对照调查结果。

结果

吸烟

不吸烟

合计

食管癌患者

309（a）

126（b）

435

非食管癌患者

208（c）

243（d）

451

合计

517（a+c）

369（b+d）

886

⏹OR表示影响因素对事件发生的影响方向和影响能力大小。

⏹OR>1表示该因素取值越大，事件发生的概率越大，又称危险因素。

⏹OR<1表示该因素取值越大，事件发生的概率越小，又称保护因素。

⏹OR=1表示该因素与事件的发生无关。

试计算视力和驾车教育对发生事故的优势比。

3.2SPSS的安装

1）启动虚拟机，并拷贝安装文件至虚拟机中；

2）按缺省方式安装SPSS,最后在注册环节点取消即可；

3）运行安装文件夹下spss_19_patch_V2目录中的SPSS19crack20100825.exe即可获得破解过的SPSS。

3.2SPSS数据的导入

在spss中导入Excel文件中数据方法如下：

点击SPSS中的文件—打开—数据，文件类型选*.xls,*xlsx，选择实验指导文件夹中的data.xls，确定，然后工作表选Sheet4即可。

3.3SPSS用于logistic回归

1）数据导入以后，菜单栏上依次点击：

分析—回归—二元logistic回归，打开相应对话框对话框。

2）将因变量和自变量放入格子的列表里，如图所示，上面的是因变量，下面的是自变量，我们看到这里有三个自变量:

年龄、视力、驾车训练。

3）点击确定，SPSS将计算得到分析结果，主要观察结果中最后一张表，如图：

其中，Sig.值是回归系数的显著性检验p值，可以看出年龄系数对应的p值大于0.05，不显著因此不将其纳入回归方程方程，而视力和驾车系数显著，常数不用进行显著性检验。

因此根据Logistic回归方法可以得出估算发生事故的概率p的公式如下：

假设有个人，视力没问题但没有受过驾车教育（X1=1,X2=0），代入方程，有log（p/（1-p））=-0.189，再p/（1-p）=exp（-0.189）=0.8278，p=0.4529，即我们说这人发生事故的概率为0.4529；又另一个，视力有问题但没受过驾车教育（X1=0,X2=1），p=0.5068，因此视力更重要；如果视力又有问题又没受过驾车教育（X1=0,X2=0），p=0.8207，说这人发生事故的概率为0.8207，非常容易发生事故。

习题：

data.xls的Sheet5是40名肺癌病人的生存资料。

其中X1：

生活行动能力评分（1-100）；X2：

病人年龄；X3：

由诊断到进入研究时间（月）；X4：

肿瘤类型（“0”表示鳞癌、“1”表示小型细胞癌、“2”表示腺癌、“3”表示大型细胞癌）；X5：

两种化疗方法（“1”表示常规、“0”表示实验新法）；Y：

病人的生存时间（“0”：

表示生存时间短，即生存时间小于200天；“1”：

表示生存时间长，即生存时间大于或等于200天。

）根据上述分析流程对数据进行分析。

4.使用EXCEL正交设计与分析

请解决以下题目的要求：

正交表L8（27）请见data.xls文件的Sheet9.

EXCEL进行正交设计分析以及表头设计的资料如下：

5.判别分析

例：

为研究舒张期血压与血浆胆固醇对冠心病的作用，调查了50-59岁的女冠心病人15名和正常人16名。

他们的舒张期血压（x1）与血浆胆固醇（x2）数据列在data.xls的Sheet6中。

试用判别分析法建立判别冠心病人与正常人的判别函数。

1）数据导入以后，菜单栏上依次点击：

分析—分类—判别，打开相应对话框对话框。

2）将分组变量和自变量放入格子的列表里，如图所示，上面的是分组变量，选择”分类”，下面的是自变量，我们看到这里有个自变量:

舒张压和胆固醇。

3）点击分组变量文本框，然后点击定义范围按钮，由于我们的数据是两分类的，分别为1和2，设置如下图：

4）点击统计量按钮，将Box’sM和fisher项打勾。

如下图，点击继续回到判别分析主界面。

点击确定，即可出现分析结果。

分析结果需要注意的是

（1）在“检验结果”表中，Box'sM统计量是对各组内协方差阵相等的假设检验。

由于sig.值大于0.05，可以认为各组组内协方差阵相等;

（2）Wilks的Lambda表是用来检验判别函数的显著性水平,sig.小于0.05则判别函数效果显著。

（3）分类函数系数表如下图，可得两个分类函数：

W1=8.294X1+8.055X2-72.740

W2=6.930X1+6.287X2-49.231

若有个样本的舒张压和胆固醇分别为：

13.33（X1）和5.96（X2），带入上述两个判别式可知W1=85.82682，W2=80.61642，W1>W2属于分类1。

习题：

1991年全国各省市区城镇平均消费情况如data.xls的Sheet7所示，是判别以下上海和西藏的归属类，数据见sheet8。

展开阅读全文