1、EXCEL和SPSS在回归分析正交试验设计和判别分析中应用实验2指导:EXCEL和SPSS在回归分析、正交试验设计和判别分析中的应用实验目的1. 熟悉EXCEL和SPSS在数据分析中的操作;2. 使用EXCEL和SPSS进行回归分析、正交试验设计和判别分析。实验内容1.一元线性回归分析例:近年来国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季销售额的数据资料,并想根据高校的数据决策其投资规模,数据见data.xls的Sheet1。1)选择数据区域B2:C11,从“插入”菜单中选择“散点图”。Excel将显示相应散点图。2)选择
2、图上的点,右键菜单,选择添加趋势线,如下图所示:3)在趋势线选项,将“显示公式”和“显示R平方”选项打勾,如下图:结果不仅显示散点图的趋势线,还会显示相应公式,即一元线性回归的回归函数,同时显示R平方值,R即相关系数,其绝对值越接近1,表示两组数据的线性相关程度越高。一元线性回归函数描述了两组数据间存在的线性关系,在上述例子中只要知道其它高校的人数即可根据该公式预测大概的季度销售额。而R的大小能够用于度量这种预测的准确度。另外,使用EXCEL自带的函数也能实现一元线性回归:截距函数INTERCEPT功能:利用已知的 x 值与 y 值计算回归直线在y 轴的截距。 语法结构: INTERCEPT(
3、known_ys,known_xs) 斜率函数SLOPE 功能:返回根据 known_ys 和 known_xs 中的数据点拟合的线性回归直线的斜率。 语法结构:SLOPE(known_ys,known_xs)相关系数函数RSQ 功能:返回根据 known_ys 和 known_xs 中数据点计算得出的相关系数的平方。 语法结构:RSQ(known_ys,known_xs) 试比较图表法和函数法计算得出的一元线性回归方程是否一致。2.多元线性回归分析例:一家房地产评估公司想对某城市的房地产销售价格(y)与地产的评估价值(x1)和使用面积(x2)建立一个模型,一边对销售价格作出合理的预测。为此收
4、集20栋住宅的房地产评估数据(data.xls的Sheet2)。由于本问题有两个自变量,因此需要使用多元线性回归,需要借助于Excel的数据分析功能。1)点击“数据分析”,跳出回归分析对话框;2)填充应变量y和自变量x1,x2对应的区域和输出区域,如下图:3)点击确定后将出现多元线性回归的结果,对于结果(如下图a,b,c)的一些重要项解释如下:图a图b图c 图b中的Significance F及线性回归的p value,该值小于0.05表示此线性回归结果显著,及回归方程可信,房地产的销售价格与地产估价和使用面积是有关系的。图c中的Coefficients为回归方程的系数,因此,回归结果为y=2
5、85.0094+1.5598x1+03145x2,在使用面积不变的情况下,地产估价每增加1万元,房产销售的平均价格就会提高1.5598万元;在房地产估价不变的条件下,使用面积每增加1平方米,房产销售的平均价格就会提高0.3145元;图a中Adjusted R Square为调整复测定系数,本例中约为0.71,它表示两个变量x1,x2对导致结果y的贡献,也就是说还有导致结果y的原因中有29%是由除了x1,x2以外的因素造成的。习题:在黄芪提取工艺的研究中,选择了前煮时间、煎煮次数和加水量进行考察,实验数据见data.xls的Sheet3,试对实验数据进行多元线性回归,对结果进行讨论。3.logi
6、stic回归分析质量性状(qualitative character)是指能观察到而不能直接测量的,只能用文字来描述其特征的性状,如食品颜色、 风味等等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理。例如: 是否抽烟,是否患病。采用线性回归分析显然不太合适,而logistic回归能较好地解决质量性状分析的问题。例:我们有一组数据,45个观测值,四个变量,包括:age(年龄,数值型);vision(视力状况,分类型,1表示好,0表示有问题);drive(驾车教育,分类型,1表示参加过驾车教育,0表示没有)和一个分类型输出变量accident(去年是否出过事
7、故,1表示出过事故,0表示没有)。我们的目的就是要考察前三个变量与发生事故的关系。数据见data.xls的Sheet4.3.1 计算优势比优势(odds)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)。某影响因素的两个不同水平的优势的比值称为优势比,如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为:例如:吸烟与食管癌关系的病例对照调查结果。结果 吸烟 不吸烟 合计 食管癌患者 309(a) 126(b) 435 非食管癌患者 208(c) 243(d) 451 合计 517(a+c) 369(b+d) 886 OR表示影响因素对事件发生的影响方向和影响能力大小。OR1表示该因素取值越大,事件发生的概率越大,又称危险因素。ORW2属于分类1。习题:1991年全国各省市区城镇平均消费情况如data.xls的Sheet7所示,是判别以下上海和西藏的归属类,数据见sheet8。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1