回归分析实验报告.docx
《回归分析实验报告.docx》由会员分享,可在线阅读,更多相关《回归分析实验报告.docx(9页珍藏版)》请在冰豆网上搜索。
附带残差分析的多元线性回归分析报告
实验报告
实验课程:
[信息分析]
专业:
[信息管理与信息系统]
班级:
[]
学生姓名:
[]
指导教师:
[请输入姓名]
完成时间:
2022年10月7日
一.实验目的
多元线性回归简单地说是涉及多个自变量的回归分析,主要功能是处理两个变量之间的线性关系,建立线性数学模型并进行评价预测。
本实验要求掌握附带残差分析的多元线性回归理论与方法。
二.实验环境
实验室308教室
三.实验步骤与内容
1打开应用统计学实验指导书,新建excel表
t
y(年销售量)
x1(地区人口)
x2(人均收入)
1
1.62
27.4
2.45
2
1.2
18
3.254
3
2.23
37.5
3.802
4
1.31
20.5
2.838
5
0.67
8.6
2.347
6
1.69
26.5
3.782
7
0.81
9.8
3.008
8
1.92
33
2.45
9
1.16
19.5
2.137
10
0.55
5.3
2.56
11
2.52
43
4.02
12
2.32
37.2
4.427
13
1.44
23.6
2.66
14
1.03
15.7
2.088
15
2.12
37
2.605
2.打开SPSS,将数据输入。
3.调用SPSS主菜单的分析——>回归——>线性命令,打开线性回归对话框,指定因变量(工业GDP比重)和自变量(工业劳动者比重、固定资产比重、定额资金流动比重),以及回归方式;逐步回归(图1)
图1线性对话框
4.在统计栏中,选择估计以输出回归系数B的估计值、t统计量等,选择Duribin-watson以进行DW检验;选择模型拟合度输出拟合优度统计量值,如R^2、F统计量值等(图2)。
图2统计量栏
5.在线性回归栏中选择直方图和正态概率图以绘制标准化残差的直方图和残差分析与正态概率比较图,以标准化预测值为纵坐标,标准化残差值为横坐标,绘制残差与Y的预测值的散点图,检验误差变量的方差是否为常数(图3)。
图3绘制栏
6.提交分析,并在输出窗口中查看结果,以及对结果进行分析。
表1输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
地区人口
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
2
人均收入
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
a.因变量:
年销售量
系统在进行逐步分析的过程中产生了两个回归模型,模型1先将与因变量(销售收入)线性关系的自变量地区人口引入模型,建立他们之间的一元线性关系。
而后逐步引入其他变量,表1中模型2表明将自变量人均收入引入,建立二元线性回归模型,可见地区人口和人均收入对销售收入的影响同等重要。
表2模型汇总c
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.995a
.991
.990
.06107
2
.999b
.999
.999
.02177
2.701
a.预测变量:
(常量),地区人口。
b.预测变量:
(常量),地区人口,人均收入。
c.因变量:
年销售量
从表2中给出了两个模型各自的R^2和调整后的R^2,第一个模型中的销售收入中有99%的变动可以用地区人口的变动解释,第二个模型中地区人口和人均收入的变动可以解释销售收入中99.9%的变动,显然第二个模型的拟合数据效果比较好一点。
此外,还给出了第二个模型的DW简言之2.701,按照a=0.05、n=15、k=2,查表,得到DW检验临界值dl和du分别为0.95和1.54,因为du<=d<=4—du,不从在自相关。
表3Anova方差分析表
模型
平方和
df
均方
F
Sig.
1
回归
5.342
1
5.342
1432.139
.000a
残差
.048
13
.004
总计
5.390
14
2
回归
5.384
2
2.692
5679.466
.000b
残差
.006
12
.000
总计
5.390
14
a.预测变量:
(常量),地区人口。
b.预测变量:
(常量),地区人口,人均收入。
c.因变量:
年销售量
表3中给出了两个模型的F检验值,查表可知当a=0.05,自由度为(1,13)时,F检验的临界值为4.67,第一个模型的F值为1432.139,远远大于临界值,拒绝原假设,备择假设为真,即至少有一个bi不等于0,因此模型1有效。
当a=0.05,自由度为(2,12)时,F检验的临界值为3.88,第二个模型的F值为5679.466,模型2也通过了有效性的检验。
表4系数回归系数表
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
.228
.037
6.115
.000
地区人口
.053
.001
.995
37.844
.000
2
(常量)
.035
.024
1.420
.181
地区人口
.050
.001
.934
81.924
.000
人均收入
.092
.010
.108
9.502
.000
a.因变量:
年销售量
根据表中非标准化系数B的数值可知,逐步回归过程先后建立的两个回归模型分别是:
模型1:
销售收入=0.228+0.53*地区人口
模型2:
销售收入=0.35+0.05*地区人口+0.092*人均收入
表中给出了两个模型各个自变量系数的t检验值,其自由度为n-k-1,查表可知当a=0.05,自由度为13时,t检验的临界值为2.160,自由度为12时,t检验的临界值为2.179,可见回归系数显著。
此外,F统计量的值较大,t统计量的值也通过了检验,因此不存在严重的多元共线性问题。
回归分析中,总假定残差服从正态分布,图4和图5就是根据样本数据的计算结果显示残差分布的实际状况,然后对残差分布是否为正态分布的假设做出检验。
图4残差分布直方图
图5观测量累计概率图
从残差的直方图与图上的正态分布曲线相比较,可以认为残差基本服从正态分布。
进一步观察观测量累计概率图(图5),图中的斜率对应着一个均值为0的正态分布,可以看出图上的散点大致散布在斜线的附近,因此可以认为残差分布基本上是正态的。
图6标准残差与标准y的预测值散点图
从图6中看到,随着y的变化,残差无明显变化,因此误差变量的方差为常数,不具有异方差性。
7.进行预测
正如前面所说的,多元当中计算特定的y值预测区间的置信区间估计以及给定x的条件下y期望值的置信区间估计所使用的公式比较复杂们可以使用SPSS进行简化,操作步骤为:
1)在原始数据文件中进入回归模型的自变量下方输入给定的值,相应的因变量将产生缺失值;
2)选择主菜单分析——>回归——>线性,指定自变量和因变量;
3)单击保存对话框,选择预测值未标准化。
选择预测区间均值、单值以及置信区间95%,
4)提交运行,除了输出回归分析结果外,还将在数据文件中生成pre_1、lmci_1、umic_1、、lici_1和uici_1等变量。
Pre_1保存点预测值,lmci_1和umci_1分别保存y期望值预测期间的下限和上限,lici_1和uici_1分别保存特定y值预测区间的下限和上限。
图7
图8
在图7和图8中,我们可以得到:
时间t=1,销售收入的预测值是1.61896,地区人口的预测值是1.60060,人均收入的预测值1.63731,而销售收入(置信度为95%)为1.56809~1.66982.
将数据导出excel中,求均值得:
在整段时间里,销售收入的预测值是1.506,地区人口的预测值是1.485191,人均收入的预测值1.526811,而销售收入(置信度为95%)为1.45406~1.55794.
9/9