整理应用回归分析上机指导.docx
《整理应用回归分析上机指导.docx》由会员分享,可在线阅读,更多相关《整理应用回归分析上机指导.docx(35页珍藏版)》请在冰豆网上搜索。
整理应用回归分析上机指导
试验一一元线性回归分析
试验目的:
通过上机试验,使学生掌握一元线性回归分析的基本原理,熟悉软件操作过程,能对软件输出结果进行分析。
试验数据:
例一.一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。
经过10周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周签发的新保单数目,y为每周加班工作时间(小时)。
见表1.1
表11
周序号
1
2
3
4
5
6
7
8
9
10
X
825
215
1070
550
480
920
1350
325
670
1215
y
3.5
1.0
4.0
2.0
1.0
3.0
4.5
1.5
3.0
5.0
问Y与X之间是否存在显著的线性结果分析,用最小二乘估计求出回归方程,并作相应分析。
软件实现步骤:
1.在SPSS的数据编辑窗口中输入表1.1中的数据。
在“Analyze”菜单中选择“Regression”中的Linear命令。
2.在弹出的LinearRegression对话框中,从对话框左侧的变量列表中选择Y变量,单击Dependent框旁的箭头按钮,使之添加到Dependent框中,表示该变量是因变量,选择X变量,单击Inderndent(s)框旁的箭头按钮,使之添加到Inderndent(s)框中,表示其为自变量。
3.单击OK按钮,即可得到SPSS回归分析的结果。
软件输出结果:
结果分析:
1.输出结果文件中的第一个表格输出的是被引入或从回归方程中被剔除的各变量。
这部分结果说明在对编号为1的模型(Model)进行线性回归分析时所采用的方法是全部引入法:
Enter。
2.输出的结果文件中第二个表格输出的是常用统计量。
从这部分结果看出相关系数R=0.949,判定系数R2=0.900,调整的判定系数R2=0.888,回归估计的标准误差S=0.48002。
说明样本回归方程的代表性强。
3.输出的结果文件中第三表格是方差分析表。
从这部分结果看出:
统计量F=72.396;相伴概率值p<0.001。
说明自变量x与因变量y之间确有线性回归关系。
另外,SumofSquares一栏中分别代表回归平方和(16.682)、残差平方和(1.843)以及总平方和(18.525),Df为自由度。
4.输出的结果文件中第四个表格是回归系数分析。
其中,UnstandadizedCoefficients为非标准化系数,StandadizedCoefficients为标准化系数,t为回归系数检验统计量,Sig为相伴概率值。
从表格中可以看出估计值及其检验结果,常数项B0=0.118,回归系数B1=0.003585,回归系数检验统计量t=8.509,相伴概率值p<0.001。
说明回归系数与0有显著差别,该回归方程有意义:
Y=0.118+0.003585X
试验二多元线性回归分析
试验目的:
通过上机试验,使学生掌握多元线性回归分析的基本原理,熟悉软件操作过程,能对软件输出结果进行分析。
试验数据:
例二:
研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。
数据见表2.1
表2.1
编号
货运总量 y(万吨)
工业总产值x1(亿元)
农业总产值x2(亿元)
居民非商品支出x3(亿元)
1
160
70
35
1.0
2
260
75
40
2.4
3
210
65
40
2.0
4
265
74
42
3.0
5
240
72
38
1.2
6
220
68
45
1.5
7
275
78
42
4.0
8
160
66
36
2.0
9
275
70
44
3.2
10
250
65
42
3.0
问Y与X之间是否存在显著的线性结果分析,用最小二乘估计求出回归方程,并作相应分析。
软件实现步骤:
1.在SPSS的数据编辑窗口中输入表2.1中的数据。
在“Analyze”菜单中选择“Regression”中的Linear命令。
2.在弹出的LinearRegression对话框中,从对话框左侧的变量列表中选择Y变量,单击Dependent框旁的箭头按钮,使之添加到Dependent框中,表示该变量是因变量,选择X1,X2、,X3变量,单击Inderndent(s)框旁的箭头按钮,使之添加到Inderndent(s)框中,表示其为自变量。
3.单击LinearRegression对话框中的Statistics按钮,Statistics对话框,用来选择输出哪些统计量,本试验中,我们选择如下几项:
Estimates:
SPSS默认的输出项.输出与回归系数相关统计量。
如回归系数、回归系数的标准误差、标准回归系数、t统计师长相应的相伴概率值(sig)、各自变量的容忍度等。
Confidenceintervals:
输出每一个非标准化回归系数95%的可信区间。
Modelfit:
输出判定系数、调整的判定系数、回归方程的标准误差,F检验的ANOVA方差分析表。
该选项为默认选项。
Descriptives:
输出自变量和因变量的均值、标准差相关系数矩阵用单侧检验概率。
单击Continue按钮回到LinearRegression对话框。
4.单击LinearRegression对话框中的Save按钮,打开Save对话框,PredictedValues(即预测值栏)中选择Unstandardized(即保存均值的预测区间)和Indiviual(即保存单个新值的预测区间)。
然后单击Continue按钮回到LinearRegression对话框。
5.单击OK按钮,即可得到SPSS分析的结果。
软件部分输出结果:
结果分析:
1、回归方程为Y=-348.280+3.754X1+7.101X2+12.447X3
2.决定系数R2=0.806修正后的决定系数为R=0.708
由决定系数看回归方程拟合效果还可以。
3.方差分析表,D=8.283,P值=0.015表明回归方程较显著,说明X1、X2、X3整体上对Y有效显著的线性影响。
4.回归系数的显著性检验:
t1=1.942,P1=0.100,t2=2.465,P2=0.049,表明X1,X2对Y有效显著影响(取a=0.1),t3=1.178,P3=0.284>0.1,表明X3对Y没有显著影响,可以考虑从回归方程中剔除X3,仅以X1,X2为自变量,重新对Y作回归方程,具体软件操作步骤同前。
从而得到新的回归方程为Y=-459.3624+4.676X1+8.971X2;标准化方程为Y=0.479X1+0.676X2
F=11.117,P=0.007,说明方程整体显著。
T1=2.575,P1=0.037,P2=0.08,表明X1,X2对Y均有显著影响
每一个系数(包括常数项)的置信水平为95%的置信区间依次为[-821.54,-97.700]、[0.381,8.970],[3.134,14.808]。
当X01=75,X02=42时,则Y=267.8290。
给定置信水平为99%,Y0的预测区间为[226.5961,309.0619]。
试验三异方差问题及其处理
试验目的:
通过上机试验,使学生掌握异方差性的论断及处理,熟悉软件操作过程,能对软件输出结果进行分析。
试验数据:
例三:
为了探索社会保障与就业者人数的规律,我们以1989年全国30个省、市、自治区国有单位劳动保险费用总额为被解释变量y,以相应的国有单位劳动者人数作为解释变量x。
数据来自国家统计局社会统计司编《中国社会统计资料(1990)》。
见表3.1
表3.1
省、市、自治区\变量
Y(万元)
X(万元)
北京
13.94
336.40
天津
9.90
214.00
河北
12.66
482.30
山西
7.91
327.10
内蒙古
7.12
268.30
辽宁
26.56
650.80
吉林
12.43
343.70
黑龙江
19.19
588.00
上海
23.26
405.20
江苏
16.15
527.50
浙江
9.39
274.30
安徽
8.26
322.00
福建
5.34
211.00
江西
7.66
293.80
山东
15.24
528.30
河南
13.14
508.00
湖北
14.07
03.90
湖南
12.40
401.80
广东
19.06
503.20
广西
5.89
246.10
海南
2.23
92.90
四川
21.93
683.70
贵州
4.69
176.30
云南
7.98
237.60
西藏
0.64
14.90
陕西
9.88
297.50
甘肃
5.72
188.30
青海
2.43
55.30
宁夏
1.62
53.00
新疆
9.04
248.50
软件实现步骤:
1.在SPSS的数据编辑窗口中输入表3.1中的数据。
在“Analyze”菜单中选择“Regression”中的Linear命令。
2.在弹出的LinearRegression对话框中,从对话框左侧的变量列表中选择Y变量,单击Dependent框旁的箭头按钮,使之添加到Dependent框中,表示该变量是因变量,选择X变量,单击Inderndent(s)框旁的箭头按钮,使之添加到Inderndent(s)框中,表示其为自变量。
3.单击Save按钮,打开Save对话框,在Residuals(即残差栏)中选择Unstandavdized(即非标准化残差),然后单击Continue按钮,回到linearReression对话框。
4.单击OK按钮。
5.回到SPSS数据编辑窗口,在“Tvansform”菜单中选择Comput项,打开ComputVaviable(计算机变量)对话框,在该对话框中的TargetVaviable(目标变量)框中输入符合变量命令规则的变量名,这里将新变量命为ABSE。
NumevicExpression(数值表达式)框用于输入计算目标量值的表达式,这里的表达式为abs(e),然后单击OK得到新的变量值ABSE。
6.回到数据编辑窗口,在Analyze下拉菜单中选择Correlate—Bivaviate—Speaman,计算ABSE与X的等级相关系数。
7.此时发现原回归方程存在差异方差性。
用方差定化变换方法来处理该问题。
因此回到数据编辑窗口,在“Tvansform”菜单中选择Comput项,进行数据变换。
Y1=Logy。
(同步骤5)。
回到数据编辑窗口,建立Y1与X的回归方程,并保存非标准化残差,然后参照步骤5与步骤6,计算出新的回归方程,ABSE与X的等级相关系数。
发现新的回归方程不存在异方差性。
部分输出结果:
下面是用方差稳定化变换方法(令y1=logy)对原数据进行处理以后的结果:
结果分析:
1.原回归方程为y=-0.364+0.03372x
2.R2=0.827,说明方程的拟合优度可以;F=134.033,显著性sig=0.000,说明线性回归方程整体显著;自变量x的t值为11.577,显著性sig=0.000,说明x对y有显著影响。
3.从残差图看出,误差项具有明显的异方差性,误差随着x的增加而增加。
残差绝对值与x的等级相关系数rs=0.450,p值=0.013<0.05,可以认为残差绝对值与自变量x显著相关,存在异方差。
用方差稳定化变换处理后的结果分析如下:
4.标准化回归方程为:
y/=0.884x/,其回归系数表明国有企业劳动者人数每增长1%,相应的国有企业劳动保险费用总额平均增长00884%。
5.R2=0.782,说明新的方程拟合优度可以;F=100.213,显著性sig=0.000,说明新的线性回归方程整体显著;自变量x的t值为10.011,显著性sig=0.000,说明x对y有显著影响。
6.从残差图看出,误差项的异方差性已被消除。
残差绝对值与x的等级相关系数rs=-0.014,p值=0.943>0.05,可以认为残差绝对值与自变量x不存在显著相关,新方程不存在异方差性。
试验四自相关问题及其处理
试验目的:
通过上机试验,使学生掌握序列自相关的论断及处理,熟悉软件操作过程,能对软件输出结果进行分析。
试验数据
例四:
根据《中国统计年鉴(1993)》的资料,我们来研究财政支出模型。
其理论模型为:
yt=β0+β1xt+
其中,y表示财政支出,x表示财政可支配收入(财政可支配收入=财政收入+国债余额+外债余额+财政向银行借款),具体数据见表4.1
专项规划中的指导性规划 环境影响篇章或说明
意愿调查评估法(简称CV法)是指通过调查等方法,让消费者直接表述出他们对环境物品或服务的支付意愿(或接受赔偿意愿),或者对其价值进行判断。
在很多情形下,它是唯一可用的方法。
如用于评价环境资源的选择价值和存在价值。
规划审批机关在审批专项规划草案时,应当将环境影响报告书结论以及审查意见作为决策的重要依据。
(1)环境的使用价值。
环境的使用价值(UV)又称有用性价值,是指环境资源被生产者或消费者使用时,满足人们某种需要或偏好所表现出的价值,又分为直接使用价值、间接使用价值和选择价值。
表4.1单位:
亿元
《中华人民共和国环境保护法》和其他相关法律还规定:
“建设项目防治污染的设施,必须与主体工程同时设计,同时施工,同时投产使用(简称“三同时”)。
防治污染的设施必须经原审批环境影响报告书的环境保护行政部门验收合格后,该建设项目方可投入生产或者使用。
”“三同时”制度和建设项目竣工环境保护验收是对环境影响评价的延续,从广义上讲,也属于环境影响评价范畴。
年份
y
在可行性研究时应进行安全预评价的建设项目有:
x
年份
y
x
规划编制单位应当在报送审查的环境影响报告书中附具对公众意见采纳与不采纳情况及其理由的说明。
1952
176.000
183.700
2)购买环境替代品。
1973
809.300
809.700
1953
(三)安全评价的内容和分类220.100
(1)内涵资产定价法222.900
1974
790.800
783.100
1954
246.300
262.400
1975
820.900
815.600
1955
269.300
272.000
1976
806.200
776.600
1956
305.700
287.400
1977
843.500
874.500
1957
304.200
310.200
1978
1111.000
1121.100
1958
409.400
387.600
1979
1273.900
1193.500
1959
552.900
487.100
1980
1212.700
1255.400
1960
654.100
572.300
1981
1115.000
1308.360
1961
367.000
356.100
1982
1153.300
1386.690
1962
305.300
313.600
1983
1292.500
1582.670
1963
339.600
342.300
1984
1546.400
1939.300
1964
399.000
399.500
1985
1844.800
2848.501
1965
466.300
473.300
1986
2330.800
3723.389
1966
541.600
558.700
1987
2448.500
4405.420
1967
441.900
419.400
1988
2706.600
5257.602
1968
359.800
361.300
1989
3040.200
6320.940
1969
525.900
526.800
1990
3452.200
7736.422
1970
649.400
662.900
1991
3813.600
8929.667
1971
732.200
744.700
1992
4389.700
10688.090
1972
776.400
766.600
软件实现步骤:
1.在SPSS的数据编辑窗口中输入表4.1中的数据。
在“Analyze”菜单中选择“Regression”中的Linear命令。
2.在弹出的LinearRegression对话框中,从对话框左侧的变量列表中选择Y变量,单击Dependent框旁的箭头按钮,使之添加到Dependent框中,表示该变量是因变量,选择X变量,单击Inderndent(s)框旁的箭头按钮,使之添加到Inderndent(s)框中,表示其为自变量。
3.单击Statistics按钮,打开Statistics对话框,在Residuals框中选择Durbin--Watson即输出D.W检验值,然后单击Continue按钮,回到linearReression对话框。
4.单击OK按钮。
根据以上输出结果,发现原回归方程存在自相关问题,我你用选代法来处理这个问题。
5.回到数据编辑窗口,按照试验三的步骤5,对数据做变换:
Y1=Ye-0.914034Yt-1,X1=Xt-0.914034Xt-1。
6.以Y1为因变量,X1为自变量,建立新的回归方程,用普通最小二乘法估计其参数,并输出相应的D.W值。
操作方法同本试验步骤2,步骤3,步骤4。
新的方程已不存在序列相关。
部分输出结果:
(其中,E1=lag(unstandardizedresidual))
用迭代法对原数据处理后,输出结果如下:
结果分析:
1.原回归方程为y=392.505+0.409x
2.R2=0.960,说明方程的拟合优度可以;F=939.018,显著性sig=0.000,说明线性回归方程整体显著;自变量x的t值为30.643,显著性sig=0.000,说明x对y有显著影响。
3.从所给散点图看出,误差项存在正自相关。
另外DW=0.172,查DW表,n=41,k=2,显著性水平α=0.05,得dl=1.44,du=1.55。
由于0用迭代法处理原数据后,输出结果分析如下:
4.标准化回归方程为:
y/=0.942x1/,其回归系数表明财政可支配收入每增长1%,财政支出平均增长0.942%。
5.R2=0.887,说明新的方程拟合优度可以;F=297.423,显著性sig=0.000,说明新的线性回归方程整体显著;自变量x1的t值为17.246,显著性sig=0.000,说明x对y有显著影响。
6.DW=1.653,查DW表,n=40,k=2,显著性水平α=0.05,得dl=1.44,du=1.54。
由于du=1.54
试验五多重共线性问题及其处理
试验目的:
通过上机试验,使学生掌握多重共线性论断及其处理,熟悉软件操作过程,能对软件输出结果进行分析。
试验数据:
例五:
中国民航客运量的回归模型。
为了研究我国民航客运量的变化趋势及其成因,我们以民航客运量作为因变量y,以国民收入、消费额、铁路客运量,、民航航线里程、来华旅游入镜人数为影响民航客运量的主要因素。
Y表示民航客运量(万人),x1表示国民收入(亿元),x2表示消费额(亿元),x3表示铁路客运量(万人)、x4表示民航航线里程(万公里)、x5表示来华旅游入镜人数(万人)。
根据《1994年统计摘要》获得1987—1993年统计数据,见表5.1
表5.1
年份量
y
X1
X2
X3
X4
X5
1978
231
3010
1888
81491
14.89
180.92
1979
298
3350
2195
86389
16.000
420.39
1980
343
3688
2531
92204
19.53
570.25
1981
401
3941
2799
95300
21.82
776.71
1982
445
4258
3054
99922
23.27
792.43
1983
391
4736
3358
106044
22.91
947.70
1984
554
5652
3905
110353
26.02
1285.22
1985
744
7020
4879
112110
27.72
1783.30
1986
997
7859
5552
108579
32.43
2281.95
1987
1310
9313
6386
112429
38.91
2690.23
1988
1442
11738
8038
122645
37.38
3169.48
1989
1283
13176
9005
113807
47.19
2450.14
1990
1660
14384
9663
95712
50.68
2746.20
1991
2178
16557
10969
95081
55.91
3335.65
1992
2886
20223
12985
99693
83.66
3311.50
1993
3383
24882
15949
105458
96.08
4152.70
软件实现步骤:
1.在SPSS的数据编辑窗口中输入表5.1中的数据。
在“Analyze”菜单中选择“Regression”中的Linear命令。
2.在弹出的LinearRegression对话框中,从对话框左侧的变量列表中选择Y变量,单击Dependent框旁的箭头按钮,使之添加到Dependent框中,表示该变量是因变量,选择X1,X2、,X3变量,单击Inderndent(s)框旁的箭头按钮,使之添加到Inderndent(s)框中,表示其为自变量。
3.单击LinearRegression对话框中的Statistics按钮,打开Statistics对话框,选择Collinearitydiagnostics(即多重共线性分析),然后单击Continue按钮,回到linearReression对话框。
4.单击OK按钮。
得到初步分析的结果。
此时,我你发现原回归方程存在多重共线性问题。
于是,依次剔除方差扩大者所对应的自变量,仿效作上述诊断,直到消除多重共线性为止。
部分输出结果:
剔除x1后的输出结果如下:
继续剔除x2后的输出结果如下:
结果分析:
1、原回归方程为