回归分析.docx
《回归分析.docx》由会员分享,可在线阅读,更多相关《回归分析.docx(19页珍藏版)》请在冰豆网上搜索。
回归分析
《应用回归分析》作业
学院:
经济学院
班级:
统计131班
姓名:
******
学号:
130707016
一元线形回归分析
⑴提出自变量、因变量:
在社会经济发展中,居民收入和居民消费之间有密切的关系。
居民收入直接影响居民消费,反之居民消费又影响经济发展,进而又间接影响居民收入。
本案例选择我国1995-2012的数据。
其中Y为城镇居民可支配收入,X1为城镇居民消费水平,X2为固定资产投资。
研究城镇居民可支配收入与城镇居民消费水平之间的回归关系。
⑵收集数据:
数据来源:
中国统计年鉴
⑶给定理论模型:
根据数据呈现的散点图知,模型大致呈现性,因此建模为Y=ax+b形式。
⑷spss软件计算、输出结果:
DescriptiveStatistics
Mean
Std.Deviation
N
y
11043.0667
6278.22337
18
x1
10274.5000
4916.96316
18
Y的均值为11043.0667。
x的均值为10274.5。
有效样本量为18,y的标准差为6654,942,x的标准差为4916.96316。
Correlations
y
x1
PearsonCorrelation
y
1.000
.999
x1
.999
1.000
Sig.(1-tailed)
y
.
.000
x1
.000
.
N
y
18
18
x1
18
18
相关系数r=0.999,单侧检验的相伴概率sig为0.000,说明y与x有显著的线性关系。
ModelSummaryb
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
ChangeStatistics
RSquareChange
FChange
df1
df2
Sig.FChange
1
.999a
.991
.998
302.08533
.998
7326.825
1
16
.000
a.Predictors:
(Constant),x1
b.DependentVariable:
y
R=0.999,从相对水平上看,回归方程能够减少因变量y的99.8%的波动,回归标准差为302.08533。
ANOVAa
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
668613419.808
1
668613419.808
7326.825
.000b
Residual
1460088.732
16
91255.546
Total
670073508.540
17
a.DependentVariable:
y
b.Predictors:
(Constant),x1
F检验:
原假设:
等于0(k=1)
备选假设:
不等于0。
构造统计量:
=7326.825
给定显著性水平:
α=0.05
F=7326.825,相伴概率为0,说明y与x的线性回归高度显著。
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
-2061.626
168.845
-12.210
.000
x1
1.275
.015
.999
85.597
.000
a.DependentVariable:
y
T检验:
原假设:
=0,j=1
备选假设:
不等于0,j=1
t检验值:
=85.597
给定显著性水平:
α=0.05,临界值t(23)
=5.062
|
|=85.597>5.062,所以拒绝零假设,认为显著不为0,x显著
根据散点图,发现被解释变量随着解释变量的递增而增加,总体明显的呈线性趋势,因此拟合线形模型。
Y=-2061.626+1.275x,回归系数x1的t值为85.597。
t值较大通过检验。
ResidualsStatisticsa
Minimum
Maximum
Mean
Std.Deviation
N
PredictedValue
4227.6572
24876.0449
11043.0667
6271.37953
18
Std.PredictedValue
-1.087
2.206
.000
1.000
18
StandardErrorofPredictedValue
71.386
176.596
97.101
27.435
18
AdjustedPredictedValue
4219.7495
25037.6875
11059.1650
6299.60115
18
Residual
-500.02405
428.59882
.00000
293.06582
18
Std.Residual
-1.655
1.419
.000
.970
18
Stud.Residual
-1.905
1.482
-.024
1.043
18
DeletedResidual
-662.64417
467.55933
-16.09836
340.67946
18
Stud.DeletedResidual
-2.098
1.545
-.034
1.074
18
Mahal.Distance
.005
4.865
.944
1.239
18
Cook'sDistance
.003
.590
.088
.157
18
CenteredLeverageValue
.000
.286
.056
.073
18
a.DependentVariable:
y
由Cook'sDistance中的值为0.003可知,库克距离小于1,此方程的异常值和强影响点已经消除。
Y在置信度为95%的情况下的区间估计为(4227.6572,24876.0449),标准化的误差均值为97.101。
调整后的预测值最大值为25037.6875,最小值为4219.7495,调整后的预测均值为11059.1650。
《应用回归分析》作业
学院:
经济学院
班级:
统计131班
姓名:
李洪莉
学号:
130707016
多元线形回归分析
⑴提出因变量、自变量,收集数据:
根据经济增长的理论,经济增长是靠消费、投资和净出口“三架马车”拉动的。
其中,消费是促进经济增长的非常重要的因素,消费对经济的拉动大体上包括集团消费和居民消费两部分,本案例探讨居民消费对经济增长的影响。
所用的具体指标是x1国内生产总值、x2城镇居民家庭人均可支配收入、x3农村居民家庭人均纯收入、x4城乡居民人民币存款年底余额、x5居民消费价格指数、x6参加养老保险的人数和x7就业人员,以y居民消费水平为因变量。
数据来源:
中国统计年鉴
⑵作出相关分析、给定理论模型:
Correlations
y
x1
x2
x3
x4
x5
x6
x7
PearsonCorrelation
y
1.000
.997
.998
.999
.996
-.334
.990
.764
x1
.997
1.000
.996
.994
.998
-.301
.984
.733
x2
.998
.996
1.000
.996
.995
-.336
.993
.777
x3
.999
.994
.996
1.000
.993
-.346
.987
.769
x4
.996
.998
.995
.993
1.000
-.323
.982
.730
x5
-.334
-.301
-.336
-.346
-.323
1.000
-.339
-.480
x6
.990
.984
.993
.987
.982
-.339
1.000
.830
x7
.764
.733
.777
.769
.730
-.480
.830
1.000
Sig.(1-tailed)
y
.
.000
.000
.000
.000
.055
.000
.000
x1
.000
.
.000
.000
.000
.076
.000
.000
x2
.000
.000
.
.000
.000
.054
.000
.000
x3
.000
.000
.000
.
.000
.049
.000
.000
x4
.000
.000
.000
.000
.
.062
.000
.000
x5
.055
.076
.054
.049
.062
.
.053
.009
x6
.000
.000
.000
.000
.000
.053
.
.000
x7
.000
.000
.000
.000
.000
.009
.000
.
N
y
24
24
24
24
24
24
24
24
x1
24
24
24
24
24
24
24
24
x2
24
24
24
24
24
24
24
24
x3
24
24
24
24
24
24
24
24
x4
24
24
24
24
24
24
24
24
x5
24
24
24
24
24
24
24
24
x6
24
24
24
24
24
24
24
24
x7
24
24
24
24
24
24
24
24
从相关矩阵看出,y与x1、x2、x3的相关系数大多都在0.8以上呈现高度的正相关,x5与被解释变量间呈负相关,说明所选自变量与y高度相关,用y与自变量x1、x2、x3、x4、x5、x6、x7做多元线性回归是合适的。
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
CollinearityStatistics
B
Std.Error
Beta
Tolerance
VIF
1
(Constant)
367.552
616.119
.597
.559
x1
.003
.002
.137
1.624
.124
.002
546.373
x2
.077
.049
.138
1.571
.136
.002
588.497
x3
1.009
.083
.541
12.225
.000
.007
150.040
x4
.002
.002
.072
1.150
.267
.003
301.725
x5
-1.284
2.894
-.002
-.444
.663
.493
2.030
x6
.070
.030
.128
2.304
.035
.004
236.782
x7
-.012
.009
-.020
-1.298
.213
.058
17.342
a.DependentVariable:
y
根据统计软件,以居民消费水平y为因变量,以各个x为自变量建立模型。
Y=367.552+0.003x1+0.077x2+1.009x3+0.002x4-1.284x5+0.070x6-0.012x7
多重共线性的检验中,VIF的值普遍都很大,只有第五个自变量的值小于10,尤其是第x1、x2、x4、x6自变量,表示模型存在严重的多重共线性。
⑶运用软件计算、输出计算结果:
ModelSummaryb
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
Durbin-Watson
1
0.999a
0.991
0.998
65.02418
2.163
a.Predictors:
(Constant),x7,x5,x4,x3,x6,x1,x2
b.DependentVariable:
y
拟合优度检验:
决定系数
,相关系数R=0.999,由决定系数来看,回归方程拟合效果很好,回归方程显著。
DW检验:
原假设:
ρ=0(
不存在一阶自相关)
备选假设:
ρ不等于0(
存在一阶自相关)
计算统计量:
DW=2(1-ρ)=2.163
临界值:
=0.90
=1.92,DW=2.163>
=1.92,所以接受原假设,认为模型不存在序列自相关性。
ANOVAa
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
323471129.036
7
46210161.291
10929.184
.000b
Residual
67650.298
16
4228.144
Total
323538779.333
23
a.DependentVariable:
y
b.Predictors:
(Constant),x7,x5,x4,x3,x6,x1,x2
F检验:
原假设:
均等于0
备选假设:
至少存在一个
不等于0。
构造统计量:
=10929.184
给定显著性水平:
α=0.05
自由度为(p,n-p-1)=(7,15)的F临界值为:
6.97,F=10929.184>6.97,拒绝原假设,认为在显著性水平0.05下,y与x1、x2、x3、x4、x5、x6、x7有显著的线性关系,即回归方程是显著的。
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
CollinearityStatistics
B
Std.Error
Beta
Tolerance
VIF
1
(Constant)
367.552
616.119
.597
.559
x1
.003
.002
.137
1.624
.124
.002
546.373
x2
.077
.049
.138
1.571
.136
.002
588.497
x3
1.009
.083
.541
12.225
.000
.007
150.040
x4
.002
.002
.072
1.150
.267
.003
301.725
x5
-1.284
2.894
-.002
-.444
.663
.493
2.030
x6
.070
.030
.128
2.304
.035
.004
236.782
x7
-.012
.009
-.020
-1.298
.213
.058
17.342
a.DependentVariable:
y
ResidualsStatisticsa
Minimum
Maximum
Mean
Std.Deviation
N
PredictedValue
733.9110
14066.8857
4867.6667
3750.19495
24
Std.PredictedValue
-1.102
2.453
.000
1.000
24
StandardErrorofPredictedValue
23.667
57.414
36.237
10.024
24
AdjustedPredictedValue
589.6324
14021.5781
4855.8802
3750.70547
24
Residual
-145.81964
99.51174
.00000
54.23391
24
Std.Residual
-2.243
1.530
.000
.834
24
Stud.Residual
-2.595
2.472
.057
1.115
24
DeletedResidual
-195.26315
342.36752
11.78643
108.56165
24
Stud.DeletedResidual
-3.302
3.044
.066
1.275
24
Mahal.Distance
2.089
16.973
6.708
4.284
24
Cook'sDistance
.000
2.702
.189
.552
24
CenteredLeverageValue
.091
.738
.292
.186
24
a.DependentVariable:
y
在95%的置信度水平下,y的置信区间为(733.9110,14066.8857)。
⑷回归诊断:
复相关系数R=0.999,复可决系数为0.998。
因此模型的自变量与因变量高度相关,模型拟合优度高,模型有效。
根据DW检验值为2.163,DW值在2附近,模型不存在多重共线性。
F=10928.18,相伴概率Sig为0.000,表示模型整体有效。
模型参数检验中,第三个回归系数、第六个回归系数的t值分别为12.225和2.304,相伴概率sig分别为0.000和0.035,所以通过检验,表示这两个自变量有效,其他自变量的t值较小并且sig较大,都无效。
根据Cook'sDistance距离值为0.189,库克距离小于1,所以模型不存在请影响点及异常值。
多重共线性的检验中,VIF的值普遍都很大,只有第五个自变量的值小于10,尤其是第1.2.4.6个自变量,表示模型存在严重的多重共线性。
因此运用主成分分析消除多重共线性。
根据散点图模型大致呈线性趋势,因此拟合多元线性回归方程成立,但要消除变量间的多重共线性。
⑸多重共线性的消除:
CorrelationMatrix
x1
x2
x3
x4
x5
x6
x7
Correlation
x1
1.000
.996
.994
.998
-.301
.984
.733
x2
.996
1.000
.996
.995
-.336
.993
.777
x3
.994
.996
1.000
.993
-.346
.987
.769
x4
.998
.995
.993
1.000
-.323
.982
.730
x5
-.301
-.336
-.346
-.323
1.000
-.339
-.480
x6
.984
.993
.987
.982
-.339
1.000
.830
x7
.733
.777
.769
.730
-.480
.830
1.000
根据相关系数矩阵,绝大部分相关系数大于0.3,所以各个变量之间关系密切可以做主成分分析。
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.841
Bartlett'sTestofSphericity
Approx.Chi-Square
459.739
df
21
Sig.
.000
根据巴特利特球度检验,原始数据可以做主成分分析。
Communalities
Initial
Extraction
x1
1.000
.963
x2
1.000
.983
x3
1.000
.979
x4
1.000
.964
x5
1.000
.181
x6
1.000
.988
x7
1.000
.704
在主成分提取信息中绝大部分变量信息提取精度较高,x5信息提取变量精度较低。
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
1
5.761
82.304
82.304
5.761
82.304
82.304
2
.914
13.057
95.361
0.914
13.057
95.361
3
.311
4.447
99.807
4
.007
.101
99.909
5
.003
.046
99.955
6
.002
.030
99.984
7
.001
.016
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
按照累计方差贡献率的标准,提取两个主成分。
根据主成分得分,建立回归模型,y=4867.667+3673.861fac1+692.412fac2
建立主成分fac1、fac2依自变量x的多元回归方程。
fac1=-5.562+0.000001434x1+0.00002985x2+0.00009777x3+0.000001802x4+0.033x5+0.0000282x6+0.0000103x7
fac2=11.96-0.000000744x1-0.0000009471x2-0.0000269x3-0.0000007784-0.142x5-0.000005890x6+0.00004907x7
模型转化:
将fac1、fac2代入y中得到模型:
Y=-7275.65+0.004751x1+0.10305x2+0.340323x3+0.006078x4+21.20049x5+0.099514x6+0.07783x7