回归分析.docx - 冰豆网

资源描述

回归分析.docx

《回归分析.docx》由会员分享，可在线阅读，更多相关《回归分析.docx（19页珍藏版）》请在冰豆网上搜索。

回归分析.docx

回归分析

《应用回归分析》作业

学院：

经济学院

班级：

统计131班

姓名：

******

学号：

130707016

一元线形回归分析

⑴提出自变量、因变量：

在社会经济发展中，居民收入和居民消费之间有密切的关系。

居民收入直接影响居民消费，反之居民消费又影响经济发展，进而又间接影响居民收入。

本案例选择我国1995-2012的数据。

其中Y为城镇居民可支配收入，X1为城镇居民消费水平，X2为固定资产投资。

研究城镇居民可支配收入与城镇居民消费水平之间的回归关系。

⑵收集数据：

数据来源：

中国统计年鉴

⑶给定理论模型：

根据数据呈现的散点图知，模型大致呈现性，因此建模为Y=ax+b形式。

⑷spss软件计算、输出结果：

DescriptiveStatistics

Mean

Std.Deviation

11043.0667

6278.22337

10274.5000

4916.96316

Y的均值为11043.0667。

x的均值为10274.5。

有效样本量为18，y的标准差为6654，942，x的标准差为4916.96316。

Correlations

PearsonCorrelation

1.000

.999

1.000

Sig.（1-tailed）

.000

相关系数r=0.999，单侧检验的相伴概率sig为0.000，说明y与x有显著的线性关系。

ModelSummaryb

Model

RSquare

AdjustedRSquare

Std.ErroroftheEstimate

ChangeStatistics

RSquareChange

FChange

df1

df2

Sig.FChange

.999a

.991

.998

302.08533

.998

7326.825

.000

a.Predictors:

（Constant）,x1

b.DependentVariable:

R=0.999,从相对水平上看，回归方程能够减少因变量y的99.8%的波动，回归标准差为302.08533。

ANOVAa

Model

SumofSquares

MeanSquare

Sig.

Regression

668613419.808

7326.825

.000b

Residual

1460088.732

91255.546

Total

670073508.540

a.DependentVariable:

b.Predictors:

（Constant）,x1

F检验：

原假设：

等于0（k=1）

备选假设：

不等于0。

构造统计量：

=7326.825

给定显著性水平：

α=0.05

F=7326.825，相伴概率为0，说明y与x的线性回归高度显著。

Coefficientsa

Model

UnstandardizedCoefficients

StandardizedCoefficients

Sig.

Std.Error

Beta

（Constant）

-2061.626

168.845

-12.210

.000

1.275

.015

.999

85.597

.000

a.DependentVariable:

T检验：

原假设：

=0，j=1

备选假设：

不等于0，j=1

t检验值：

=85.597

给定显著性水平：

α=0.05，临界值t（23）

=5.062

｜

｜=85.597>5.062，所以拒绝零假设，认为显著不为0,x显著

根据散点图，发现被解释变量随着解释变量的递增而增加，总体明显的呈线性趋势，因此拟合线形模型。

Y=-2061.626+1.275x,回归系数x1的t值为85.597。

t值较大通过检验。

ResidualsStatisticsa

Minimum

Maximum

Mean

Std.Deviation

PredictedValue

4227.6572

24876.0449

11043.0667

6271.37953

Std.PredictedValue

-1.087

2.206

.000

1.000

StandardErrorofPredictedValue

71.386

176.596

97.101

27.435

AdjustedPredictedValue

4219.7495

25037.6875

11059.1650

6299.60115

Residual

-500.02405

428.59882

.00000

293.06582

Std.Residual

-1.655

1.419

.000

.970

Stud.Residual

-1.905

1.482

-.024

1.043

DeletedResidual

-662.64417

467.55933

-16.09836

340.67946

Stud.DeletedResidual

-2.098

1.545

-.034

1.074

Mahal.Distance

.005

4.865

.944

1.239

Cook'sDistance

.003

.590

.088

.157

CenteredLeverageValue

.000

.286

.056

.073

a.DependentVariable:

由Cook'sDistance中的值为0.003可知，库克距离小于1，此方程的异常值和强影响点已经消除。

Y在置信度为95%的情况下的区间估计为（4227.6572,24876.0449），标准化的误差均值为97.101。

调整后的预测值最大值为25037.6875，最小值为4219.7495，调整后的预测均值为11059.1650。

《应用回归分析》作业

学院：

经济学院

班级：

统计131班

姓名：

李洪莉

学号：

130707016

多元线形回归分析

⑴提出因变量、自变量，收集数据：

根据经济增长的理论，经济增长是靠消费、投资和净出口“三架马车”拉动的。

其中，消费是促进经济增长的非常重要的因素，消费对经济的拉动大体上包括集团消费和居民消费两部分，本案例探讨居民消费对经济增长的影响。

所用的具体指标是x1国内生产总值、x2城镇居民家庭人均可支配收入、x3农村居民家庭人均纯收入、x4城乡居民人民币存款年底余额、x5居民消费价格指数、x6参加养老保险的人数和x7就业人员，以y居民消费水平为因变量。

数据来源：

中国统计年鉴

⑵作出相关分析、给定理论模型：

Correlations

PearsonCorrelation

1.000

.997

.998

.999

.996

-.334

.990

.764

.997

1.000

.996

.994

.998

-.301

.984

.733

.998

.996

1.000

.996

.995

-.336

.993

.777

.999

.994

.996

1.000

.993

-.346

.987

.769

.996

.998

.995

.993

1.000

-.323

.982

.730

-.334

-.301

-.336

-.346

-.323

1.000

-.339

-.480

.990

.984

.993

.987

.982

-.339

1.000

.830

.764

.733

.777

.769

.730

-.480

.830

1.000

Sig.（1-tailed）

.000

.055

.000

.076

.000

.054

.000

.049

.000

.062

.000

.055

.076

.054

.049

.062

.053

.009

.000

.053

.000

.009

.000

从相关矩阵看出，y与x1、x2、x3的相关系数大多都在0.8以上呈现高度的正相关，x5与被解释变量间呈负相关,说明所选自变量与y高度相关，用y与自变量x1、x2、x3、x4、x5、x6、x7做多元线性回归是合适的。

Coefficientsa

Model

UnstandardizedCoefficients

StandardizedCoefficients

Sig.

CollinearityStatistics

Std.Error

Beta

Tolerance

VIF

（Constant）

367.552

616.119

.597

.559

.003

.002

.137

1.624

.124

.002

546.373

.077

.049

.138

1.571

.136

.002

588.497

1.009

.083

.541

12.225

.000

.007

150.040

.002

.072

1.150

.267

.003

301.725

-1.284

2.894

-.002

-.444

.663

.493

2.030

.070

.030

.128

2.304

.035

.004

236.782

-.012

.009

-.020

-1.298

.213

.058

17.342

a.DependentVariable:

根据统计软件，以居民消费水平y为因变量，以各个x为自变量建立模型。

Y=367.552+0.003x1+0.077x2+1.009x3+0.002x4-1.284x5+0.070x6-0.012x7

多重共线性的检验中，VIF的值普遍都很大，只有第五个自变量的值小于10，尤其是第x1、x2、x4、x6自变量，表示模型存在严重的多重共线性。

⑶运用软件计算、输出计算结果：

ModelSummaryb

Model

RSquare

AdjustedRSquare

Std.ErroroftheEstimate

Durbin-Watson

0.999a

0.991

0.998

65.02418

2.163

a.Predictors:

（Constant）,x7,x5,x4,x3,x6,x1,x2

b.DependentVariable:

拟合优度检验：

决定系数

，相关系数R=0.999，由决定系数来看，回归方程拟合效果很好，回归方程显著。

DW检验：

原假设：

ρ=0（

不存在一阶自相关）

备选假设：

ρ不等于0（

存在一阶自相关）

计算统计量：

DW=2（1-ρ）=2.163

临界值：

=0.90

=1.92，DW=2.163>

=1.92,所以接受原假设，认为模型不存在序列自相关性。

ANOVAa

Model

SumofSquares

MeanSquare

Sig.

Regression

323471129.036

46210161.291

10929.184

.000b

Residual

67650.298

4228.144

Total

323538779.333

a.DependentVariable:

b.Predictors:

（Constant）,x7,x5,x4,x3,x6,x1,x2

F检验：

原假设：

均等于0

备选假设：

至少存在一个

不等于0。

构造统计量：

=10929.184

给定显著性水平：

α=0.05

自由度为（p，n-p-1）=（7，15）的F临界值为：

6.97，F=10929.184>6.97,拒绝原假设，认为在显著性水平0.05下，y与x1、x2、x3、x4、x5、x6、x7有显著的线性关系，即回归方程是显著的。

Coefficientsa

Model

UnstandardizedCoefficients

StandardizedCoefficients

Sig.

CollinearityStatistics

Std.Error

Beta

Tolerance

VIF

（Constant）

367.552

616.119

.597

.559

.003

.002

.137

1.624

.124

.002

546.373

.077

.049

.138

1.571

.136

.002

588.497

1.009

.083

.541

12.225

.000

.007

150.040

.002

.072

1.150

.267

.003

301.725

-1.284

2.894

-.002

-.444

.663

.493

2.030

.070

.030

.128

2.304

.035

.004

236.782

-.012

.009

-.020

-1.298

.213

.058

17.342

a.DependentVariable:

ResidualsStatisticsa

Minimum

Maximum

Mean

Std.Deviation

PredictedValue

733.9110

14066.8857

4867.6667

3750.19495

Std.PredictedValue

-1.102

2.453

.000

1.000

StandardErrorofPredictedValue

23.667

57.414

36.237

10.024

AdjustedPredictedValue

589.6324

14021.5781

4855.8802

3750.70547

Residual

-145.81964

99.51174

.00000

54.23391

Std.Residual

-2.243

1.530

.000

.834

Stud.Residual

-2.595

2.472

.057

1.115

DeletedResidual

-195.26315

342.36752

11.78643

108.56165

Stud.DeletedResidual

-3.302

3.044

.066

1.275

Mahal.Distance

2.089

16.973

6.708

4.284

Cook'sDistance

.000

2.702

.189

.552

CenteredLeverageValue

.091

.738

.292

.186

a.DependentVariable:

在95%的置信度水平下，y的置信区间为（733.9110，14066.8857）。

⑷回归诊断：

复相关系数R=0.999，复可决系数为0.998。

因此模型的自变量与因变量高度相关，模型拟合优度高，模型有效。

根据DW检验值为2.163，DW值在2附近，模型不存在多重共线性。

F=10928.18，相伴概率Sig为0.000，表示模型整体有效。

模型参数检验中，第三个回归系数、第六个回归系数的t值分别为12.225和2.304，相伴概率sig分别为0.000和0.035，所以通过检验，表示这两个自变量有效，其他自变量的t值较小并且sig较大，都无效。

根据Cook'sDistance距离值为0.189，库克距离小于1，所以模型不存在请影响点及异常值。

多重共线性的检验中，VIF的值普遍都很大，只有第五个自变量的值小于10，尤其是第1.2.4.6个自变量，表示模型存在严重的多重共线性。

因此运用主成分分析消除多重共线性。

根据散点图模型大致呈线性趋势，因此拟合多元线性回归方程成立，但要消除变量间的多重共线性。

⑸多重共线性的消除：

CorrelationMatrix

Correlation

1.000

.996

.994

.998

-.301

.984

.733

.996

1.000

.996

.995

-.336

.993

.777

.994

.996

1.000

.993

-.346

.987

.769

.998

.995

.993

1.000

-.323

.982

.730

-.301

-.336

-.346

-.323

1.000

-.339

-.480

.984

.993

.987

.982

-.339

1.000

.830

.733

.777

.769

.730

-.480

.830

1.000

根据相关系数矩阵，绝大部分相关系数大于0.3，所以各个变量之间关系密切可以做主成分分析。

KMOandBartlett'sTest

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.

.841

Bartlett'sTestofSphericity

Approx.Chi-Square

459.739

Sig.

.000

根据巴特利特球度检验，原始数据可以做主成分分析。

Communalities

Initial

Extraction

1.000

.963

1.000

.983

1.000

.979

1.000

.964

1.000

.181

1.000

.988

1.000

.704

在主成分提取信息中绝大部分变量信息提取精度较高，x5信息提取变量精度较低。

TotalVarianceExplained

Component

InitialEigenvalues

ExtractionSumsofSquaredLoadings

Total

%ofVariance

Cumulative%

Total

%ofVariance

Cumulative%

5.761

82.304

5.761

82.304

.914

13.057

95.361

0.914

13.057

95.361

.311

4.447

99.807

.007

.101

99.909

.003

.046

99.955

.002

.030

99.984

.001

.016

100.000

ExtractionMethod:

PrincipalComponentAnalysis.

按照累计方差贡献率的标准，提取两个主成分。

根据主成分得分，建立回归模型，y=4867.667+3673.861fac1+692.412fac2

建立主成分fac1、fac2依自变量x的多元回归方程。

fac1=-5.562+0.000001434x1+0.00002985x2+0.00009777x3+0.000001802x4+0.033x5+0.0000282x6+0.0000103x7

fac2=11.96-0.000000744x1-0.0000009471x2-0.0000269x3-0.0000007784-0.142x5-0.000005890x6+0.00004907x7

模型转化：

将fac1、fac2代入y中得到模型：

Y=-7275.65+0.004751x1+0.10305x2+0.340323x3+0.006078x4+21.20049x5+0.099514x6+0.07783x7

展开阅读全文