基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解.docx

资源描述

基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解.docx

《基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解.docx》由会员分享，可在线阅读，更多相关《基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解.docx（19页珍藏版）》请在冰豆网上搜索。

基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解.docx

基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解

基于全国城镇居民平均每人全年家庭收入来源的统计分析

摘要本文采用2012年中国省会城市和城镇居民家庭收入来源的统计数据，首先运用各收入来源对家庭可支配收入进行回归分析，然后运用逐步回归法分析工资性收入、经营净收入、财产性收入和转移性收入对可支配收入的显著性关系；然后利用聚类分析对各城市进行分类；最后利用因子分析对各地区进行因子分析，通过计算综合得分，获得各地区综合排名，

关键词可支配收入；聚类分析；回归分析；因子分析。

1、研究背景及目的

改革开放以来，我国的国民经济增长迅速，居民的收入水平也大幅提高，但居民收入分配差距也在不断扩大。

虽然随着世界范围的经济危机的衰亡，但是经济危机的影响依然存在，各行业各业都在面临了巨大的压力下缓解了过来，从而也深深地影响了我国城镇居民的收入来源。

随着社会的进步和经济的快速发展，我国居民的收入方式已经变得丰富起来，包括工资性收入、经营净收入、财产性收入及转移性收入等多种收入方式，因此，分析我国居民的收入来源变得犹为重要。

本研究目的如下：

通过对我国各省城镇居民收入来源的分析，一方面了解我国各省的主要经济结构，另一方面确定各省的收入形式，为国家制定政策提供依据。

2、研究方法

为了研究我国各省城镇居民的收入来源的构成，我们采用了工资性收入、经营净收入、财产性收入、转移性收入、总收入和可支配收入等六大指标。

本研究采用的数据是《分地区城镇居民平均每人全年家庭收入来源》，数据摘自《中国统计年鉴2013》11-14。

本数据分析主要采用的研究方法有聚类分析，回归分析和因子分析。

基恩思路是：

首先利用饼图和条形图得出全国的平均收入构成分布比例及各省的品均可支配收入情况；然后运用聚类分析对各省的收入构成情况进行分类；然后运用回归分析研究各收入来源对可支配收入的显著性；最后运用因子分析对各个城市提取公因子，根据提取出的公因子对各个城市进行排名。

3、实证分析

由于从国家统计局网站下载的数据为EXCEL格式，可以将数据导入成SPSS数据，共设置了6个变量，分别是“可支配收入”、“总收入”、“工资性收入”、“财产性收入”、“转移性收入”。

样本是中国2012年分地区城镇居民平均每人全年家庭收入来源的统计数据。

见附表

3.1简单的统计图形

图1可以看出在所有的的收入来源中，工资性收入占主导地位，转移性收入次之，说明我国家庭的收入来源主要靠就业工资，但是国家的补贴仍然处于重要地位，说明我国居民仍有部分处于失业、待就业状态，国家的扶持让他们能继续维持生计。

图2是我国城镇家庭平均可支配收入的比较，通过图形我们可以看出在各个城市的对比中上海处于领先地位，说明上海地区在我国处于比较重要的地位，经济比较发达，人民生活水平比较高。

图2

3.2回归分析

以“可支配收入”为被解释变量，以“工资性收入”、“经营净收入”、“财产性收入”和“转移性收入”为解释变量，进行多元回归，采用逐步回归法。

得到的图3至图5所示

图3

模型汇总e

模型

R方

调整R方

标准估计的误差

Durbin-Watson

.951a

.904

.901

1809.732304365350700

.980b

.961

.958

1177.160102963996500

.998c

.996

.995

388.460200360006300

.999d

.997

335.140726952013700

1.853

a.预测变量:

（常量）,工资性收入。

b.预测变量:

（常量）,工资性收入,转移性收入。

c.预测变量:

（常量）,工资性收入,转移性收入,经营净收入。

d.预测变量:

（常量）,工资性收入,转移性收入,经营净收入,财产性收入。

e.因变量:

可支配收入

图4

Anovae

模型

平方和

均方

Sig.

回归

9.282E8

283.416

.000a

残差

98253930.404

3275131.013

总计

1.026E9

回归

9.863E8

4.931E8

355.881

.000b

残差

40185471.332

1385705.908

总计

1.026E9

回归

1.022E9

3.408E8

2258.106

.000c

残差

4225237.163

150901.327

总计

1.026E9

回归

1.023E9

2.559E8

2277.984

.000d

残差

3032621.285

112319.307

总计

1.026E9

a.预测变量:

（常量）,工资性收入。

b.预测变量:

（常量）,工资性收入,转移性收入。

c.预测变量:

（常量）,工资性收入,转移性收入,经营净收入。

d.预测变量:

（常量）,工资性收入,转移性收入,经营净收入,财产性收入。

e.因变量:

可支配收入

图5

系数a

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

3533.902

1214.662

2.909

.007

工资性收入

1.189

.071

.951

16.835

.000

（常量）

2114.906

819.934

2.579

.015

工资性收入

.926

.061

.740

15.091

.000

转移性收入

.944

.146

.318

6.473

.000

（常量）

387.089

292.813

1.322

.197

工资性收入

.888

.020

.710

43.492

.000

转移性收入

.862

.048

.290

17.803

.000

经营净收入

1.302

.084

.195

15.437

.000

（常量）

724.066

272.969

2.653

.013

工资性收入

.852

.021

.681

41.222

.000

转移性收入

.910

.044

.306

20.528

.000

经营净收入

1.056

.105

.158

10.081

.000

财产性收入

.826

.253

.056

3.259

.003

a.因变量:

可支配收入

综上所述，我们可以得到：

（1）最终模型表达式为：

可支配收入=724.066+0.852*工资性收入+0.91*转移性收入+1.056*经营净收入+0.826*财产性收入

（2）最终模型拟合度较好，R²=0.997比较接近于1。

（3）模型中自变量的系数的显著性p都小于0.05，回归方程的线性关系显著。

（4）通过逐步回归也间接的表明收入的来源重要性排名上，“工资性收入”占主导地位，“转移性收入”次之，“财产性收入”最少，与饼图的分析结果相同。

（5）分析结论：

通过以上分析，可以发现可支配收入与“工资性收入”、“转移性收入”、“经营净收入”和“财产性收入”都有显著关系。

图6残差统计表

残差统计量a

极小值

极大值

均值

标准偏差

预测值

16977.90625000000000

39937.68359375000000

23260.69218750000800

5745.815085753577000

标准预测值

-1.093

2.902

.000

1.000

预测值的标准误差

64.060

233.798

123.307

49.202

调整的预测值

16958.74023437500000

39720.69531250000000

23266.75450186785400

5736.922416800186500

残差

-582.714599609375000

494.252380371093750

-.000000000006718

312.772270307487600

标准残差

-1.739

1.475

.000

.933

a.因变量:

可支配收入

图6为残差统计表，可以看出预测值及标准化的预测值、残差及残差预测值的最小值、最大值、均值、标准差和样本数。

这些数据中无离群值，可以认为模型是健康的。

除了分析残差统计外，还可以直接做出标准残差的直方图和正态P-P图来观察其是否服从正态分布。

通过图7和图8可以看出残差具有正态分布趋势，因此可以认为回归模型是恰当的。

图7

图8

图9

通过图9的序列图还可以看出，标化残差均在0上下波动，且波动范围没有超过±2，没有发现明显方差不齐或者比较异常的点。

说明模型拟合比较合理。

3.3聚类分析

图10

图11

聚类成员

案例号

地区

聚类

距离

北京

1632.791

天津

3213.786

河北

1318.693

山西

1270.964

内蒙古

2864.198

辽宁

2633.082

吉林

744.271

黑龙江

2557.804

上海

1632.791

江苏

1646.031

浙江

2956.691

安徽

865.859

福建

2064.322

江西

870.521

山东

2858.502

河南

797.845

湖北

684.359

湖南

1501.632

广东

3101.053

广西

669.986

海南

785.204

重庆

1754.077

四川

188.751

贵州

1903.609

云南

775.331

西藏

5369.436

陕西

1805.793

甘肃

2076.168

青海

1865.089

宁夏

685.898

新疆

1523.997

通过图10和图11可以把全国分成三类，北京和上海为第一类，天津、江苏、浙江、福建、山东和广东为第二类，其余的为第三类。

通过聚类，把全国的各省份分成三类，有利于中央做决策，避免对每个省分别作决策，把相似的省份放在一起进行经济分析、比较更能说明问题，不同的省份放在一个类中进行比较，避免经济较弱的城市与较强的城市比较，做无用功。

3.4因子分析

我们已经通过回归分析和聚类分析对影响可支配收入的收入来源方式进行了回归分析获知各种影响指标，以及影响程度和方向，又运用了聚类分析对各个城市进行了分类，但是由于各种变量的多重共线性问题，不太利于具体经济意义解释，因此我们可以利用因子分析对构成收入来源的各个变量提取公因子，对数据进行降维处理。

首先利用主菜单分析中的降维工具条进行因子分析。

在处理过程中，将“工资性收入”、“转移性收入”、“经营净收入”和“财产性收入”选入变量列表中。

接着在相应的按钮中选中输出相关系数矩阵和KMO和Bartlett的球形度检验的复选框，并且设置特征根大于1为提取公因子的要求，利用最大方差法进行因子旋转，最后保存因子得分变量，并显示因子得分系数矩阵，输出结果见图12至图17。

（1）KMO和Bartlett的检验，如图12所示，KMO的取值为0.557，表明变量间有较强的相关性，数据很适合做因子分析。

Bartlett检验的Sig.值为0.000，说明数据来自正态总体，适合进一步分析。

图12

KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.557

Bartlett的球形度检验

近似卡方

46.283

Sig.

.000

（2）变量共同度，指的是按照所选标准提取相应数量主成分后，各变量中信息分别被提取的比例。

如图13所示，所有变量共同度都在80%以上，所以提取这几个公因子对各变量的解释力还可以。

图13

公因子方差

初始

提取

工资性收入

1.000

.836

经营净收入

1.000

.842

财产性收入

1.000

.864

转移性收入

1.000

.846

提取方法：

主成份分析。

（3）解释的总方差，由图14中可以看出，“初始特征值”一栏显示前两个特征值大于1，所以只选取了前两个公因子；“提取平方和载入”一栏显示第一公因子的方差贡献率是56.905%，前两个公因子的方差总和占所有主成分方差的87.711%，可见选取前两个因子已足够替代原来的变量。

图14

解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

合计

方差的%

累积%

2.276

56.905

2.276

56.905

1.724

43.092

1.112

27.806

84.711

1.112

27.806

84.711

1.665

41.619

84.711

.442

11.055

95.766

.169

4.234

100.000

提取方法：

主成份分析。

（4）碎石图，是按照特征根大小排列的主成分散点图。

如图3所示，我们可以看到有三个成分的特征值超过1。

（4）碎石图，是按照特征根大小排列的主成分散点图。

如图3所示，我们可以看到有三个成分的特征值超过1。

图15

（4）碎石图，是按照特征根大小排列的主成分散点图。

如图15所示，我们可以看到有两个成分的特征值超过1。

图15

旋转成份矩阵a

成份

可支配收入

.925

.367

工资性收入

.904

.236

转移性收入

.896

.039

经营净收入

.125

.910

财产性收入

.244

.896

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

a.旋转在3次迭代后收敛。

（5）成分矩阵，如图16可见，在所有变量中的因子得分并不高，因此有必要进行因子旋转。

我们利用最大方差法进行因子旋转得到的旋转成分矩阵如图16所示。

图16

旋转成份矩阵a

成份

经营净收入

.912

.102

财产性收入

.904

.216

转移性收入

.067

.917

工资性收入

.264

.875

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

a.旋转在3次迭代后收敛。

这样每个因子就很明确了。

经营净收入和财产性收入归为第一类，可命名为不确定收入；转移性收入和工资性收入归为第二类，命名为确定收入。

图17

成份得分系数矩阵

成份

工资性收入

-.027

.535

经营净收入

.576

-.140

财产性收入

.545

-.060

转移性收入

-.167

.609

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

构成得分。

通过图17，可以得出F1=-0.027*工资性收入+0.576*经营净收入+0.545*财产性收入+-0.167*转移性收入。

同时F2计算方法同样如此。

图18

成份得分协方差矩阵

成份

1.000

.000

1.000

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

构成得分。

通过图18可得出，各因子之间是正交的，即相互之间彼此独立。

3.5因子分析后续分析

当我们得到个城市的因子得分后就可以对各个城市分类排序。

我们可以利用计算变量和排序来进行各城市的经济综合得分计算和排序，具体操作步骤如下：

【1】打开数据文件，依次单击“转换”→“计算变量”命令，弹出如图4所示的对话框。

图19

在“目标变量”一栏中输入“综合得分”，这一变量将最终代表各个城市的综合经济实力。

最终得分=FAC1_4*43.092+FAC2_4*41.619，单击“确定”，返回数据文件可以看到“综合得分”这一变量。

【2】在数据文件中，在“综合得分”单元格上单击右键，在弹出的菜单中选择“降序”排列，对数据进行整理，得到综合排名，见图20

图20

观察“综合得分”一列，可以得出，浙江、上海、广东、福建、北京等地排名比较靠前综合实力比较高，说明几个城市在收入构成上的分配比较合理，构成的工资总额比较高，其他城市不如这几个城市。

3.6综合研究

经过以上研究，我们可以从一种宏观的视野下对我国的城市综合经济实力有一个比较全面的了解，这对于我国城市以后的发展有重要的借鉴和指导意义。

同时，对于我们个人来说也是工作地选择的重要参考。

比如根据回归分析部分可知，在可支配收入构成中工资性收入占主导地位；再如，因子分析表明，排序靠前的大多是东部城市，但靠后的基本是中西部城市，所以为了促进我国经济的均衡发展，加强中西部建设非常非常重要。

同时可以得出我国的收入构成比例，工资性收入占主导，其他收入来源和工资性收入共同构成我国的收入成分。

4、结论

本文利用了多种统计学的方法对各地区的收入来源进行了统计分析，利用逐步回归法对各种指标进行了筛选，但是异方差和多重共线性没有统筹考虑，又利用因子分析对收入来源指标进行了降维处理，这样就可以大大降低共线性的问题，并且利用各因子得分可以计算综合成绩，进而对各地区进行综合排名，但是由于变量比较少，在因子分析提取主成分时有或多或少的偏差，这是本文的不足之处，有望在以后的数据分析中搜集更全面的数据，并且可以利用相关分析和多重对应分析对各地区的经济联系和区别进行更多信息的提取。

参考文献

展开阅读全文