基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解.docx
《基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解.docx》由会员分享,可在线阅读,更多相关《基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解.docx(19页珍藏版)》请在冰豆网上搜索。
![基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解.docx](https://file1.bdocx.com/fileroot1/2023-1/27/bed913db-fc7a-4cde-96fd-1d1619935815/bed913db-fc7a-4cde-96fd-1d16199358151.gif)
基于全国城镇居民平均每人全年家庭收入来源的统计分析讲解
基于全国城镇居民平均每人全年家庭收入来源的统计分析
摘要本文采用2012年中国省会城市和城镇居民家庭收入来源的统计数据,首先运用各收入来源对家庭可支配收入进行回归分析,然后运用逐步回归法分析工资性收入、经营净收入、财产性收入和转移性收入对可支配收入的显著性关系;然后利用聚类分析对各城市进行分类;最后利用因子分析对各地区进行因子分析,通过计算综合得分,获得各地区综合排名,
关键词可支配收入;聚类分析;回归分析;因子分析。
1、研究背景及目的
改革开放以来,我国的国民经济增长迅速,居民的收入水平也大幅提高,但居民收入分配差距也在不断扩大。
虽然随着世界范围的经济危机的衰亡,但是经济危机的影响依然存在,各行业各业都在面临了巨大的压力下缓解了过来,从而也深深地影响了我国城镇居民的收入来源。
随着社会的进步和经济的快速发展,我国居民的收入方式已经变得丰富起来,包括工资性收入、经营净收入、财产性收入及转移性收入等多种收入方式,因此,分析我国居民的收入来源变得犹为重要。
本研究目的如下:
通过对我国各省城镇居民收入来源的分析,一方面了解我国各省的主要经济结构,另一方面确定各省的收入形式,为国家制定政策提供依据。
2、研究方法
为了研究我国各省城镇居民的收入来源的构成,我们采用了工资性收入、经营净收入、财产性收入、转移性收入、总收入和可支配收入等六大指标。
本研究采用的数据是《分地区城镇居民平均每人全年家庭收入来源》,数据摘自《中国统计年鉴2013》11-14。
本数据分析主要采用的研究方法有聚类分析,回归分析和因子分析。
基恩思路是:
首先利用饼图和条形图得出全国的平均收入构成分布比例及各省的品均可支配收入情况;然后运用聚类分析对各省的收入构成情况进行分类;然后运用回归分析研究各收入来源对可支配收入的显著性;最后运用因子分析对各个城市提取公因子,根据提取出的公因子对各个城市进行排名。
3、实证分析
由于从国家统计局网站下载的数据为EXCEL格式,可以将数据导入成SPSS数据,共设置了6个变量,分别是“可支配收入”、“总收入”、“工资性收入”、“财产性收入”、“转移性收入”。
样本是中国2012年分地区城镇居民平均每人全年家庭收入来源的统计数据。
见附表
3.1简单的统计图形
图1可以看出在所有的的收入来源中,工资性收入占主导地位,转移性收入次之,说明我国家庭的收入来源主要靠就业工资,但是国家的补贴仍然处于重要地位,说明我国居民仍有部分处于失业、待就业状态,国家的扶持让他们能继续维持生计。
图2是我国城镇家庭平均可支配收入的比较,通过图形我们可以看出在各个城市的对比中上海处于领先地位,说明上海地区在我国处于比较重要的地位,经济比较发达,人民生活水平比较高。
图2
3.2回归分析
以“可支配收入”为被解释变量,以“工资性收入”、“经营净收入”、“财产性收入”和“转移性收入”为解释变量,进行多元回归,采用逐步回归法。
得到的图3至图5所示
图3
模型汇总e
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.951a
.904
.901
1809.732304365350700
2
.980b
.961
.958
1177.160102963996500
3
.998c
.996
.995
388.460200360006300
4
.999d
.997
.997
335.140726952013700
1.853
a.预测变量:
(常量),工资性收入。
b.预测变量:
(常量),工资性收入,转移性收入。
c.预测变量:
(常量),工资性收入,转移性收入,经营净收入。
d.预测变量:
(常量),工资性收入,转移性收入,经营净收入,财产性收入。
e.因变量:
可支配收入
图4
Anovae
模型
平方和
df
均方
F
Sig.
1
回归
9.282E8
1
9.282E8
283.416
.000a
残差
98253930.404
30
3275131.013
总计
1.026E9
31
2
回归
9.863E8
2
4.931E8
355.881
.000b
残差
40185471.332
29
1385705.908
总计
1.026E9
31
3
回归
1.022E9
3
3.408E8
2258.106
.000c
残差
4225237.163
28
150901.327
总计
1.026E9
31
4
回归
1.023E9
4
2.559E8
2277.984
.000d
残差
3032621.285
27
112319.307
总计
1.026E9
31
a.预测变量:
(常量),工资性收入。
b.预测变量:
(常量),工资性收入,转移性收入。
c.预测变量:
(常量),工资性收入,转移性收入,经营净收入。
d.预测变量:
(常量),工资性收入,转移性收入,经营净收入,财产性收入。
e.因变量:
可支配收入
图5
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
3533.902
1214.662
2.909
.007
工资性收入
1.189
.071
.951
16.835
.000
2
(常量)
2114.906
819.934
2.579
.015
工资性收入
.926
.061
.740
15.091
.000
转移性收入
.944
.146
.318
6.473
.000
3
(常量)
387.089
292.813
1.322
.197
工资性收入
.888
.020
.710
43.492
.000
转移性收入
.862
.048
.290
17.803
.000
经营净收入
1.302
.084
.195
15.437
.000
4
(常量)
724.066
272.969
2.653
.013
工资性收入
.852
.021
.681
41.222
.000
转移性收入
.910
.044
.306
20.528
.000
经营净收入
1.056
.105
.158
10.081
.000
财产性收入
.826
.253
.056
3.259
.003
a.因变量:
可支配收入
综上所述,我们可以得到:
(1)最终模型表达式为:
可支配收入=724.066+0.852*工资性收入+0.91*转移性收入+1.056*经营净收入+0.826*财产性收入
(2)最终模型拟合度较好,R²=0.997比较接近于1。
(3)模型中自变量的系数的显著性p都小于0.05,回归方程的线性关系显著。
(4)通过逐步回归也间接的表明收入的来源重要性排名上,“工资性收入”占主导地位,“转移性收入”次之,“财产性收入”最少,与饼图的分析结果相同。
(5)分析结论:
通过以上分析,可以发现可支配收入与“工资性收入”、“转移性收入”、“经营净收入”和“财产性收入”都有显著关系。
图6残差统计表
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
16977.90625000000000
39937.68359375000000
23260.69218750000800
5745.815085753577000
32
标准预测值
-1.093
2.902
.000
1.000
32
预测值的标准误差
64.060
233.798
123.307
49.202
32
调整的预测值
16958.74023437500000
39720.69531250000000
23266.75450186785400
5736.922416800186500
32
残差
-582.714599609375000
494.252380371093750
-.000000000006718
312.772270307487600
32
标准残差
-1.739
1.475
.000
.933
32
a.因变量:
可支配收入
图6为残差统计表,可以看出预测值及标准化的预测值、残差及残差预测值的最小值、最大值、均值、标准差和样本数。
这些数据中无离群值,可以认为模型是健康的。
除了分析残差统计外,还可以直接做出标准残差的直方图和正态P-P图来观察其是否服从正态分布。
通过图7和图8可以看出残差具有正态分布趋势,因此可以认为回归模型是恰当的。
图7
图8
图9
通过图9的序列图还可以看出,标化残差均在0上下波动,且波动范围没有超过±2,没有发现明显方差不齐或者比较异常的点。
说明模型拟合比较合理。
3.3聚类分析
图10
图11
聚类成员
案例号
地区
聚类
距离
1
北京
1
1632.791
2
天津
2
3213.786
3
河北
3
1318.693
4
山西
3
1270.964
5
内蒙古
3
2864.198
6
辽宁
3
2633.082
7
吉林
3
744.271
8
黑龙江
3
2557.804
9
上海
1
1632.791
10
江苏
2
1646.031
11
浙江
2
2956.691
12
安徽
3
865.859
13
福建
2
2064.322
14
江西
3
870.521
15
山东
2
2858.502
16
河南
3
797.845
17
湖北
3
684.359
18
湖南
3
1501.632
19
广东
2
3101.053
20
广西
3
669.986
21
海南
3
785.204
22
重庆
3
1754.077
23
四川
3
188.751
24
贵州
3
1903.609
25
云南
3
775.331
26
西藏
3
5369.436
27
陕西
3
1805.793
28
甘肃
3
2076.168
29
青海
3
1865.089
30
宁夏
3
685.898
31
新疆
3
1523.997
通过图10和图11可以把全国分成三类,北京和上海为第一类,天津、江苏、浙江、福建、山东和广东为第二类,其余的为第三类。
通过聚类,把全国的各省份分成三类,有利于中央做决策,避免对每个省分别作决策,把相似的省份放在一起进行经济分析、比较更能说明问题,不同的省份放在一个类中进行比较,避免经济较弱的城市与较强的城市比较,做无用功。
3.4因子分析
我们已经通过回归分析和聚类分析对影响可支配收入的收入来源方式进行了回归分析获知各种影响指标,以及影响程度和方向,又运用了聚类分析对各个城市进行了分类,但是由于各种变量的多重共线性问题,不太利于具体经济意义解释,因此我们可以利用因子分析对构成收入来源的各个变量提取公因子,对数据进行降维处理。
首先利用主菜单分析中的降维工具条进行因子分析。
在处理过程中,将“工资性收入”、“转移性收入”、“经营净收入”和“财产性收入”选入变量列表中。
接着在相应的按钮中选中输出相关系数矩阵和KMO和Bartlett的球形度检验的复选框,并且设置特征根大于1为提取公因子的要求,利用最大方差法进行因子旋转,最后保存因子得分变量,并显示因子得分系数矩阵,输出结果见图12至图17。
(1)KMO和Bartlett的检验,如图12所示,KMO的取值为0.557,表明变量间有较强的相关性,数据很适合做因子分析。
Bartlett检验的Sig.值为0.000,说明数据来自正态总体,适合进一步分析。
图12
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.557
Bartlett的球形度检验
近似卡方
46.283
df
6
Sig.
.000
(2)变量共同度,指的是按照所选标准提取相应数量主成分后,各变量中信息分别被提取的比例。
如图13所示,所有变量共同度都在80%以上,所以提取这几个公因子对各变量的解释力还可以。
图13
公因子方差
初始
提取
工资性收入
1.000
.836
经营净收入
1.000
.842
财产性收入
1.000
.864
转移性收入
1.000
.846
提取方法:
主成份分析。
(3)解释的总方差,由图14中可以看出,“初始特征值”一栏显示前两个特征值大于1,所以只选取了前两个公因子;“提取平方和载入”一栏显示第一公因子的方差贡献率是56.905%,前两个公因子的方差总和占所有主成分方差的87.711%,可见选取前两个因子已足够替代原来的变量。
图14
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
累积%
1
2.276
56.905
56.905
2.276
56.905
56.905
1.724
43.092
43.092
2
1.112
27.806
84.711
1.112
27.806
84.711
1.665
41.619
84.711
3
.442
11.055
95.766
4
.169
4.234
100.000
提取方法:
主成份分析。
(4)碎石图,是按照特征根大小排列的主成分散点图。
如图3所示,我们可以看到有三个成分的特征值超过1。
(4)碎石图,是按照特征根大小排列的主成分散点图。
如图3所示,我们可以看到有三个成分的特征值超过1。
图15
(4)碎石图,是按照特征根大小排列的主成分散点图。
如图15所示,我们可以看到有两个成分的特征值超过1。
图15
旋转成份矩阵a
成份
1
2
可支配收入
.925
.367
工资性收入
.904
.236
转移性收入
.896
.039
经营净收入
.125
.910
财产性收入
.244
.896
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
(5)成分矩阵,如图16可见,在所有变量中的因子得分并不高,因此有必要进行因子旋转。
我们利用最大方差法进行因子旋转得到的旋转成分矩阵如图16所示。
图16
旋转成份矩阵a
成份
1
2
经营净收入
.912
.102
财产性收入
.904
.216
转移性收入
.067
.917
工资性收入
.264
.875
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
这样每个因子就很明确了。
经营净收入和财产性收入归为第一类,可命名为不确定收入;转移性收入和工资性收入归为第二类,命名为确定收入。
图17
成份得分系数矩阵
成份
1
2
工资性收入
-.027
.535
经营净收入
.576
-.140
财产性收入
.545
-.060
转移性收入
-.167
.609
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
通过图17,可以得出F1=-0.027*工资性收入+0.576*经营净收入+0.545*财产性收入+-0.167*转移性收入。
同时F2计算方法同样如此。
图18
成份得分协方差矩阵
成份
1
2
1
1.000
.000
2
.000
1.000
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
通过图18可得出,各因子之间是正交的,即相互之间彼此独立。
3.5因子分析后续分析
当我们得到个城市的因子得分后就可以对各个城市分类排序。
我们可以利用计算变量和排序来进行各城市的经济综合得分计算和排序,具体操作步骤如下:
【1】打开数据文件,依次单击“转换”→“计算变量”命令,弹出如图4所示的对话框。
图19
在“目标变量”一栏中输入“综合得分”,这一变量将最终代表各个城市的综合经济实力。
最终得分=FAC1_4*43.092+FAC2_4*41.619,单击“确定”,返回数据文件可以看到“综合得分”这一变量。
【2】在数据文件中,在“综合得分”单元格上单击右键,在弹出的菜单中选择“降序”排列,对数据进行整理,得到综合排名,见图20
图20
观察“综合得分”一列,可以得出,浙江、上海、广东、福建、北京等地排名比较靠前综合实力比较高,说明几个城市在收入构成上的分配比较合理,构成的工资总额比较高,其他城市不如这几个城市。
3.6综合研究
经过以上研究,我们可以从一种宏观的视野下对我国的城市综合经济实力有一个比较全面的了解,这对于我国城市以后的发展有重要的借鉴和指导意义。
同时,对于我们个人来说也是工作地选择的重要参考。
比如根据回归分析部分可知,在可支配收入构成中工资性收入占主导地位;再如,因子分析表明,排序靠前的大多是东部城市,但靠后的基本是中西部城市,所以为了促进我国经济的均衡发展,加强中西部建设非常非常重要。
同时可以得出我国的收入构成比例,工资性收入占主导,其他收入来源和工资性收入共同构成我国的收入成分。
4、结论
本文利用了多种统计学的方法对各地区的收入来源进行了统计分析,利用逐步回归法对各种指标进行了筛选,但是异方差和多重共线性没有统筹考虑,又利用因子分析对收入来源指标进行了降维处理,这样就可以大大降低共线性的问题,并且利用各因子得分可以计算综合成绩,进而对各地区进行综合排名,但是由于变量比较少,在因子分析提取主成分时有或多或少的偏差,这是本文的不足之处,有望在以后的数据分析中搜集更全面的数据,并且可以利用相关分析和多重对应分析对各地区的经济联系和区别进行更多信息的提取。
参考文献