多元统计方法在城镇居民家庭收支评价中的应用Word文档下载推荐.docx
《多元统计方法在城镇居民家庭收支评价中的应用Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《多元统计方法在城镇居民家庭收支评价中的应用Word文档下载推荐.docx(26页珍藏版)》请在冰豆网上搜索。
2.2.2主成分分析的几何意义
主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。
因此,主成分分析在二维空间中有明显的几何意义。
假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内如图1所示。
事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。
显然,在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。
如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。
图1
如果我们将该坐标系按逆时针方向旋转某个角度
变成新坐标系
,这里
是椭圆的长轴方向,
是椭圆的短轴方向。
旋转公式为
我们看到新变量
和
是原变量
的线性组合,它的矩阵表示形式为:
其中,
为旋转变换矩阵,它是正交矩阵,即有
或
。
三、我国各地区城镇居民每人每年平均收入的多元统计分析
3.1系统聚类分析
首先,我们对得到的数据进行取均值,得到我国城镇居民家庭每人年收入的均值数据(如下表所示)
我国各地区城镇居民平均每人全年家庭收入来源(2000-2010)单位:
元
地区
可支配收入
总收入
工薪收入
经营净收入
财产性收入
转移性收入
北京
19160.3
21238.9
14387.3
489.9
494.9
5128.3
天津
14727.5
15896.5
9458.1
625.0
266.4
4793.0
河北
10236.1
10769.5
6837.5
625.9
147.1
2757.0
山西
9829.3
10457.3
7132.1
506.9
181.2
2291.4
内蒙古
10565.3
11106.7
7520.1
979.0
211.1
2014.7
辽宁
10604.7
11587.5
6891.7
826.5
171.5
3237.5
吉林
9699.5
10245.1
6502.0
785.0
98.8
2480.1
黑龙江
9019.2
9555.5
5801.6
804.3
79.2
2406.5
上海
20643.8
22707.9
15467.1
884.8
540.2
4709.8
江苏
13887.6
14946.9
8904.8
1331.7
287.4
3885.5
浙江
17729.9
19270.2
11887.1
2053.9
995.6
3588.4
安徽
9783.1
10593.3
6964.2
684.2
231.8
2314.9
福建
13782.0
14982.7
9703.7
1134.5
657.8
2955.1
江西
9706.2
10181.5
6873.9
652.3
139.8
2215.5
山东
12269.3
13172.7
9930.1
763.3
271.0
1990.0
河南
9815.3
10342.0
6628.7
726.8
123.6
2510.5
湖北
10037.8
10745.6
7390.7
625.5
181.1
2245.4
湖南
10708.4
11299.2
7408.6
929.0
275.3
2380.8
广东
15987.5
17507.9
12318.4
1414.0
674.4
2529.5
广西
10702.2
11522.0
7811.8
748.7
274.3
2345.0
海南
9664.8
10305.2
6843.5
737.5
275.5
2070.5
重庆
11236.4
11990.2
8383.1
583.5
188.9
2469.3
四川
9777.5
10535.0
6821.4
653.2
245.6
2363.5
贵州
9117.6
9487.8
6277.4
686.4
100.2
2089.2
云南
10420.7
11138.5
7052.2
676.6
498.4
2554.6
西藏
10367.7
11280.0
10192.9
268.2
113.2
620.7
陕西
9589.2
10256.6
7143.4
304.9
127.6
2299.7
甘肃
8744.1
9356.0
6748.4
424.3
50.5
1852.6
青海
9061.0
9851.7
6403.5
494.4
50.6
2497.3
宁夏
9463.6
10301.6
6510.7
1047.0
142.0
2234.5
新疆
9122.5
9940.0
7511.4
559.4
81.7
1452.2
利用SPSS的系统聚类法得到分析结构如下
群集成员
1:
1
2:
2
3:
3
4:
5:
6:
7:
8:
9:
10:
11:
4
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
*******************HIERARCHICALCLUSTERANALYSIS*******************
DendrogramusingAverageLinkage(BetweenGroups)
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
安徽12-+
四川23-+
山西4-+
江西14-+
海南21-+
陕西27-+
吉林7-+
河南16-+
宁夏30-+
河北3-+
云南25-+
湖北17-+
新疆31-+
黑龙江8-+
贵州24-+
青海29-+
甘肃28-+-----+
内蒙古5-+|
湖南18-+|
广西20-++-----------------------------------------+
辽宁6-+||
重庆22-+||
山东15---+---+|
西藏26---+|
北京1---+-------------------------+|
上海9---+||
江苏10-++-------------------+
福建13-+---------+|
天津2-++-----------------+
浙江11---+-------+
广东19---+
由聚类分析表可知,把各地区城镇居民的收入聚成四类,分别为
◆高收入地区:
北京和上海
◆较高收入地区:
广东和浙江
◆中等收入区:
天津、江苏和福建
◆低收入区:
其余的省市地区
3.2主成分分析
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
4.476
74.594
.926
15.426
90.020
.456
7.592
97.612
.142
2.365
99.978
5
.001
.018
99.995
6
.000
.005
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
ComponentMatrixa
a1
a2
.985
-.154
.983
-.165
.905
-.245
.607
.755
.866
.376
.775
-.322
a.2componentsextracted.
在第一主成分中,可支配收入、总收入、工薪收入、财产性收入和转移性收入相对应的载荷系数较高,说明第一主成分主要反应了上面五项指标的信息,我们称之为综合性因子;
而在第二主成分中,仅经营性收入的载荷较高,因此第二主成分主要体现了它的信息,我们称之为经营性因子.从贡献率看,第一主成分的贡献率为74.594%,而第一、二主成分的累积贡献率为90.020%,由此可见,我们利用主成分分析的结果,’用两个主成分变量即可较准确的反应全部指标的信息.
用主成分载荷矩阵中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数,形成特征向量,将得到的特征向量与标准化后的数据(ZXi)相乘,就可以得出主成分表达式。
COMPUTE
z1=a1/sqrt(4.476).
EXECUTE.
z2=a2/sqrt(0.926).
特征向量矩阵
z1
z2
可支配收入X1
0.466
-0.160
总收入X2
0.465
-0.171
工薪收入X3
0.428
-0.255
经营净收入X4
0.287
0.785
财产性收入X5
0.409
0.391
转移性收入X6
0.366
-0.335
得到主成分表达式为
F1=0.466ZX1+0.465ZX2+0.428ZX3+0.287ZX4+0.409ZX5+0.366ZX6
F2=-0.160ZX1-0.171ZX2-0.255ZX3+0.785ZX4+0.391ZX5-0.335ZX6
综合主成分得分表达式为
算得F1、F2和综合得分及排名如下表所示
地区
F1得分与排名
F2得分与排名
综合得分与排名
5.447649
2.795395
4.993005
5.305239
-2.58192
31
3.953237
4.593906
-1.7326
30
3.509429
3.347603
-1.5651
29
2.505478
2.124616
1.289407
1.981446
1.895516
0.998639
1.741775
1.811081
7
-0.86469
28
1.352405
0.289406
8
0.911658
0.396071
-0.34553
10
0.760066
-0.15601
9
-0.40794
12
0.518987
-0.24905
-0.18825
-0.85186
27
-0.302
11
-0.36403
-0.45086
24
-0.37892
-0.59541
14
0.630538
-0.38526
13
-0.41353
-0.52626
26
-0.43285
-0.93256
15
0.329671
-0.71619
-0.96378
16
0.475234
-0.71711
-1.00071
18
0.164777
-0.80092
17
-0.97809
-0.07999
20
-0.82414
-1.14696
21
0.47052
-0.86969
19
-1.0365
-0.33484
23
-0.91622
-1.00921
-0.49252
25
-0.92064
-1.21092
0.153429
-0.97705
22
-1.19473
-0.30056
-1.04146
-1.28488
-0.01143
-1.06659
-1.45299
0.033537
-1.19817
-1.51829
0.157708
-1.23099
-1.57833
-0.10625
-1.32599
-1.6669
0.114691
-1.3615
-1.69764
0.185747
-1.37479
-1.77201
-0.04356
-1.47572
-2.05581
-0.04757
-1.71157
从表得分表中我们可以看出,第一主成分主要反映的是各地区的综合性收入水平,其中各地区的排名和综合主成分得分的结果基本相似,高收入省市主要有上海、浙江、北京、广东、福建和江苏,并且这六个省市的收入水平明显高于全国其它地区,而低收入的省份则主要集中在东北和西部地区,并且高收入与低收入地区的收入差异还是比较大的:
第二主成分反映了各地区经营性收入水平的差异,经营性收入居前列的省份是上海、福建、天津、山东和湖南.由于经营性收入在总收入中所占的比重较小,所以第二主成分反映的情况对整体综合性收入的影响并不大。
3.3收入的综合分析
从各地区的城镇居民的收入统计分析结果我们不难看出,我国城镇居民收入水平与分配状况中存在着不少问题.各地区城镇居民收入差距较大.总结起来主要有以下几个特点:
1)、收入水平地区差异明显,传统格局没有明显的改变,东部和东南沿海地区的收入水平明显高于东北和西北地区:
2)、高、中、低收入地区间的差异较大,两极分化的状况依然严峻,有日趋增大的趋势;
3)、在收入结构方面,我国南方沿海各省市的收入结构较传统模式有了明显的
改变,例如上海、福建等省,财产性收入水平提高很明显,居于我国前列;
而北方各省,特别是东北地区的收入还是以工薪收入为主,收入结构变化不大;
4)、从各省市本身的收入结构特性来看,不管是高收入地区还是低收入地区,各省市收入结构比例的差异显著,大部分地区收入分配结构失衡,例如北京、浙江、广东等地区,综合性收入水平居于前列,可经营性收入排名非常靠后.由以上结论可以看出,我国各地区城镇居民家庭人均收入状况存在着明显的差异性和较为严重的比例失衡,这说明我国城镇居民收入水平的现状还存在着一定的不平衡;
但值得肯定的是,我国低收入地区城镇居民的收入水平提高速度还是很快的,特别是西部地区,这说明我国在经济改革中的一些