北航数理统计大作业.docx
《北航数理统计大作业.docx》由会员分享,可在线阅读,更多相关《北航数理统计大作业.docx(25页珍藏版)》请在冰豆网上搜索。
北航数理统计大作业
对中国各地财政收入情况的聚类分析和判别分析
应用数理统计第二次大作业
学院名称
学号
学生姓名
摘要
我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。
本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。
关键词:
聚类分析,判别分析,SPSS,中国各地财政收入类型
1、引言
财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。
财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。
财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。
通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。
本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。
1.1聚类分析
聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:
首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。
系统聚类分为Q型聚类和R型聚类两种:
Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。
在本文中进行的是Q型聚类。
类与类之间距离的计算方法主要有以下几种:
1)最短距离法(NearestNeighbor),是指两类之间每个个体距离的最小值;
2)最长距离法(FarthestNeighbor),是指两类之间每个个体距离的最大值;
3)组间联接法(Between-groupsLinkage),是指两类之间个体之间距离的平均值;
4)组内联接(Within-groupsLinkage),是指把两类所有个体之间的距离都考虑在内;
5)重心距离法(Centroidclustering),是指两个类中心点之间的距离;
6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。
本文采取的计算方法是最短距离法(NearestNeighbor)。
1.2判别分析
判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。
判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。
进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。
判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。
判别函数一般形式是:
Y=a1X1+a2X2+a3X3+⋯+anXn
其中:
Y为判别分数(判别值);X1,X2,…,Xn为反映研究对象特征的变量;a1,a2,a3,⋯,an为各变量的系数,也成为判别系数。
此处讨论的是线性判别函数。
关于线性判别分析的研究应追溯到Fisher在1936年发表的经典论文(FisherRA.Theuseofmultiplemeasurementsintaxonomicproblems),其基本思想是选择使得Fisher准则函数达到极值的向量作为最佳投影方向,从而使得样本在该方向上投影后,达到最大的类间离散度和最小的类内离散度。
在Fisher思想的基础上,Wilks和Duda分别提出了鉴别矢量集的概念,即寻找一组鉴别矢量构成子空间,以原始样本在该子空间内的投影矢量作为鉴别特征用于识别。
1970年Sammon提出了基于Fisher鉴别准则的最佳鉴别平面的概念。
随后,Foley和Sammon进一步提出了采用一组满足正交条件的最佳鉴别矢量集进行特征抽取的方法。
1988年Duchene和Leclercq给出了多类情况下最佳鉴别矢量集的计算公式。
2001年Jin和Yang从统计不相关的角度,提出了具有统计不相关性的最优鉴别矢量集的概念。
与F-S鉴别矢量集不同的是,具有统计不相关性的最优鉴别矢量是满足共轭正交条件的,该方法被称为不相关的鉴别分析或Jin-Yang线性鉴别法。
2、数据整理
2.1影响因素的选择
影响各地区财政收入的因素是多方面的,选取如下指标作为本文分析的基础指标:
X1为国内增值税(万元);X2为营业税(万元);
X3为企业所得税(万元);X4为个人所得税(万元);
X5为城市维护建设税(万元);X6为土地增值税(万元);
X7为契税(万元);X8为专项收入(万元);
X9为行政事业性收费收入(万元);X10为国有资本经营收入(万元);
X11为国有资源(资产)有偿使用收入(万元);
2.2原始数据
数据来源于2012年国家统计局出版的《中国统计年鉴》(2011年数据)。
如表1所示为北京、天津等27个城市的财政收入数据,其中单位是万元,表2是国内另外4个地区的财政收入数据,单位为万元。
表1国内27个地区财政收入
地区
国内增值税
营业税
企业所得税
个人所得税
城市维护建设税
土地增值税
契税
专项收入
行政事业性收费收入
国有资本经营收入
国有资源(资产)有偿使用收入
北京
237.76
1071.51
683.71
272.9
145.65
121.29
136.17
79.39
43.61
-29.88
20.64
天津
141.32
352.86
182.95
52.01
64.44
47.44
80.05
34.48
183.88
25.05
150.79
河北
229.85
457.27
199.08
57.39
87.84
53.27
84.78
99.98
118.25
38.32
39.53
山西
239.97
242.81
150.22
42.84
60.97
9.71
18.49
180.61
78.41
4.34
19.18
内蒙古
179.87
283.63
156.1
53.83
59.87
30.57
36.93
146.7
82.36
51.22
47.84
辽宁
218.32
556.2
227.16
76.94
102.79
128.8
209.84
99.28
158.64
142.77
171.42
吉林
92.78
189.3
90.59
29.49
46.39
25.21
49.98
36.48
72
32.43
46.92
黑龙江
145.48
218.92
80.87
34.05
61.53
22.59
52.77
45.53
84.6
48.85
36.6
上海
416.7
1041.49
731.05
314.95
139.08
168.22
180.67
97.22
107.7
-9.15
22.38
江苏
650.8
1260.6
731.17
237.74
270.82
256.97
319.78
160.76
321.22
285.63
115.98
浙江
461.75
915.71
497.56
185.56
200.07
148.05
234.17
110.74
40.8
-64.07
27.28
安徽
164.68
379.18
153.26
40.04
74.65
51.98
100.27
79.99
125.71
28.04
62.2
福建
164.22
400.03
216.12
69.24
74.53
99.92
93.66
54.14
68.83
23.55
50.7
江西
105.9
272.79
97.87
32.32
41.8
37.33
78.04
49.05
116.62
20.34
30.76
山东
413.82
765.72
398.3
96.58
179.6
105.67
202.48
130.8
278.82
100
188.85
河南
181.38
404.27
185.21
48.38
80.22
58.44
98.06
90.6
161.33
71.97
46
湖北
148.36
366.77
155.5
48.85
77.83
62.85
72.74
48.79
207.05
42.86
45.95
湖南
135.24
320.58
89.96
48.25
78.73
40.61
78.07
73.77
191.76
12.54
151.53
广东
701.17
1431.16
827.9
341.4
295.45
295.21
238.44
179.78
369.64
86.09
102.71
广西
86.13
240.75
85.65
29.41
40.51
33.99
45.35
30.37
95.6
75.62
53.12
海南
19.61
123.48
42.91
9.75
14.01
37.83
18.18
8.95
11.84
6.39
7.27
云南
136.64
277.71
110.61
41.38
79.39
30.09
54.9
80.32
54.18
8.97
22.17
西藏
5.18
16
11.25
8.1
2.59
0.36
0.2
1.21
-0.49
2.21
陕西
176.05
332.88
124.12
44.42
64.74
22.19
29.17
365.16
69.6
61.16
31.95
贵州
76.41
181.73
70.69
33.24
37.82
13.76
23.91
85.91
45.98
6.38
44.04
四川
185.12
611.51
200.59
72.75
94.17
76.55
109.46
97.3
140.69
29.73
118.56
重庆
81.78
343.92
115.11
34.9
50.49
61.47
76.32
66.36
308.78
90.02
87.53
表2国内两外4个地区的财政收入
地区
国内增值税
营业税
企业所得税
个人所得税
城市维护建设税
土地增值税
契税
专项收入
行政事业性收费收入
国有资本经营收入
国有资源(资产)有偿使用收入
新疆
96.7
209.84
63.43
38.34
41.26
13.05
21.86
46.39
36.57
3.95
15.41
青海
22.93
45.66
14.62
4.45
7.83
0.68
2.32
19.56
5.4
0.25
2.75
甘肃
48.95
110.05
28.57
14.06
23.62
5.46
8.82
84.84
37.69
4.98
13.02
宁夏
24.4
80.11
24.17
7.5
11.23
3.05
10.03
11.55
16.55
1.01
6.31
3、聚类分析结果
对表1中北京、天津等27个地区进行财政收入类型的聚类分析。
将这些数据导入SPSS,依次选择分析→分类→系统聚类分析,进行变量的设置,如图1所示,聚类方法采用“最邻近元素”,另外将聚类数设置为4。
图1聚类分析设置
设置完成后点击【确定】,软件即自行算出分析结果。
如下所示:
3.1案例处理汇总
表2显示了有效的实力数目,无效的实例数目和总的实例情况。
由此可知,27个地区的数据均为有效数据。
表2案例处理汇总a,b
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
27
100.0
0
.0
27
100.0
a.平方Euclidean距离已使用
b.单个联结
3.2聚类表
由表3可知,SPSS聚类分析一共分26步(27个样本)完成,每步将两个类合并成一个新类。
群集组合中给出了当前步合并的两类观测量号。
表3聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
7
8
4630.556
0
0
2
2
7
20
5346.943
1
0
3
3
7
27
5426.809
2
0
5
4
12
16
5650.038
0
0
7
5
7
14
7003.298
3
0
6
6
7
22
8294.062
5
0
12
7
12
17
8731.527
4
0
8
8
3
12
8811.104
0
7
10
9
4
5
10394.641
0
0
12
10
3
13
11636.871
8
0
13
11
2
18
11757.862
0
0
13
12
4
7
12476.832
9
6
15
13
2
3
13526.981
11
10
16
14
21
23
14892.680
0
0
15
15
4
21
17562.339
12
14
16
16
2
4
21320.529
13
15
17
17
2
25
22153.830
16
0
19
18
6
26
33663.812
0
0
19
19
2
6
34050.355
17
18
21
20
1
9
46014.039
0
0
23
21
2
24
50694.007
19
0
24
22
10
19
103113.630
0
0
26
23
1
11
103796.939
20
0
25
24
2
15
135852.273
21
0
25
25
1
2
155863.368
23
24
26
26
1
10
298641.313
25
22
0
3.3群集成员
表4给出了各地区的分类情况:
第一类:
北京、上海、浙江;
第二类:
天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、福建、江西、河南、湖北、湖南、广西、海南、云南、西藏、陕西、重庆、四川、贵州;
第三类:
江苏、广东;
第四类:
山东。
群集成员
案例
4群集
1:
北京
1
2:
天津
2
3:
河北
2
4:
山西
2
5:
内蒙古
2
6:
辽宁
2
7:
吉林
2
8:
黑龙江
2
9:
上海
1
10:
江苏
3
11:
浙江
1
12:
安徽
2
13:
福建
2
14:
江西
2
15:
山东
4
16:
河南
2
17:
湖北
2
18:
湖南
2
19:
广东
3
20:
广西
2
21:
海南
2
22:
云南
2
23:
西藏
2
24:
陕西
2
25:
重庆
2
26:
四川
2
27:
贵州
2
3.4群集图
图2群集图
3.5树状图
图3树状图
3.6结果分析
由上我们可以看出,第一类是北京、上海和浙江,它们的财政收入很高。
除了国有资本经营收入为负值以外,其它方面收入相比于其它地区都是很高的,所以把它们划为第一类;第二类是天津、河北等大部分地区,其财政收入有的方面比较高,有的方面比较低,总的财政收入不高;第三类是江苏和广东,它们的财政收入无论从哪个方面几乎都是最高的,与第一类不同的是,其国有资本经营收入远高于其他地区,广东、江苏都属于东部沿海省份,是沿海经济发达的省份,所以如此划分是合理的;第四类是山东,它虽然没有第一类和第三类的财政收入高,但每个方面的收入都是比较高的,所以自成一类。
4、判别分析结果
在以上聚类分析的27个数据之上加入表2中的4个地区的数据,并且将以上聚类分析的类别列加入新的表中。
如图4所示,将数据导入SPSS软件,依次选择分析→分类→判别,并且设置分组变量和自变量,上一步聚类分析所得的结果设为分组变量。
由于已在聚类分析中将财政收入类型分为四类,因此其取值范围为1~4。
原始数据作为自变量以对其进行分类判别。
自变量输入方式为步进法。
判别方法选用最小F值,进入值设置为3.84,删除值设置为2.71。
先验概率选为根据组大小计算。
图4判别分析设置
点击“确认”软件即自行计算,结果如下所示:
4.1分析案例处理摘要
表5分析案例处理摘要
未加权案例
N
百分比
有效
27
87.1
排除的
缺失或越界组代码
4
12.9
至少一个缺失判别变量
0
.0
缺失或越界组代码还有至少一个缺失判别变量
0
.0
合计
4
12.9
合计
31
100.0
4.2统计结果
表6组统计量
SingleLinkage
均值
标准差
有效的N(列表状态)
未加权的
已加权的
1
国内增值税
372.0700
118.47682
3
3.000
营业税
1009.5700
82.65939
3
3.000
企业所得税
637.4400
123.43047
3
3.000
个人所得税
257.8033
66.00284
3
3.000
城市维护建设税
161.6000
33.47756
3
3.000
土地增值税
145.8533
23.54199
3
3.000
契税
183.6700
49.06883
3
3.000
专项收入
95.7833
15.72430
3
3.000
行政事业性收费收入
64.0367
37.83965
3
3.000
国有资本经营收入
-34.3667
27.73354
3
3.000
国有资源(资产)有偿使用收入
23.4333
3.44304
3
3.000
2
国内增值税
138.7757
62.66426
21
21.000
营业税
312.9805
136.86200
21
21.000
企业所得税
130.7533
58.79563
21
21.000
个人所得税
43.2181
17.72010
21
21.000
城市维护建设税
61.6814
25.02873
21
21.000
土地增值税
44.9981
30.19693
21
21.000
契税
67.1890
44.92404
21
21.000
专项收入
84.4748
76.98821
21
21.000
行政事业性收费收入
113.2057
71.84398
21
21.000
国有资本经营收入
39.0505
34.69361
21
21.000
国有资源(资产)有偿使用收入
60.2986
48.03744
21
21.000
3
国内增值税
675.9850
35.61697
2
2.000
营业税
1345.8800
120.60413
2
2.000
企业所得税
779.5350
68.39844
2
2.000
个人所得税
289.5700
73.29869
2
2.000
城市维护建设税
283.1350
17.41604
2
2.000
土地增值税
276.0900
27.03976
2
2.000
契税
279.1100
57.51607
2
2.000
专项收入
170.2700
13.44917
2
2.000
行政事业性收费收入
345.4300
34.23811
2
2.000
国有资本经营收入
185.8600
141.09609
2
2.000
国有资源(资产)有偿使用收入
109.3450
9.38331
2
2.000
4
国内增值税
413.8200
.a
1
1.000
营业税
765.7200
.a
1
1.000
企业所得税
398.3000
.a
1
1.000
个人所得税
96.5800
.a
1
1.000
城市维护建设税
179.6000
.a
1
1.000
土地增值税
105.6700
.a
1
1.000
契税
202.4800
.a
1
1.000
专项收入
130.8000
.a
1
1.000
行政事业性收费收入
278.8200
.a
1
1.000
国有资本经营收入
100.0000
.a
1
1.000
国有资源(资产)有偿使用收入
188.8500
.a
1
1.000
合计
国内增值税
214.6774
171.91737
27
27.000
营业税
483.6585
362.19123
27
27.000
企业所得税
245.0189
234.96064
27
27.000
个人所得税
87.2856
94.11522
27
27.000
城市维护建设税
93.5548
70.59724
27
27.000
土地增值税
75.5693
72.28309
27
27.000
契税
100.