北航数理统计大作业.docx

上传人:b****5 文档编号:30370005 上传时间:2023-08-13 格式:DOCX 页数:25 大小:315.45KB
下载 相关 举报
北航数理统计大作业.docx_第1页
第1页 / 共25页
北航数理统计大作业.docx_第2页
第2页 / 共25页
北航数理统计大作业.docx_第3页
第3页 / 共25页
北航数理统计大作业.docx_第4页
第4页 / 共25页
北航数理统计大作业.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

北航数理统计大作业.docx

《北航数理统计大作业.docx》由会员分享,可在线阅读,更多相关《北航数理统计大作业.docx(25页珍藏版)》请在冰豆网上搜索。

北航数理统计大作业.docx

北航数理统计大作业

 

对中国各地财政收入情况的聚类分析和判别分析

 

应用数理统计第二次大作业

 

学院名称

学号

学生姓名

 

摘要

我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。

本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。

关键词:

聚类分析,判别分析,SPSS,中国各地财政收入类型

1、引言

 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。

财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。

财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。

本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。

1.1聚类分析

聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:

首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。

系统聚类分为Q型聚类和R型聚类两种:

Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。

在本文中进行的是Q型聚类。

类与类之间距离的计算方法主要有以下几种:

1)最短距离法(NearestNeighbor),是指两类之间每个个体距离的最小值;

2)最长距离法(FarthestNeighbor),是指两类之间每个个体距离的最大值;

3)组间联接法(Between-groupsLinkage),是指两类之间个体之间距离的平均值;

4)组内联接(Within-groupsLinkage),是指把两类所有个体之间的距离都考虑在内;

5)重心距离法(Centroidclustering),是指两个类中心点之间的距离;

6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。

本文采取的计算方法是最短距离法(NearestNeighbor)。

1.2判别分析

判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。

判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。

进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。

判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。

判别函数一般形式是:

Y=a1X1+a2X2+a3X3+⋯+anXn

其中:

Y为判别分数(判别值);X1,X2,…,Xn为反映研究对象特征的变量;a1,a2,a3,⋯,an为各变量的系数,也成为判别系数。

此处讨论的是线性判别函数。

关于线性判别分析的研究应追溯到Fisher在1936年发表的经典论文(FisherRA.Theuseofmultiplemeasurementsintaxonomicproblems),其基本思想是选择使得Fisher准则函数达到极值的向量作为最佳投影方向,从而使得样本在该方向上投影后,达到最大的类间离散度和最小的类内离散度。

在Fisher思想的基础上,Wilks和Duda分别提出了鉴别矢量集的概念,即寻找一组鉴别矢量构成子空间,以原始样本在该子空间内的投影矢量作为鉴别特征用于识别。

1970年Sammon提出了基于Fisher鉴别准则的最佳鉴别平面的概念。

随后,Foley和Sammon进一步提出了采用一组满足正交条件的最佳鉴别矢量集进行特征抽取的方法。

1988年Duchene和Leclercq给出了多类情况下最佳鉴别矢量集的计算公式。

2001年Jin和Yang从统计不相关的角度,提出了具有统计不相关性的最优鉴别矢量集的概念。

与F-S鉴别矢量集不同的是,具有统计不相关性的最优鉴别矢量是满足共轭正交条件的,该方法被称为不相关的鉴别分析或Jin-Yang线性鉴别法。

2、数据整理

2.1影响因素的选择

影响各地区财政收入的因素是多方面的,选取如下指标作为本文分析的基础指标:

X1为国内增值税(万元);X2为营业税(万元);

X3为企业所得税(万元);X4为个人所得税(万元);

X5为城市维护建设税(万元);X6为土地增值税(万元);

X7为契税(万元);X8为专项收入(万元);

X9为行政事业性收费收入(万元);X10为国有资本经营收入(万元);

X11为国有资源(资产)有偿使用收入(万元);

2.2原始数据

数据来源于2012年国家统计局出版的《中国统计年鉴》(2011年数据)。

如表1所示为北京、天津等27个城市的财政收入数据,其中单位是万元,表2是国内另外4个地区的财政收入数据,单位为万元。

表1国内27个地区财政收入

地区

国内增值税

营业税

企业所得税

个人所得税

城市维护建设税

土地增值税

契税

专项收入

行政事业性收费收入

国有资本经营收入

国有资源(资产)有偿使用收入

北京

237.76

1071.51

683.71

272.9

145.65

121.29

136.17

79.39

43.61

-29.88

20.64

天津

141.32

352.86

182.95

52.01

64.44

47.44

80.05

34.48

183.88

25.05

150.79

河北

229.85

457.27

199.08

57.39

87.84

53.27

84.78

99.98

118.25

38.32

39.53

山西

239.97

242.81

150.22

42.84

60.97

9.71

18.49

180.61

78.41

4.34

19.18

内蒙古

179.87

283.63

156.1

53.83

59.87

30.57

36.93

146.7

82.36

51.22

47.84

辽宁

218.32

556.2

227.16

76.94

102.79

128.8

209.84

99.28

158.64

142.77

171.42

吉林

92.78

189.3

90.59

29.49

46.39

25.21

49.98

36.48

72

32.43

46.92

黑龙江

145.48

218.92

80.87

34.05

61.53

22.59

52.77

45.53

84.6

48.85

36.6

上海

416.7

1041.49

731.05

314.95

139.08

168.22

180.67

97.22

107.7

-9.15

22.38

江苏

650.8

1260.6

731.17

237.74

270.82

256.97

319.78

160.76

321.22

285.63

115.98

浙江

461.75

915.71

497.56

185.56

200.07

148.05

234.17

110.74

40.8

-64.07

27.28

安徽

164.68

379.18

153.26

40.04

74.65

51.98

100.27

79.99

125.71

28.04

62.2

福建

164.22

400.03

216.12

69.24

74.53

99.92

93.66

54.14

68.83

23.55

50.7

江西

105.9

272.79

97.87

32.32

41.8

37.33

78.04

49.05

116.62

20.34

30.76

山东

413.82

765.72

398.3

96.58

179.6

105.67

202.48

130.8

278.82

100

188.85

河南

181.38

404.27

185.21

48.38

80.22

58.44

98.06

90.6

161.33

71.97

46

湖北

148.36

366.77

155.5

48.85

77.83

62.85

72.74

48.79

207.05

42.86

45.95

湖南

135.24

320.58

89.96

48.25

78.73

40.61

78.07

73.77

191.76

12.54

151.53

广东

701.17

1431.16

827.9

341.4

295.45

295.21

238.44

179.78

369.64

86.09

102.71

广西

86.13

240.75

85.65

29.41

40.51

33.99

45.35

30.37

95.6

75.62

53.12

海南

19.61

123.48

42.91

9.75

14.01

37.83

18.18

8.95

11.84

6.39

7.27

云南

136.64

277.71

110.61

41.38

79.39

30.09

54.9

80.32

54.18

8.97

22.17

西藏

5.18

16

11.25

8.1

2.59

0.36

0.2

1.21

-0.49

2.21

陕西

176.05

332.88

124.12

44.42

64.74

22.19

29.17

365.16

69.6

61.16

31.95

贵州

76.41

181.73

70.69

33.24

37.82

13.76

23.91

85.91

45.98

6.38

44.04

四川

185.12

611.51

200.59

72.75

94.17

76.55

109.46

97.3

140.69

29.73

118.56

重庆

81.78

343.92

115.11

34.9

50.49

61.47

76.32

66.36

308.78

90.02

87.53

 

表2国内两外4个地区的财政收入

地区

国内增值税

营业税

企业所得税

个人所得税

城市维护建设税

土地增值税

契税

专项收入

行政事业性收费收入

国有资本经营收入

国有资源(资产)有偿使用收入

新疆

96.7

209.84

63.43

38.34

41.26

13.05

21.86

46.39

36.57

3.95

15.41

青海

22.93

45.66

14.62

4.45

7.83

0.68

2.32

19.56

5.4

0.25

2.75

甘肃

48.95

110.05

28.57

14.06

23.62

5.46

8.82

84.84

37.69

4.98

13.02

宁夏

24.4

80.11

24.17

7.5

11.23

3.05

10.03

11.55

16.55

1.01

6.31

3、聚类分析结果

对表1中北京、天津等27个地区进行财政收入类型的聚类分析。

将这些数据导入SPSS,依次选择分析→分类→系统聚类分析,进行变量的设置,如图1所示,聚类方法采用“最邻近元素”,另外将聚类数设置为4。

图1聚类分析设置

设置完成后点击【确定】,软件即自行算出分析结果。

如下所示:

3.1案例处理汇总

表2显示了有效的实力数目,无效的实例数目和总的实例情况。

由此可知,27个地区的数据均为有效数据。

表2案例处理汇总a,b

案例

有效

缺失

总计

N

百分比

N

百分比

N

百分比

27

100.0

0

.0

27

100.0

a.平方Euclidean距离已使用

b.单个联结

3.2聚类表

由表3可知,SPSS聚类分析一共分26步(27个样本)完成,每步将两个类合并成一个新类。

群集组合中给出了当前步合并的两类观测量号。

表3聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

7

8

4630.556

0

0

2

2

7

20

5346.943

1

0

3

3

7

27

5426.809

2

0

5

4

12

16

5650.038

0

0

7

5

7

14

7003.298

3

0

6

6

7

22

8294.062

5

0

12

7

12

17

8731.527

4

0

8

8

3

12

8811.104

0

7

10

9

4

5

10394.641

0

0

12

10

3

13

11636.871

8

0

13

11

2

18

11757.862

0

0

13

12

4

7

12476.832

9

6

15

13

2

3

13526.981

11

10

16

14

21

23

14892.680

0

0

15

15

4

21

17562.339

12

14

16

16

2

4

21320.529

13

15

17

17

2

25

22153.830

16

0

19

18

6

26

33663.812

0

0

19

19

2

6

34050.355

17

18

21

20

1

9

46014.039

0

0

23

21

2

24

50694.007

19

0

24

22

10

19

103113.630

0

0

26

23

1

11

103796.939

20

0

25

24

2

15

135852.273

21

0

25

25

1

2

155863.368

23

24

26

26

1

10

298641.313

25

22

0

3.3群集成员

表4给出了各地区的分类情况:

第一类:

北京、上海、浙江;

第二类:

天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、福建、江西、河南、湖北、湖南、广西、海南、云南、西藏、陕西、重庆、四川、贵州;

第三类:

江苏、广东;

第四类:

山东。

群集成员

案例

4群集

1:

北京

1

2:

天津

2

3:

河北

2

4:

山西

2

5:

内蒙古

2

6:

辽宁

2

7:

吉林

2

8:

黑龙江

2

9:

上海

1

10:

江苏

3

11:

浙江

1

12:

安徽

2

13:

福建

2

14:

江西

2

15:

山东

4

16:

河南

2

17:

湖北

2

18:

湖南

2

19:

广东

3

20:

广西

2

21:

海南

2

22:

云南

2

23:

西藏

2

24:

陕西

2

25:

重庆

2

26:

四川

2

27:

贵州

2

 

3.4群集图

图2群集图

3.5树状图

图3树状图

3.6结果分析

由上我们可以看出,第一类是北京、上海和浙江,它们的财政收入很高。

除了国有资本经营收入为负值以外,其它方面收入相比于其它地区都是很高的,所以把它们划为第一类;第二类是天津、河北等大部分地区,其财政收入有的方面比较高,有的方面比较低,总的财政收入不高;第三类是江苏和广东,它们的财政收入无论从哪个方面几乎都是最高的,与第一类不同的是,其国有资本经营收入远高于其他地区,广东、江苏都属于东部沿海省份,是沿海经济发达的省份,所以如此划分是合理的;第四类是山东,它虽然没有第一类和第三类的财政收入高,但每个方面的收入都是比较高的,所以自成一类。

4、判别分析结果

在以上聚类分析的27个数据之上加入表2中的4个地区的数据,并且将以上聚类分析的类别列加入新的表中。

如图4所示,将数据导入SPSS软件,依次选择分析→分类→判别,并且设置分组变量和自变量,上一步聚类分析所得的结果设为分组变量。

由于已在聚类分析中将财政收入类型分为四类,因此其取值范围为1~4。

原始数据作为自变量以对其进行分类判别。

自变量输入方式为步进法。

判别方法选用最小F值,进入值设置为3.84,删除值设置为2.71。

先验概率选为根据组大小计算。

图4判别分析设置

点击“确认”软件即自行计算,结果如下所示:

4.1分析案例处理摘要

表5分析案例处理摘要

未加权案例

N

百分比

有效

27

87.1

排除的

缺失或越界组代码

4

12.9

至少一个缺失判别变量

0

.0

缺失或越界组代码还有至少一个缺失判别变量

0

.0

合计

4

12.9

合计

31

100.0

4.2统计结果

表6组统计量

SingleLinkage

均值

标准差

有效的N(列表状态)

未加权的

已加权的

1

国内增值税

372.0700

118.47682

3

3.000

营业税

1009.5700

82.65939

3

3.000

企业所得税

637.4400

123.43047

3

3.000

个人所得税

257.8033

66.00284

3

3.000

城市维护建设税

161.6000

33.47756

3

3.000

土地增值税

145.8533

23.54199

3

3.000

契税

183.6700

49.06883

3

3.000

专项收入

95.7833

15.72430

3

3.000

行政事业性收费收入

64.0367

37.83965

3

3.000

国有资本经营收入

-34.3667

27.73354

3

3.000

国有资源(资产)有偿使用收入

23.4333

3.44304

3

3.000

2

国内增值税

138.7757

62.66426

21

21.000

营业税

312.9805

136.86200

21

21.000

企业所得税

130.7533

58.79563

21

21.000

个人所得税

43.2181

17.72010

21

21.000

城市维护建设税

61.6814

25.02873

21

21.000

土地增值税

44.9981

30.19693

21

21.000

契税

67.1890

44.92404

21

21.000

专项收入

84.4748

76.98821

21

21.000

行政事业性收费收入

113.2057

71.84398

21

21.000

国有资本经营收入

39.0505

34.69361

21

21.000

国有资源(资产)有偿使用收入

60.2986

48.03744

21

21.000

3

国内增值税

675.9850

35.61697

2

2.000

营业税

1345.8800

120.60413

2

2.000

企业所得税

779.5350

68.39844

2

2.000

个人所得税

289.5700

73.29869

2

2.000

城市维护建设税

283.1350

17.41604

2

2.000

土地增值税

276.0900

27.03976

2

2.000

契税

279.1100

57.51607

2

2.000

专项收入

170.2700

13.44917

2

2.000

行政事业性收费收入

345.4300

34.23811

2

2.000

国有资本经营收入

185.8600

141.09609

2

2.000

国有资源(资产)有偿使用收入

109.3450

9.38331

2

2.000

4

国内增值税

413.8200

.a

1

1.000

营业税

765.7200

.a

1

1.000

企业所得税

398.3000

.a

1

1.000

个人所得税

96.5800

.a

1

1.000

城市维护建设税

179.6000

.a

1

1.000

土地增值税

105.6700

.a

1

1.000

契税

202.4800

.a

1

1.000

专项收入

130.8000

.a

1

1.000

行政事业性收费收入

278.8200

.a

1

1.000

国有资本经营收入

100.0000

.a

1

1.000

国有资源(资产)有偿使用收入

188.8500

.a

1

1.000

合计

国内增值税

214.6774

171.91737

27

27.000

营业税

483.6585

362.19123

27

27.000

企业所得税

245.0189

234.96064

27

27.000

个人所得税

87.2856

94.11522

27

27.000

城市维护建设税

93.5548

70.59724

27

27.000

土地增值税

75.5693

72.28309

27

27.000

契税

100.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 军事

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1