聚类分析在税收中的应用汇总.docx

上传人:b****3 文档编号:5492906 上传时间:2022-12-17 格式:DOCX 页数:10 大小:78.46KB
下载 相关 举报
聚类分析在税收中的应用汇总.docx_第1页
第1页 / 共10页
聚类分析在税收中的应用汇总.docx_第2页
第2页 / 共10页
聚类分析在税收中的应用汇总.docx_第3页
第3页 / 共10页
聚类分析在税收中的应用汇总.docx_第4页
第4页 / 共10页
聚类分析在税收中的应用汇总.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

聚类分析在税收中的应用汇总.docx

《聚类分析在税收中的应用汇总.docx》由会员分享,可在线阅读,更多相关《聚类分析在税收中的应用汇总.docx(10页珍藏版)》请在冰豆网上搜索。

聚类分析在税收中的应用汇总.docx

聚类分析在税收中的应用汇总

一、理论依据1・・

§1・1距离1・・

§1・1・1绝对值距离1・

§1・1・2平方和距离1・

§1・1・3明可夫斯基距离2

§1・1・4切比雪夫距离2.

§1・2系统聚类法3・

二、问题提出3..

三、问题解答4..

四、结论6・・

五、参考文献7・・

摘要

针对所研究的问题是对各个省份的税收进行聚类分析,本文以绝对值距离(又称Blook或Manhattan)为前提,利用最短距离法的系统聚类法,针对来自14个省的税收数据编写Matlab程序实现对这14个省份税收的聚类分析,得到与预期贴合的聚类结果。

在不同距离下对14个省份税收的分类是不同的,并且其分类结果符合我们所知道的各省份的发展情况,在选择合适的分类距离时,虽不能够准确地划分成符合我国经济发展现状的三类地区,但结果偏差不大。

分析得出,偏差可能来自于数据的单一性,或者事实上东部发达地区内部差异的确很大。

关键字:

绝对值距离、系统聚类法、最短距离法

聚类分析在税收中的应用

一、理论依据

聚类分析又称集群分析。

是“物以类聚”的一种统计方法。

判别分析是根据

已知类别的一批样品。

按某一准则建立判别函数和判别规则,并依此判别新样品的类别。

聚类分析则是把性质相近或相似的对象归成类。

而事先并不清楚对象的类别,甚至并不清楚应分成几类。

和多元分析的其它方法相比,聚类分析的方法是很粗糙的,但是它的应用已取得了很大成功。

聚类的对象有两种:

(1)对变量(观测指标)聚类。

常用变量间的相似系数进行聚类。

而最常用的相似系数为方向余弦和相关系数。

(2)对样品(观测单位)聚类,常用样品间的距离进行聚类。

最常用的距离是绝对距离和欧氏距离。

本文应用的是对样品的聚类分析,而对样品进行聚类分析,首先要引进聚类统计量。

常用的聚类统计量有三种:

匹配系数、距离和相似系数。

本文采用的是距离的统计量。

§1.1距离

两个样品之间的相似程度可以用P维空间的距离来度量,距离越小,相似程度越高,两样品越应该划为一类。

§1.1.1绝对值距离

绝对值距离也称Blook或Manhattan,其计算公式为:

AP

dij-'IXjk-Xjk1

kT

§1.1.2平方和距离

平方和距离即普通欧氏距离之平方,计算公式如下:

Pp1

22

dij八(Xik-Xjk)或djj=「(Xik-Xjk)]2

k=1k=1

§1.1.3

明可夫斯基距离

p-

dj十“|Xik-Xjk|q]qk丄

其中,k=1,…,p为各指标之权系数。

特别匕=1,k=1,…,p时,若q=1,则明可夫斯基距离即为绝对值距离;q=2时,则明可夫斯基距离即为普通欧氏距离。

§1.1.4切比雪夫距离

d厂件養区一*1

上述几种距离,其数值均与指标的量纲有关,当各指标量纲不尽相同,观测数字相差悬殊时,将对极端数字很敏感,从而突出了某些数字特别大的指标而掩盖了其他指标的作用。

为了消除量纲的影响,可先将指标观测值进行标准化:

z.

i二1,2,,n;k二1,2,,p

 

为第k个指标样本标准差

经过变换后,各个指标样本均值均为0,标准差均为1,其数值不再受量纲的影响。

本文采用的距离是绝对值距离,由于题目较为简单,故不需要标准化,但当需要标准化的问题时,大家也应该会用。

§1.2系统聚类法

聚类分析的系统聚类法共有8种,它们分别是:

最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法(亦称Ward法)。

下面简述最短距离法的原理:

任给两类Gk,Gl,规定其两类之间的距离为两类样品之间的最短距离,即

dki「GminGdj,若两类Gk,Gl合并为一新类Gm,则Gm与任一类Gr的距离I.gK,J•gl

为:

mr

=min{mindkr,mind!

r}

WGk,rwGrIWGL,r^Gr

=min(dkr,d|r)

其中dkr,d|r分别是Gk与,Gl与之间的距离

由于本文仅用了最短距离法,限于本文篇幅有限,故不再赘述另外七种系统聚类法。

本文以最短距离法为代表,对各个城市税收进行了聚类分析,若读者有兴趣可举一反三,自行推导另外七种系统聚类法,并应用于本题。

二、问题提出

以2009年版的《中国统计年鉴》为资料来源,使用了2008年各地区税收收入为样本区间(为了使计算上方便些,本题只采用了部分省份的数据),对我国各地区税收做聚类分析。

表一中国北京至新疆地区有关的基本数据(单位:

亿元)

序号

地区

税收收入(Y)

Y1

北京

1775.58

Y2

天津

546.26

Y3

河北

748.89

Y4

山西

566.49

Y5

内家古

464.45

Y6

辽宁

1017.1

Y7

吉林

311.07

Y8

黑龙江

420.21

Y9

上海

2223.43

Y10

江苏

2278.71

Y11

浙江

1792.09

Y12

安徽

527.93

Y13

福建

704.45

Y14

江西

357.96

三、问题解答

利用Matlab对各个省份税收进行聚类分析:

1将14各省份各分为一类分别是丫1,丫2,…,丫14,并对这是四类求距离,其Matlab程序如下:

Y=[1775.58,546.26,748.89,566.49,464.45,1017.1,311.07,420.21,2223.43,2278.71,1792.09,527.93,704.45,357.96];

fori=2:

14;

forj=1:

i-1;

A(i,j)=abs(Y(i)-Y(j));

end

end

a=10000;

fori=2:

14;

forj=1:

i-1;

ifA(i,j)

a=A(i,j);

p=i;q=j;

end

end

end

fori=2:

14;

forj=1:

i-1;

ifA(i,j)==a

p=i,q=j,

end

end

end

a

运行结果为p=11,q=1,a=16.51,即在距离为16.51处,将Y1与Y11聚为一类

Y15o

并且,我们得到距离阵D。

:

表二距离阵D0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

1

1229

2

.32

1026

202.

3

.69

63

1209

20.2

182.

4

.09

3

4

1311

81.8

284.

102.

5

.13

1

44

04

758.

470.

268.

450.

552.

6

48

84

21

61

65

1464

235.

437.

255.

153.

706.

7

.51

19

82

42

38

03

1355

126.

328.

146.

44.2

596.

109.

8

.37

05

68

28

4

89

14

447.

1677

1474

1656

1758

1206

1912

1803

9

85

.17

.54

.94

.98

.33

.36

.22

503.

1732

1529

1712

1814

1261

1967

1858

55.2

10

13

.45

.82

.22

.26

.61

.64

.5

8

16.5

1245

1043

1225

1327

774.

1481

1371

431.

486.

11

1

.83

.2

.6

.64

99

.02

.88

34

62

1247

18.3

220.

38.5

63.4

489.

216.

107.

1695

1750

1264

12

.65

3

96

6

8

17

86

72

.5

.78

.16

1071

158.

44.4

137.

312.

393.

284.

1518

1574

1087

176.

13

.13

19

4

96

240

65

38

24

.98

.26

.64

52

1417

188.

390.

208.

106.

659.

46.8

62.2

1865

1920

1434

169.

346.

14

.62

3

93

53

49

14

9

5

.47

.75

.13

97

49

2、现在用Matlab程序对Y2,Y3,…,Y10,Y12,…,Y15进行聚类:

b=a;

a=10000;

fori=2:

14;

forj=1:

i-1;

ifA(i,j)ba=A(i,j);

p=i;q=j;

end

end

end

fori=2:

14;

forj=1:

i-1;

ifA(i,j)==a

p=i,q=j,

end

end

enda

运行结果为p=12,q=2,a=18.33,即在距离为18.33处,将丫2与丫12聚为一类Y16o

3、以此类推进行聚类分析

第三步聚类是将丫4与丫16聚为一类丫17(Y2,丫4,丫12),距离为20.23,第四步将Y5与Y8在距离为44.24处聚为一类Y18(Y5,Y8),第四步在44.44处将Y3和Y13聚为一类Y19(Y3,Y13),第五步在46.89处将Y7和Y14聚为一类Y20(Y7,Y14),第六步在在55.28处将Y9和Y10聚为一类丫21(Y9,Y10),第七步在62.25处将Y18与Y20聚为一类Y22(Y5,Y7,Y8,Y14),第八步在在63.48处将Y17和丫22聚为一类Y23(Y2,Y4,Y5,Y7,Y8,Y12,Y14),第九步在在137.96处将Y19和Y23聚为一类Y24(Y2,Y3,Y4,Y5,Y7,Y8,Y12,Y13,Y14),第十步在在268.21处将丫6与丫24聚为一类丫25(丫2,丫3,丫4,丫5,丫6,Y7,丫8,Y12,Y13,Y14),第^一步在431.34处将Y15与丫21聚为一类Y26(Y1,Y9,Y10,Y11),第十二步在在758.48处将Y25与Y26聚为一类Y27(Y1,Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9,Y10,Y11,Y12,Y13,Y14)。

四、结论

由上述结果我们对本次分类结果进行归纳,为了直观,用表格来表示:

表三分类表1

分类

分为1类

辽宁、内蒙古、安徽、福建、江西

浙江

建西、安徽黑龙江

分为10类

北京、

浙江

^宁

天津、山西、安徽

内蒙古、黑龙

西

分为11类

北京、

浙江

^宁

天津、山西、安徽

内蒙

黑龙

西

分为12类

北京、

浙江

^宁

西

天津、安徽

内蒙

黑龙

吉林

江西

分为13类

北京、

浙江

^宁

西

内蒙

黑龙

江西

分为14类各个省份独自成类

结合图表和数据我们可以很轻松地得看出聚类的结果,在不同的聚类距离,我们可以得到不同的聚类结果,而这些结果和我们所预期的十分接近,这说明,聚类分析在实际应用中很准确。

而结果和我们预期有细微偏差的原因可能是我们研究的因素太单一。

又或者,东部较发达地区发展的差距的确在加大,并且省份之间的差距已超过地区差异。

总之,聚类分析在实际中广泛被应用,并且实用性很好。

随着科技的进步,聚类分析还会有更广泛的应用领域。

五、参考文献

(1)张尧庭等编《多元统计分析引论》科学出版社

(2)杨维权等编《概率统计教学参考书》,高等教育出版社

(3)周光亚等编《多元统计分析》地质出版社

(4)李伟明等编《多元描述统计方法》华东师范大学出版社

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 自我管理与提升

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1