ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:78.46KB ,
资源ID:5492906      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5492906.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(聚类分析在税收中的应用汇总.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

聚类分析在税收中的应用汇总.docx

1、聚类分析在税收中的应用汇总一、 理论依据 1 11距离 1 111绝对值距离 1 112平方和距离 1 113明可夫斯基距离 2 114切比雪夫距离 2. 12系统聚类法 3二、 问题提出 3.三、 问题解答 4.四、 结论 6五、 参考文献 7摘要针对所研究的问题是对各个省份的税收进行聚类分析,本文以绝对值距离 (又称Blook或Manhattan)为前提,利用最短距离法的系统聚类法,针对来自 14个省的税收数据编写Matlab程序实现对这14个省份税收的聚类分析,得到 与预期贴合的聚类结果。在不同距离下对14个省份税收的分类是不同的,并且其分类结果符合我们 所知道的各省份的发展情况,在选择

2、合适的分类距离时,虽不能够准确地划分成 符合我国经济发展现状的三类地区,但结果偏差不大。分析得出, 偏差可能来自 于数据的单一性,或者事实上东部发达地区内部差异的确很大。关键字:绝对值距离、系统聚类法、最短距离法聚类分析在税收中的应用一、理论依据聚类分析又称集群分析。是“物以类聚”的一种统计方法。判别分析是根据已知类别的一批样品。按某一准则建立判别函数和判别规则, 并依此判别新样品 的类别。聚类分析则是把性质相近或相似的对象归成类。而事先并不清楚对象的 类别,甚至并不清楚应分成几类。和多元分析的其它方法相比,聚类分析的方法 是很粗糙的,但是它的应用已取得了很大成功。聚类的对象有两种:(1)对变

3、量(观测指标)聚类。常用变量间的相似系数进行聚类。而最常用的 相似系数为方向余弦和相关系数。(2)对样品(观测单位)聚类,常用样品间的距离进行聚类。最常用的距离是 绝对距离和欧氏距离。本文应用的是对样品的聚类分析,而对样品进行聚类分析,首先要引进聚类 统计量。常用的聚类统计量有三种:匹配系数、距离和相似系数。本文采用的是 距离的统计量。 1.1距离两个样品之间的相似程度可以用 P维空间的距离来度量,距离越小,相似程 度越高,两样品越应该划为一类。 1.1.1绝对值距离绝对值距离也称Blook或Manhattan,其计算公式为:A Pdij - I Xjk - Xjk 1kT 1.1.2平方和距

4、离平方和距离即普通欧氏距离之平方,计算公式如下:P p 12 2d ij 八(Xik - Xjk)或 djj=(Xik - Xjk) 2k =1 k =1 1.1.3明可夫斯基距离p -dj 十 “|Xik-Xjk|qq k丄其中, k=1,p为各指标之权系数。特别 匕=1, k=1,,p时,若q=1, 则明可夫斯基距离即为绝对值距离;q=2时,则明可夫斯基距离即为普通欧氏距 离。 1.1.4切比雪夫距离d厂件養区一*1上述几种距离,其数值均与指标的量纲有关,当各指标量纲不尽相同,观测 数字相差悬殊时,将对极端数字很敏感,从而突出了某些数字特别大的指标而掩 盖了其他指标的作用。为了消除量纲的影

5、响,可先将指标观测值进行标准化:z.i 二 1,2, ,n;k 二 1,2, , p为第k个指标样本标准差经过变换后,各个指标样本均值均为 0,标准差均为1,其数值不再受量纲 的影响。本文采用的距离是绝对值距离,由于题目较为简单,故不需要标准化,但当 需要标准化的问题时,大家也应该会用。 1.2系统聚类法聚类分析的系统聚类法共有8种,它们分别是:最短距离法、最长距离法、 中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法(亦称 Ward 法)。下面简述最短距离法的原理:任给两类Gk,Gl,规定其两类之间的距离为两类样品之间的最短距离,即dkiGminG dj,若两类Gk,Gl合并

6、为一新类Gm,则Gm与任一类Gr的距离 I . gK,J gl为:mr=min min dkr, min d!rWGk,r wGr IWGL,rGr=min(dkr,d|r)其中dkr, d|r分别是Gk与,Gl与之间的距离由于本文仅用了最短距离法,限于本文篇幅有限,故不再赘述另外七种系统 聚类法。本文以最短距离法为代表,对各个城市税收进行了聚类分析,若读者有 兴趣可举一反三,自行推导另外七种系统聚类法,并应用于本题。二、问题提出以2009年版的中国统计年鉴为资料来源,使用了 2008年各地区税收收 入为样本区间(为了使计算上方便些,本题只采用了部分省份的数据) ,对我国 各地区税收做聚类分析

7、。表一中国北京至新疆地区有关的基本数据(单位:亿元)序号地区税收收入(Y)Y1北京1775.58Y2天津546.26Y3河北748.89Y4山西566.49Y5内家古464.45Y6辽宁1017.1Y7吉林311.07Y8黑龙江420.21Y9上海2223.43Y10江苏2278.71Y11浙江1792.09Y12安徽527.93Y13福建704.45Y14江西357.96三、问题解答利用Matlab对各个省份税收进行聚类分析:1将14各省份各分为一类分别是丫1, 丫2,,丫14,并对这是四类求距离, 其Matlab程序如下:Y=1775.58,546.26,748.89,566.49,464

8、.45,1017.1,311.07,420.21,2223. 43,2278.71,1792.09,527.93,704.45,357.96;for i=2:14;for j=1:i-1;A(i,j)=abs(Y(i)-Y(j);endenda=10000;for i=2:14;for j=1:i-1;if A(i,j)aa=A(i,j);p=i;q=j;endendendfor i=2:14;for j=1:i-1;if A(i,j)=ap=i,q=j,endendenda运行结果为p=11,q=1,a=16.51,即在距离为16.51处,将Y1与Y11聚为一类Y15o并且,我们得到距离阵D

9、。:表二距离阵D01234567891011121314112292.321026202.3.6963120920.2182.4.0934131181.8284.102.5.1314404758.470.268.450.552.648842161651464235.437.255.153.706.7.5119824238031355126.328.146.44.2596.109.8.3705682848914447.1677147416561758120619121803985.17.54.94.98.33.36.22503.173215291712181412611967185855.210

10、13.45.82.22.26.61.64.5816.51245104312251327774.14811371431.486.111.83.2.6.6499.02.883462124718.3220.38.563.4489.216.107.16951750126412.6539668178672.5.78.161071158.44.4137.312.393.284.151815741087176.13.1319496240653824.98.26.64521417188.390.208.106.659.46.862.2186519201434169.346.14.6239353491495.4

11、7.75.1397492、现在用Matlab程序对Y2, Y3,,Y10, Y12,,Y15进行聚类:b=a;a=10000;for i=2:14;for j=1:i-1;if A(i,j)b a=A(i,j);p=i;q=j;endendendfor i=2:14;for j=1:i-1;if A(i,j)=ap=i,q=j,endendend a运行结果为p=12,q=2,a=18.33,即在距离为18.33处,将丫2与丫12聚为一类 Y16o3、以此类推进行聚类分析第三步聚类是将丫4与丫16聚为一类丫17( Y2, 丫4, 丫12),距离为20.23,第 四步将Y5与Y8在距离为44.2

12、4处聚为一类Y18 (Y5, Y8),第四步在44.44处 将Y3和Y13聚为一类Y19( Y3, Y13),第五步在46.89处将Y7和Y14聚为一类 Y20( Y7, Y14),第六步在在55.28处将Y9和Y10聚为一类丫21( Y9,Y10),第 七步在62.25处将Y18与Y20聚为一类 Y22( Y5, Y7, Y8, Y14),第八步在在63.48 处将 Y17和 丫22聚为一类 Y23 (Y2, Y4, Y5, Y7, Y8, Y12, Y14),第九步在在 137.96 处将 Y19 和 Y23 聚为一类 Y24 (Y2, Y3, Y4, Y5, Y7, Y8, Y12, Y

13、13, Y14), 第十步在在 268.21 处将 丫6与 丫24聚为一类 丫25 (丫2, 丫3, 丫4, 丫5, 丫6, Y7, 丫8, Y12, Y13, Y14),第 一步在 431.34 处将 Y15与 丫21 聚为一类 Y26 (Y1, Y9, Y10, Y11),第十二步在在 758.48 处将 Y25与 Y26聚为一类 Y27 (Y1 , Y2, Y3 , Y4 , Y5, Y6 , Y7, Y8, Y9 , Y10, Y11 , Y12, Y13, Y14)。四、结论由上述结果我们对本次分类结果进行归纳,为了直观,用表格来表示:表三分类表1分类分为1类辽宁、内蒙古、安徽、福建

14、、江西浙江苏建 西、安徽 黑龙江林分为10类北京、浙江上海江苏辽宁河北福建天津、山西、安徽内蒙古、黑龙江吉林江西分为11类北京、浙江上海江苏辽宁河北福建天津、山西、安徽内蒙古黑龙江吉林江西分为12类北京、浙江江苏辽宁河北福建上海山西天津、安徽内蒙古黑龙江吉林江西分为13类北京、浙江江苏辽宁河北福建上海山西天津安徽吉林内蒙古黑龙江江西分为14类 各个省份独自成类结合图表和数据我们可以很轻松地得看出聚类的结果,在不同的聚类距离, 我们可以得到不同的聚类结果,而这些结果和我们所预期的十分接近,这说明, 聚类分析在实际应用中很准确。而结果和我们预期有细微偏差的原因可能是我们研究的因素太单一。又或 者,东部较发达地区发展的差距的确在加大, 并且省份之间的差距已超过地区差 异。总之,聚类分析在实际中广泛被应用,并且实用性很好。随着科技的进步,聚类分析还会有更广泛的应用领域。五、参考文献(1) 张尧庭等编多元统计分析引论科学出版社(2) 杨维权等编概率统计教学参考书,高等教育出版社(3) 周光亚等编多元统计分析 地质出版社(4) 李伟明等编多元描述统计方法华东师范大学出版社

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1