ImageVerifierCode 换一换
格式:DOCX , 页数:24 ,大小:135.19KB ,
资源ID:3306205      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3306205.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(北航数理统计判别分析大作业.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

北航数理统计判别分析大作业.docx

1、北航数理统计判别分析大作业数理统计(课程大作业2)聚类和判别分析 学 院: 机械工程学院 专 业: 材料加工工程 日期:2014年12月22日摘要:本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。关键字:经济类型 SPSS 聚类分析 判别分析 1 引言中华人民共和国成立后,通过有计划地进行大规模的社会主义

2、建设,中国已成为世界上最具有发展潜力的经济大国之一,人民生活总体上达到小康水平。按预定计划,到2010年,中国将建立起比较完善的社会主义市场经济体制;到2020年,建立起比较成熟的社会主义市场经济体制。但是,我国的经济发展还不太均衡,地区性差异十分显著,尤其是东西部发展十分不同步。近年来,这种不均衡引起了人们的注意。新中国成立至1978年的30年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。自1978年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先发展沿海地区,发展

3、和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003年广东省为13626亿元,约相当于3个湖南(4639亿元)或10个贵州(1365亿元)或35个青海(390亿元).从人均地区生产总值来看,2003年浙江为20147亿元,3倍于江西(6678元),4倍于甘肃,5.6倍于贵州。本文就是在这样的背景下提出来的,使用SPSS Statistics 19.0这一统计软件,利用国家统计局公布的中国统计年鉴2013中提供的2012年我国各地区经济发展的数据,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值

4、(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。2 数据采集本文数据来源于中国统计年鉴2013,具体数据见表1表 1 源数据地区居民消费水平(元)社会固定资产投资(亿元)人均地区生产总值(元)政府消费支出(亿元)城镇居民人均总收入(元/人)北京30349.56112.4874754451.836468.75天津22984.07934.8931731698.729626.41河北10749.419661.33658

5、43272.720543.44山西10829.08863.3336281605.420411.71内蒙古15195.511875.7638862466.923150.26辽宁17998.721836.3566492178.823222.67吉林12276.39511.5434151566.220208.04黑龙江11600.89694.7357112812.717759.75上海36892.95117.6853732807.340188.34江苏19452.330854.2683477329.029676.97浙江22844.717649.4633744013.334550.30安徽10977

6、.715425.8287921876.321024.21福建16143.912439.9527631854.828055.24江西10572.910774.2288001560.519860.36山东15095.031256.0517685960.325755.19河南10380.321450.0314993584.020442.62湖北12283.015578.3385722897.320839.59湖南11739.514523.2334802397.721318.76广东21823.318751.5540956241.830226.71广西10519.59808.6279521612.22

7、1242.80海南10634.52145.432377448.320917.71重庆13655.48736.2389141389.322968.14四川11280.217040.0296082831.420306.99贵州8372.05717.8197101039.718700.51云南9781.67831.1221951763.221074.50西藏5339.5670.522936289.618028.32陕西11852.212044.5385641944.920733.88甘肃8542.05145.0219781131.917156.89青海10289.11883.433181410.21

8、7566.28宁夏12120.42096.936394404.219831.41新疆10675.16158.8337961891.817920.68三 聚类分析3.1 聚类分析过程首先将数据导入SPSS中,并剔除待分析的河北、浙江、新疆三省数据。表3所示的为聚类分析的汇总结果:表3 案例处理汇总案例有效缺失总计N百分比N百分比N百分比28100.00.028100.0a. 平方 Euclidean 距离 已使用 b. 平均联结(组之间)从表3中可以看到28个样本的数据全都有效,均用于系统聚类分析过程。表中列出了有效样本、缺失样本和样本总数的个数和百分数。表4显示的是样本的凝聚过程。对本文选取的

9、28个样本,系统进行了27步分析,并在每一步中给出了凝聚过程中两类之间的相关系数。表4 聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2112183568152.1640011210214789624.428009322267892087.3840084192712067895.8150075152513591635.444001263714116255.33200147192819190996.70840198222321666276.49630139101623240192.30820111062030411453.520001211101241848265.8969116

10、1261542054641.6151051413222453920958.1018023143654768430.05261219151864763844.618002216101481191025.397110201751796231017.5220018185111.141E817021193191.218E814720203101.515E819162321451.868E80182522122.597E815027233222.667E8201326249133.113E8002525493.780E821242626341.133E923252727133.450E922260表4所

11、列各项的意义如下:阶聚类步骤号;群集组合在某步中合并的个案;系数距离或相似系数;首次出现阶群集新生成聚类;下一阶对应步骤生成的新类将在第几步与其它个案或新类合并。从中可以看出聚类的进度和类详细合并的步骤。可以从表中看出,第12和第18个样本最先进行了聚类,样本间的距离为3568152.164。表5显示的是聚类后的集群成员:表5 群集成员案例群集1:北 京 12:天 津 13:山 西 24:内蒙古 35:辽 宁 36:吉 林 27:黑龙江 28:上 海 19:江 苏 310:安 徽 211:福 建 312:江 西 213:山 东 314:河 南 215:湖 北 216:湖 南 217:广 东 3

12、18:广 西 219:海 南 220:重 庆 221:四 川 222:贵 州 223:云 南 224:西 藏 225:陕 西 226:甘 肃 227:青 海 228:宁 夏 2从表5可以看到系统聚类分析的最终结果为:北京市、天津市、上海市属于第一类,内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类,其他省、直辖市、自治区被分为第二类。图1为垂直冰柱图,形状类似于冬天屋檐上垂下的冰柱,因此得名。横轴:案例(Case)表示被聚类的对象;纵轴:群集数(Number of clusters)表示被聚成几类;图1以冰柱图表示聚类分析结果。图中第1列为聚类步骤号,第1行为样本及样本号。图中每一列

13、代表一个冰柱,深色柱代表冰柱的长短。从冰柱的长短变化可以看出聚类的全过程。即如果样本或新类在第n步合并,则在图中第n步以上合并项对应列中用深色填充,没有空格。由于冰柱图是按照聚类的编号进行排列,所以其与聚结表的顺序刚好相反,也就是说聚结表的第一步对应于冰柱图的最后一步。冰柱图一般从表格的最后一行开始观察。最后一行中,类的数目为27,即聚积成27类,其中样本江西和广西用深色柱连接在一起,表示成两个样本聚成一类,其余每个样本构成一类。因此从冰柱图中可以非常清楚地看到,聚成n时类时,各个样本的类归属情况。图1 冰柱图图2为聚类分析之后的树状图:图2 树状图图2清晰地表示出了聚类的全过程。它将实际的距

14、离按比例调整到025的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将和水平线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的样本聚成一类。3.2 聚类分析结果总结从上一部分的聚类分析过程可以看出,SPSS软件将本文所采用的数据分为3类,如表6所示:表 6集群地区第一类北京、天津、上海第二类其他省、自治区、直辖市第三类内蒙古、辽宁、江苏、福建、山东、广东北京市、天津市、上海市构成一类。北京、天津作为老牌经济强省,同时也是北方京津冀经济圈的主要经济贡献力量,其在全国经济整体盘面

15、上表现一直相对强劲。上海市作为中国的经济中心,其整体发展水平高于全国其他地市,其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。内蒙古由于近几年煤炭等能源生产增长,还有富饶的草原畜牧业,经济发展迅速。而辽宁、江苏、福建、山东、广东这些沿海地区,由于受到改革开放经济政策的影响,经济实力仅次于北京、上海、天津。故以上几个省份被划为一类。其余省市被划分为一类。这些省市中也包括黑龙江省等经济条件较好的省市,但各行业领域发展并不均衡,故将其划入该类中。4 判别分析4.1 判别分析过程根据聚类分析的结果,将省份分为3类,在SPSS中添加一个新变量G用来表示类别,取值为1、

16、2和3,同时在表中添加了三个个案河北、浙江、新疆,作为待判样本。下面是判别结果相关表格。下表7为参与分析的个案处理的摘要显示,可以看出,共有28个样本作为判别基础数据进入分析。表7 分析案例处理摘要未加权案例N百分比有效2890.3排除的缺失或越界组代码39.7至少一个缺失判别变量0.0缺失或越界组代码还有至少一个缺失判别变量0.0合计39.7合计31100.0下表8为分组的统计量统计信息。由下表可以看出一共有3个组,其中第一组3例,第二组19例,第三组6例。同时,下表给出了各组中变量的均值和标准差。表8 组统计量G类别均值标准差有效的 N(列表状态)未加权的已加权的1居民消费水平30075.

17、46676958.4980833.000社会固定资产投资6388.26671428.7164833.000人均地区生产总值88673.66674035.7900533.000城镇居民人均总收入35427.83335357.3521433.000政府消费支出2985.93331385.2156233.0002居民消费水平10686.62631816.102851919.000社会固定资产投资9417.91585710.441511919.000人均地区生产总值31458.21056544.425491919.000城镇居民人均总收入20020.65631518.894221919.000政府消费

18、支出1661.3158938.749361919.0003居民消费水平17618.11672668.3756566.000社会固定资产投资21168.93338537.0120766.000人均地区生产总值57918.00006708.2528366.000城镇居民人均总收入26681.17333121.5293266.000政府消费支出4338.60002430.3017466.000合计居民消费水平14249.32146810.849482828.000社会固定资产投资11611.38577880.562142828.000人均地区生产总值43258.392920322.599272828

19、.000城镇居民人均总收入23098.67895646.004382828.000政府消费支出2376.94291755.029852828.000下表9为组均值的均等性检验表:表9 组均值的均等性的检验Wilks的 LambdaFdf1df2Sig.居民消费水平.15369.121225.000社会固定资产投资.5709.437225.001人均地区生产总值.092123.026225.000城镇居民人均总收入.17260.366225.000政府消费支出.5928.615225.001该检验方法的原假设是组均值对应相等,此时各变量间没有显著差异。本例中的各变量的显著性概率均小于0.05,所

20、以拒绝原假设,即认为各变量之间存在显著的差异。下表10为汇聚的组内矩阵表,该表显示了各个变量两两之间的协方差和相关系数。表10 汇聚的组内矩阵居民消费水平社会固定资产投资人均地区生产总值城镇居民人均总收入政府消费支出协方差居民消费水平7672426.6603033279.6575216758.8785283078.9181480414.129社会固定资产投资3033279.65738217995.8478001104.6083391896.3046634790.857人均地区生产总值5216758.8788001104.60841140382.873960452.8981465320.179城

21、镇居民人均总收入5283078.9183391896.304960452.8985905955.3771618204.396政府消费支出1480414.1296634790.8571465320.1791618204.3961969279.350相关性居民消费水平1.000.177.294.785.381社会固定资产投资.1771.000.202.226.765人均地区生产总值.294.2021.000.062.163城镇居民人均总收入.785.226.0621.000.474政府消费支出.381.765.163.4741.000a. 协方差矩阵的自由度为 25。下表11的协方差矩阵,展示了聚

22、类分析后的各个类的变量两两之间的协方差:表11 协方差矩阵G类别居民消费水平社会固定资产投资人均地区生产总值城镇居民人均总收入政府消费支出1居民消费水平48420695.503-9852735.767-27368710.96736940141.4424156123.882社会固定资产投资-9852735.7672041230.7735741544.133-7654132.957-1084074.793人均地区生产总值-27368710.9675741544.13316287601.333-21531547.583-3479584.133城镇居民人均总收入36940141.442-7654132

23、.957-21531547.58328701221.9614071622.683政府消费支出4156123.882-1084074.793-3479584.1334071622.6831918822.3032居民消费水平3298229.5804319615.9809662694.1051680206.960662639.440社会固定资产投资4319615.98032609142.1888424512.8463916161.1194982434.632人均地区生产总值9662694.1058424512.84642829504.9533747667.0591404456.119城镇居民人均总收

24、入1680206.9603916161.1193747667.0592307039.664413414.266政府消费支出662639.4404982434.6321404456.119413414.266881250.3603居民消费水平7120228.6103556875.0652245580.0005590592.9563354119.110社会固定资产投资3556875.06572880575.0517380659.1405922954.67315670819.526人均地区生产总值2245580.0007380659.14045000656.000-76717.8903662392.

25、520城镇居民人均总收入5590592.9565922954.673-76717.8909743945.3074974081.553政府消费支出3354119.11015670819.5263662392.5204974081.5535906366.532合计居民消费水平46387670.6226278134.1481.252E836970857.2075704313.183社会固定资产投资6278134.14862103259.58530401569.8588345411.10111060870.150人均地区生产总值1.252E830401569.8584.130E81.003E81676

26、2748.823城镇居民人均总收入36970857.2078345411.1011.003E831877365.4555444351.363政府消费支出5704313.18311060870.15016762748.8235444351.3633080129.790a. 总的协方差矩阵的自由度为 27。4.2 判别分析结果总结首先,对协方差矩阵的均等性进行箱式检验。下表12为对数行列式表,该表包括各类别和合并组内的对应的秩和对数行列式:表12 对数行列式G类别秩对数行列式1.a.b2574.0803580.611汇聚的组内578.557打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。a. 秩 3b. 案例太少无法形成非奇异矩阵通过表13得出检验结果:表13 检验结果a箱的 M79.900F近似。3.083df115df2339.325Sig.000对相等总体协方差矩阵的零假设进行检验。a. 有些协方差矩阵是奇异

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1