ImageVerifierCode 换一换
格式:DOCX , 页数:26 ,大小:1.25MB ,
资源ID:4460437      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/4460437.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(主成分分析与聚类分析和判别分析.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

主成分分析与聚类分析和判别分析.docx

1、主成分分析与聚类分析和判别分析实验三 主成分分析、聚类分析和判别分析 学院:地理科学学院 专业:自然地理学 *实验内容(1)中国31个省份、直辖市、自治区(不包括港澳台)经济状况的7项指标。(2)用主成分分析剖析出影响中国大陆经济状况的主要指标,并对中国大陆的经济综合实力进行排序。(3)用主成分剖析出的指标,用聚类分析对中国大陆的经济状况进行评价,并对每类的经济综合状况进行评价。(4)结合本题,谈谈聚类分析和主成分分析两种方法如何结合使用来分析问题。实验目的(1)巩固主成分和聚类分析的基本原理和方法步骤以及在实际分析中的意义。(2)用SPSS软件完成地理的主成分分析和聚类分析。第一部分 主成分

2、分析1 实验数据查阅2012年中国统计年鉴,数据表示2011年的指标。得到中国31个省份、直辖市、自治区(不含港澳台)的7项经济统计指标数据,包括:总人口/104人,城镇人口比例/%,第一产业总产值/108元,工业生产总值/108元,公共财政预算收入/108元,城乡居民储蓄余额/108元,城镇单位就业人员工资总额/108元。样本容量:31,变量:7,如图1。2 实验步骤及分析(1)点击“分析”“降维”“因子分析”,将上述的7个指标选择为变量。SPSS中的“主成分分析”嵌入到“因子分析”中,因此在操作的过程中我们要先进行因子分析。如2。 图2 选择因子分析变量(2)依次点击“因子分析”框中的“描

3、述”、“抽取”、“旋转”、“得分”、“选项”,勾选相应的选项,如图3、4、5、6、7所示 图3抽取 图4 旋转 图4描述统计 图5因子得分 图6选项 图7旋转(3)点击“确定”,得到相应的结果并分析。 图8 KMO和Bartlett检验分析:图8中,在进行因子分析之前,需要检验变量之间是否具备进行分析的条件。由图中可知KMO值为0.7870.5,说明数据变量之间具有结构效度,Sig0.05,说明可以进行因子分析。 图9 公因子方差分析:图9是指全部公共因子对于变量的总方差做所的贡献,说明了全部公共因子反映出的原变量的信息的百分比。例如:“总人口”的共同度是0.969,即提取的公因子对原变量的方

4、差作出了96.9%的贡献。图9中我们知道提取公因子之后各个变量的数值都比较大,说明在变量空间转化为因子空间是,保存了比较多的信息,因此,因子分析的效果是显著的。 图10 解释的总方差分析:图10中可以看到各个特征值的贡献率以及累积贡献率。可见,在本次试验中,前两个因子的累积贡献率已达到93.667%。图11 碎石图分析:图11横坐标为因子数,纵坐标为特征值,从图中可以看出前面两个因子的特征值比较大,都大于1,从第三个因子以后,折线平缓,因此,本次实验选择前面2个因子。 图12 因子载荷矩阵 图13 旋转成分矩阵分析:在图12中我们发现工业生产总值、公共财政预算收入、城乡居民年底储蓄余额、城镇单

5、位就业人员工资总额在第2个主因子的载荷值都比较低,不能对因子作出很好的解释。本实验有必要对因子载荷矩阵实施旋转,得到图13的结果。用具有Kaiser标准化的正交旋转法旋转之后我们发现第一因子主要由“总人口、第一产业总产值、工业生产总值”决定,第二因子主要由“城镇人口比重、公共财政预算收入、储蓄余额、工资总额”决定。 图14 成份得分协方差矩阵分析:图14的结果告诉我们两个因子之间是不相关的。 图15 成份得分系数矩阵分析:图15给出了因子得分系数矩阵,将公共因子表示成原始变量的线性组合,将公因子对变量做线性回归,得到系数的最小二乘估计就是所谓的因子得分系数。 图16 因子得分分析:根据估计出来

6、的得分系数,可以计算因子得分,由于在图6的“因子得分”中勾选了“保存为变量”,在SPSS数据视图中出现的fac1_、fac_2就是变量的因子得分,如图16。 图17 因子载荷图分析:图17说明了我们提取了两个公因子,所以输出的是二位平面图,我们可以看到旋转后在主因子为坐标轴的二维平面上原变量的位置。(3)计算主成分综合得分点击“转换”“计算变量”,输入目标变量Z1、Z2(总得分)和数学表达式:Y=0.70643*FAC1_1+0.22545*FAC2_1图18 计算变量 图19 因子总得分分析:该图的列Z1、Z2代表主成分变量,由此可以相关的线性组合方程组。(4)对31个观察量的综合得分进行排

7、序点击“数据”“排序个案”,选择Y作为变量,选择“降序”,点击确定。如图20所示。 图20 综合得分排序4 部分小结在以上的操作过程中我们提取了两个公因子(主成分),发现两个主成分可以保存有原变量的93.188%的信息,因此我们认为主成分的提取是有效。“总人口、第一产业总产值、工业生产总值”可以由第一主成分代替,“城镇人口比重、公共财政预算收入、储蓄余额、工资总额”可以由第二主成分代替。在对因子载荷矩阵进行旋转之后,我们发现可以就不难建立因子模型,在得到因子得分后,就可以得到以两个组成分为变量的因子总得分,达到实验的要求和目的。本次实验是有效的。第二部分 聚类分析1 实验原理聚类分析,亦称群分

8、析或点群分析,它是研究多要素事物分类问题的数量方法。其基本原理是,根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。最近邻元素:也是最近距离法。定义类与类之间的距离为两类中最近的样品之间的距离。2 实验步骤(1)点击“分析”“分类”“系统聚类”,将上述的7个指标选择为变量。如图所示。 (2)依次点击“系统聚类分析”框中的“统计量”、“绘制”、“方法”、“保存”,勾选相应的选项,如图所示。方法选择:最近邻元素(最近距离法)、距离选择:欧式距离。(3)点击“确定”,得到相应的结果,如图所示。 分析:上图给出了样本处理的基本信

9、息,包括样本数为31、含有缺失值的样本数为0以及百分比等。 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212930105579.86000222129689448.743015314201002013.164009424281067488.619006521261213332.8132021624311281848.9684019717181459967.652001488271609732.85600998141776932.509831010482101684.3150912117222137666.594001212473536871.652101113134

10、253884365.107120151412173992460.1190718154134004347.4181301616244201107.6930151717255300445.22016018182126083277.612171419192247278463.64418621203238849477.03100222122110623438.13419526223617010842.574200232331620454033.8112202624101521802131.8640029251922829572.2310027262324845266.60321232727122606

11、0636.0182526282811153341687.378270292911068613699.031282430301192.263E82900分析:a.上表是聚类过程表,其中勒出了聚类中观测量或者合并的顺序。试验中共有31个观测量,经过30步的聚类,所有的观测量被合并为1类。b.第一步,首先将距离最近的29、30号观测量合并为一类G1(首次出现阶聚类中,群集1=群集2=0),出现复聚类的下一阶段为第二步。c.第二步是将21号样品并入G1类中(首次出现阶聚类中,群集1=0、群集2=1),形成G2类,下一阶段的复聚类将出现在第4步。以此类推。d.随着聚类进程,系数的数值一直在增大,说明聚类

12、刚开始的时候样品或者类间的差异比较小,聚类结束时,类与类的差异变得比较大,体现了聚类分析的基本思想。 分析:a.上面两图分别为冰柱图和树状图。二者表达的内容是一样的,区别在于:首先是表达形式上的差距,其次是树状图可以读出样品或者观测量的距离,而冰柱图却没有这个功能。因此,本实验就分析树状图。b.假定,将31个观测量分为2类:第1类是广东,第2类为其他城市。此时的距离为25。 假定,将31个观测量分为3类:第1类是广东,第2类为江苏和山东,第3类为其他城市,此时的距离范围可以为14到23。假定,将31个观测量分为5类的情况:第1类是广东,第2类是江苏和山东,第3类是浙江、第4类是北京和上海。第5

13、类为其它城市。假定,将31个观测量分为8类的情况:第1类是广东,第2类是江苏和山东,第3类是浙江,第4类上海,第5类是北京,第6类是河南,第7类是辽宁,第8类是为其他城市。实验总结本次实验中国31个省份、直辖市、自治区(不包括港澳台)经济状况的7项指标,样本容量31,进行了主成分和聚类分析,实验过程步骤清晰,得出的结果有效。进行主成分分析后,总人口、第一产业总产值、工业总产值用第一主成分代表;说明了第一产业和工业这样的劳动密集型产业需要大量的劳动力投入,人口的多少一定程度上决定了第一产业和工业的总产值。城镇人口比重、公共财政预算内收入、城乡居民年底储蓄余额、城镇单位人员工资总额用第二主成分代表

14、。四者中经济成分比较明显。用成分得分计算得到总分,即综合得分,并对其排序,得到综合这7个影响因子下的综合实力的顺序。广东居首,江苏、浙江分别在3、7,西藏、青海、宁夏排在最后,而上海、北京、天津的排在23、25、27。对比这些城市GDP总体指标下的排名,经济发达的上海、北京、天津等城市的综合排名矛盾。说明在不同的经济指标影响下,城市的综合实力也收到影响。因此在对一个事物进行分析时,我们要认清楚影响事物的主要因子是哪些,起到了影响程度怎么样,才能分析更加到位。根据聚类分析的结果可知,大体上广东单独为一类,北京和上海为一类,浙江和江苏为一类,其他城市为一类。说明了在同一类中的城市在经济发展过程中受

15、到相似的因子影响,说明了主成分分析的结果和聚类分析的结果在一定程度上能够吻合。在分类的结果中也可以发现,大体上经济特别发达的城市为一类、东部沿海城市为一类、其他的中部城市和西部城市为一类,从树状图中也可以知道,三类之间的距离最大为23左右,说明中国经济发展内部差异还是比较大,结果和中国实际的经济发展状况相似。第三部分判别分析1 实验内容国家分类与判别。数据来源于联合国开发计划署(UN-DP)发表的2000年人类发展报告。 UN-DP的人类发展报告采用出生时预期寿命、成人识字率、人均GDP等的指标将全世界的国家分为三类。指标选取三个:出生时预期寿命、成人识字率和人均GDP。2 实验数据原数据来源

16、于联合国开发计划署(UN-DP)发表的2000年人类发展报告。如图1.图1 实验数据3 实验原理(1)判别分析是根据地理对象的一些数量特征,来判别其类型归属的一种统计方法。(2)判别分析的作用即对已分好的类型进行合理性检验、判别某地地理类型的归属问题和确定区域界线、评价各要素特征值在判别分析中贡献率的大小。(3)判别分析与聚类分析既有相同之处,又有差别。相同处在于:都能确定地理类型;不同点在于:判别分析兼有判别和分类的两种性质,但以判别为主,判别分析必须事先已知类型为前提,而聚类分析则不必事先已知类型,类型的划分是聚类的结果。4 实验目的(1)通过本次实验了解判别分析的基本思想,理解判别分析与

17、聚类分析的区别和联系。(2)理解判别函数在判别分析过程中所起的作用,对判别分析结果做出合理的统计学和实际含义的解释。5实验步骤(1)导入数据,定义变量,在“类别”中用1表示高人类发展水平,2表示中等人类发展水平,0表示待判别,并定义为数值格式。如图2所示。 图2(2)点击“分析”“分类”“判别”,分别选择分组变量(定义范围最小值为1,最大值为2)、自变量,选择“一起输入自变量”如图3,图4,图5. 图3 图4 图5(3)分别点击“统计量”、“分类”和“保存”,勾选相应的选项, 6数据处理结论及分析分析案例处理摘要未加权案例N百分比有效1477.8排除的缺失或越界组代码422.2至少一个缺失判别

18、变量0.0缺失或越界组代码还有至少一个缺失判别变量0.0合计422.2合计18100.0由上图我们可以看出参加判别分析的观测量为18,其中有效观测量数为14,有效观测量占总数的77.8%。组均值的均等性的检验Wilks 的 LambdaFdf1df2Sig.出生时预期寿命.39518.397112.001成人识字率.943.720112.413人均GDP.16261.889112.000由组均值相等的检验表可知,出生时预期寿命和人均GDP两个变量类内均值检验的显著性概率(sig)都小于0.05,且Wiiks Lamabda的值都比较接近0,说明除了成人识字率外,其余变量之间类内均值都存在显著差

19、异,可以进行判别分析。汇聚的组内矩阵a出生时预期寿命成人识字率人均GDP协方差出生时预期寿命8.37618.8184401.042成人识字率18.818182.96016182.267人均GDP4401.04216182.26716874782.000相关性出生时预期寿命1.000.481.370成人识字率.4811.000.291人均GDP.370.2911.000a. 协方差矩阵的自由度为 12。汇聚的组内矩阵分为两部分,即自变量间合并的协方差矩阵和自变量间相关系数矩阵。其中,协方差矩阵的自由度为12,从相关系数值可知,各变量之间的线性相关关系都不显著。检验结果箱的 M22.319F近似。

20、2.646df16df2795.195Sig.015对相等总体协方差矩阵的零假设进行检验。从检验结果图可以看出,Sig的值为0.015小于0.1,所以我们认为判别分析是显著的,说明判错率将很小。而图中箱的M值为22.319小于0.05,说明在该显著性水平下各类协方差矩阵相等,可以进行Bayes检验。特征值函数特征值方差的 %累积 %正则相关性15.799a100.0100.0.924a. 分析中使用了前 1 个典型判别式函数。Wilks 的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1.14720.1273.000分析:本次实验得出一个判别函数用于分析,特征值为5.799

21、,方差的百分比和累积百分比都是100%,相关系数为0.924。分析:这是对判别函数的显著性检验,其中Wiiks 的Lamabda值为0.147,非常小,卡方为20.127,较大,自由度为3,Sig为0.000,因此认为判别函数有效。结构矩阵函数1人均GDP.943出生时预期寿命.514成人识字率.102判别变量和标准化典型判别式函数之间的汇聚组间相关性 按函数内相关性的绝对大小排序的变量。标准化的典型判别式函数系数 函数1出生时预期寿命.331成人识字率-.324人均GDP.915分析:从左图的数据中我们可以得到一个标注化的典型判别式函数即Y=0.331X1-0.324X2+0.915X3,右

22、图表示的判别变量与判别函数之间的相关性,由数值可知,“人均GDP”与判别函数的关系最为密切,贡献率最大。典型判别式函数系数函数1出生时预期寿命.114成人识字率-.024人均GDP.000(常量)-8.874非标准化系数组质心处的函数类别函数112.5742-1.931在组均值处评估的非标准化典型判别式函数 分析:上图表示我们可以得到一个未标准化的判别函数即Y=-8.874+0.114X1-0.024X2,所以我们可以将变量带入计算判别分进行分类。右图为各类别重心的位置,通过计算各观测值与重心的距离,观测值的分类以距离最小值作为标准。分类函数系数类别12出生时预期寿命10.91110.395成

23、人识字率-.512-.404人均GDP-.001-.002(常量)-385.613-344.181Fisher 的线性判别式函数分类处理摘要已处理的18已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中18F1=-385.613+10.911X1-0.512X2-0.001X3,F2=-344.181+10.395X1-0.404X2-0.002X3。将自变量的数值带入上述的判别函数中,计算出函数值,哪个函数值比较大就可以判别该变量属于哪一从上图我们可以看到全部的18个观测量都被采用,没有缺失值或者其他原因被排除掉。分析:其中DIS_1为类别显示,DIS_1_1和DIS_1_2分别表示带入判别函数后的判别分。可知,类别1的判别分较大,类别2的判别分较小。原始数据中有一个判别错误即“阿根廷”,说明阿根廷的判别条件可能处在两个类别的中间地带。7 实验体会通过本次实验,能够对判别分析和聚类分析进行比较,掌握二者之间的异同点;更加深入地了解和掌握了判别分析的操作过程。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1