北航数理统计大作业2聚类与判别分析Word格式文档下载.docx-资源下载

北航数理统计大作业2聚类与判别分析Word格式文档下载.docx

1、剩余四支球队则按成绩依次排为五到八号种子。季后赛采用七场四胜制，采用2-2-1-1-1的主场分配方法，拥有四个主场的一方将会在第一、二、五（如果需要）、七（如果需要）场比赛坐镇主场，第三、四、六（如果需要）场则是征战客场。对阵双方的主场优势并非均衡。季后赛包括总决赛一共有四轮，第二轮叫分区半决赛，第三轮叫分区决赛，获胜球队称为分区冠军，东西部分区冠军晋级总决赛，七局四胜者为当赛季总冠军，总冠军球队中表现最优秀的球员获得总决赛MVP荣誉。2、相关统计基础理论2.1、聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分

2、类。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。本文使用统计软件SPSS对所收集的数据进行快速聚类，其特点是：在确定类别数量基础上，先给定一个粗糙的初始分类，然后按照某种原则进行反复修改，直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多，本文使用的是K-Means 算法。K-Means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使

3、得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。K-Means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言，k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

4、2.2，判别分析判别分析是市场研究的重要分析技术，也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息，确定分类变量与其它多元变量之间的数量关系，建立判别函数，并利用判别函数构建Biplot二元判别图（概念图）。同时，利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法，例如：市场细分研究中，常涉及判别个体所属类型的问题，也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念，判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯（Bayes）判别、费舍尔（Fis

5、her）判别等几种常用方法。距离判别的基本原理是：首先对样本到总体G之间的距离进行合理规定，然后依照“就近”原则判定样本的归属，常用马氏距离（Mahalanobis）规定为：式中为p元总体G的协方差阵，x是取自G的样品，则该式即为样品x到总体G的马氏距离。贝叶斯判别既考虑了先验分布产生的影响，也考虑到误判损失产生的影响，是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似，当总体是高维向量时，先把其综合成一个一维变量，然后在对一维变量进行距离判别，费舍尔判别实际上是一种降维处理，降维压缩后，样品y到各个总体的距离可以用欧式距离度量，即：由此导出Fisher判别规则为：，

6、则本文及使用Fisher判别建立线性判别函数进行距离判别。即对某球队的分组Fisher函数值，哪组函数值最大，则球队归为哪一组。3.聚类分析本文选取了NBA联盟30支球队2013-2014常规赛赛季场均数据来研究联盟实力分布规律，由于是对个案进行聚类，所以采用K-均值聚类，根据实际情况，先将27支球队实力类型划分为3类。3.1数据文件表0变量水平x1投篮x2三分x3篮板x4助攻x5抢断x6得分将从www.stat-（NBA中文数据库）中收集到的数据输入到数据文件中，如下表所示。表1球队亚特兰大老鹰45.80%36.30%4024.98.3101布鲁克林篮网45.90%36.90%38.120

7、.98.698.5波士顿凯尔特人43.50%33.20%42.5217.196.2夏洛特山猫44.20%35.10%42.721.76.196.9芝加哥公牛43.20%34.80%44.222.77.293.7克里夫兰骑士43.70%35.70%44.121.298.2达拉斯小牛47.40%38.40%40.923.6104.8丹佛掘金44.70%35.80%45.422.47.5104.4底特律活塞32.10%8.4金州勇士46.20%38.00%45.323.37.8104.3休斯顿火箭47.20%21.47.6107.7印第安纳步行者44.90%44.720.16.796.7洛杉矶快船3

8、5.20%4324.6107.9洛杉矶湖人45.00%38.10%4124.5103孟菲斯灰熊46.40%35.30%42.421.97.796.1迈阿密热火50.10%36.40%36.922.58.9102.2密尔沃基雄鹿43.80%41.121.56.695.5明尼苏达森林狼44.40%34.10%248.8106.9新奥尔良鹈鹕37.30%41.721.37.999.7纽约尼克斯37.20%40.32098.6俄克拉荷马雷霆47.10%36.10%106.2奥兰多魔术44.50%4296.5费城76人31.20%21.89.399.5菲尼克斯太阳46.30%19.1105.2波特兰开拓

9、者46.523.25.6106.7萨克拉门托国王33.30%44.518.9100.5圣安东尼奥马刺48.60%39.70%43.325.27.4105.4多伦多猛龙7101.3犹他爵士34.40%41.220.395华盛顿奇才37.90%42.28.1100.73.2聚类分析过程采用统计软件SPSS可以快速方便的将样本分类，“K-均值聚类”将样本分为设定好的三类，分类结果如下：表2初始聚类中心聚类12345.000%50.100%43.200%37.200%36.400%34.800%47374410710294表3迭代历史记录a迭代聚类中心内的更改3.5214.2334.414.333.6

10、67.000.682.3824a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 4。初始中心间的最小距离为 12.265。表4聚类成员案例号距离2.7642.9851.9531.7854.23961.9554.1382.83694.877102.396112.855122.522133.481143.977152.927165.121173.201183.794192.4793.4111.515221.908234.384.094253.644264.198274.499表5每个聚类中的案例数10.0006.00011.000有效27.000

11、缺失表6最终聚类中心46.430%46.267%44.282%36.740%37.033%34.273%22.922.38.210697表7最终聚类中心间的距离7.1289.4216.062表8ANOVA误差FSig.均方df14.2451.8237.814.00221.8102.16210.086.00140.7572.44716.6588.0422.4183.326.0531.316.722.183195.9843.45556.730F 检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假

12、设的检验。3.3 聚类结果分析表9案例号27圣安东尼奥马刺队分在了第一类，实际上13-14赛季马刺队获得了NBA总冠军，案例号21俄克拉荷马雷霆也分在了第一类，该队球员凯文杜兰特荣获14年MVP。4、判别分析4.1 判别分析过程一般来讲，利用判别分析首先要明确变量测量尺度及变量的类型和关系；因变量（dependent variable）：分组变量定性数据（个体、产品/品牌、特征，定类变量）。自变量（independent variable）：判别变量定量数据（属性的评价得分，数量型变量）。a、打开“Analyze”主菜单中的“Classify”，选择“Discriminant Analys

13、is”选项，进入主对话框。b、在“Grouping Variable”中输入变量名“类别”。变量名后的小括号内输入1和3作为分组标量取值的上下界。c、在“Independents”中输入工业、建筑业、运输业、批发零售业、住宿餐饮业、金融业、房地产业、其他服务业。d、选择“Enter independens together”方法进行分析。e、“Statistics”按钮中选择选择所有的复选框。f、“Classify” 按钮中选择所有的复选框。各项确认后，点击运行。（1）统计量表10组统计量案例的类别号均值标准差有效的 N（列表状态）未加权的已加权的46.430001.36873836.7400

14、01.67478044.210001.64076522.870001.7657547.86000.941866105.950001.32098446.266671.93149337.03333.66231939.666671.81842422.350001.9937408.15000.543139100.500001.87829744.28182.90754434.272731.56402743.300001.34014921.154551.0043547.37273.88666997.345452.226371合计45.518521.66688035.800001.91672842.8296

15、32.32243522.055561.6882707.72593.876002101.233334.273712表11组均值的均等性的检验Wilks 的 Lambdadf1df2.606.543.419.783.868.175（2）协方差矩阵的均等性的箱式检验表12对数行列式秩.407.a.b-.213汇聚的组内2.288打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。a. 秩 6b. 案例太少无法形成非奇异矩阵（3）典型判别式函数摘要表13特征值函数方差的 %累积 %正则相关性11.514a87.7.9591.612a12.3100.0.786a. 分析中使用了前 2 个典型判别式函

16、数。该表中各项为前两个判别函数的特征值、占总方差的百分数、累加百分数和正规相关系数。从表中我们看到，因为分组变量是三类，所以我们得到两个判别函数，其中第一判别函数解释了数据的87.7%，第二判别函数解释了12.3%；两个判别函数解释了100%；当然，两个判别函数直接具有显著的差异和判别力。表14函数检验卡方1 到 2.03174.968.38320.642该表中各项为Wilk值、卡方值、自由度和显著性概率。当显著性概率小于0.05时，拒绝原假设，认为组间均值不相等。表中卡方值对应的0.001,表示整个判别模型有意义。表15标准化的典型判别式函数系数-.440.4611.232-.316-.0721.124-.038.100.522-.0291.216-.136典型判别式函数系数-.326.342.838-.215-.046.718-.024.064.614-.035.654-.073（常量）-83.630-32.382非标准化系数非标准化典型判别方程为：表16组质心处的函数3.57

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？