ImageVerifierCode 换一换
格式:DOCX , 页数:22 ,大小:648.25KB ,
资源ID:8141939      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8141939.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(SAS期末论文聚类分析判别分析.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

SAS期末论文聚类分析判别分析.docx

1、SAS期末论文聚类分析判别分析统计软件课程 期末论文系 (院): 理学院 专 业: 数学与应用数学 班 级: 学生姓名: 学 号: 指导教师: 耿兴波 开课时间: 2012-2013 学年 一 学期题目:1. 聚类分析某网站键鼠频道为广大职业玩家及游戏爱好者策划了一次全面的游戏鼠标横向测试,通过专家和消费者打分的形式,收集到了13款游戏鼠标的重要参数,即外观及手感、芯片及微动、功能及驱动、兼容性、游戏性等数据,(数据见Mouse_Cluster.sas7bdat)。要求以这些指标为依据对所收集的样本进行聚类分析。2. 判别分析在上述聚类分析中,取Ward法聚类结果把13个鼠标分为3类。假定这1

2、3个鼠标的样本来自于已有类别的总体(即已知具体鼠标类别的训练样本)。现又有两款鼠标的测评数据(Mouce_Discrim.sas7bdat),试利用判别分析的方法把两款鼠标归入对应的类别。要求:1 介绍SAS软件。2 介绍聚类分析的基本原理3 介绍使用了哪些命令。4 介绍题目,结果及最后的分析。SAS软件介绍一、概述SAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的

3、重要组成部分和核心功能。SAS现在的版本为9.0版,大小约为1G。经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在9697年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。在此仅举一例如下:在以苛刻严格著称于世的美国FDA新药审批程序中,新药试验结果的统计分析规定只能用SAS进行,其他软件的计算结果一律无效!哪怕只是简单的均数和标准差也

4、不行!由此可见SAS的权威地位。 SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。SAS有一个智能型绘图系统,不仅能绘各种统计图,还能绘出地图。SAS提供多个统计过

5、程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。 SAS软件的宗旨是为所有需要进行数据处理、数据分析的计算机或者非计算机工作人员提供一种易学易用、完整可靠的软件系统。SAS语言本身是一种非过程语言(第四代语言),类似于C语言,且综合了各种高级语言的功能和灵活的格式,将数据处理和统计分析融合于一体。SAS在统计分析领域和数据挖掘技术几乎处于垄断地位,成为国际上流行标准企业管理软件。 经过近30年的不断发展完善,SAS系统已由最初的统计分析软

6、件发展成为大型集成应用软件系统,发展成具有完备的数据集成访问、数据仓库管理、决策业务分析,数据挖掘等功能。SAS和SPSS、BMDP并称为国际上最富知名度的三大统计软件。在国际学术界有条不成文的规定:凡是用SAS和SPSS统计分析的结果,在国际学术交流中不必说明算法,由此可见其权威性和信誉度。学习SAS软件时,需要读者有基本的统计学知识,对所选用的统计方法有较清楚的了解,没有统计学基础知识要掌握SAS软件较为困难。SAS系统是一个由三十多个专用模块组成的大型集成式软件包。其功能包括客户机/服务器计算、数据访问、数据存储及管理、应用开发、图形处理、数据分析、报告编制、质量控制、项目管理、运筹学方

7、法、计量经济学与预测等。实际使用时可以根据需要选择相应的模块。SAS主要有如下模块:SAS基本部分:称为SAS/BASE。可以完成基本的数据管理工作和数据统计工作,是SAS系统的基础,所有其它SAS模块必须与之结合使用。SAS分析核心:这一部分是SAS系统的灵魂。它提供了严肃的、权威的数据分析与决策支持功能。包括SAS/STAT(高级统计),SAS/ETS(时间序列分析),SAS/IML(交互式矩阵语言),SAS/OR(运筹学),SAS/QC(质量控制),SAS/INSIGHT,SAS/LAB。SAS开发工具:面向对象的开发工具,可以定制信息处理应用系统。包括SAS/AF,SAS/EIS(经济

8、信息系统),SAS/GRAPH(图形处理)等模块。SAS分布式处理及数据仓库设计:此部分为SAS的高级数据处理功能。包括SAS/ACCESS,SAS/CONNECT,SAS/SHARE等模块。SAS的这些模块可单独使用、也可互相配合起来使用,其中最常用的3个模块分别是SAS/BASE(基础)、SAS/STAT(统计)和SAS/GRAPH(图形),二、SAS系统的特点SAS系统是一个模块化的集成软件系统,便于用户根据自己的需要进行选择。其基本部分是Base SAS软件,此外还有用于统计分析的SAS/STAT软件;用于高级绘图的SAS/GRAPH软件;用于矩阵运算的SAS/IML软件;用于运筹学和

9、线性规划的SAS/OR软件;用于经济预测和时间序列分析的SAS/ETS软件等。1)操作简便 SAS的宗旨是为所有需要进行数据处理、数据分析的非计算机专业人员提供一种易学易用、完整可靠的软件系统。用户把要解决的问题用SAS语言(近乎自然英语的非过程语言)表达出来,组成SAS程序,提交给SAS系统就可以解决所提出的问题。执行情况和输出结果都在屏幕上显示出来。2)SAS系统将数据管理与统计分析融为一体SAS程序的结构由两个基本步骤任意组合而成。DATA用于对数据的加工处理;PROC用于分析数据和编写报告。SAS系统克服了通常软件或偏重于数据管理功能或偏重于统计分析的弊病,把数据管理与统计分析有机地结

10、合在一起。3)适用性强、应用面广SAS系统适用于任何经验的人员(初学者或有经验的用户);适用于任何类型的数据;适用于几乎是任何应用的需要;适用于任何计算机环境;适用于今日与未来(扩展性能强)。聚类分析 基本原理:聚类分析又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。其实质是寻找一些能客观反映研究对象之间亲疏关系的统计量,然后根据这种统计量把研究对象按距离相近或性质相似的原则分成若干类,以便对各组数据进行分类研究,找出组内数据的共

11、性以及组间数据的差异。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析被应用于很多方面,在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库商趋于的相似性;在保险行业上,聚

12、类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在因特网应用上,聚类分析被用来在网上进行文档归类来修复信息。聚类分析的内容十分丰富,按其分类对象的不同就分为Q-型聚类分析(对样品分类),它是依据被观测的样品的各种特征,将特征相似的归为一类;R-型聚类分析(对指标或变量分类)是依据被观测的变量之间的相似性,将其特征相似的变量归并为一类。聚类分析按其分类方法又分为系统聚类法、动态聚类法等。系统聚类分析也称为分层聚类法Hierarchical Cluster,它是聚类分析中应用最广泛的一种方法。分层聚类的思想是:开始将样品或指标各视为

13、一类,根据类与类之间的距离或相似程度将最相似的类加以合 并,再计算新类与其他类之间的相似程度,并选择最相似的类加以合并,这样每合并一次就减少一类,不断继续这一过程,直到所有样本或指标合并为一类为止。动态聚类法也称为快速聚类法或K均值聚类法,快速聚类的方法是:首先按照一定的方法选取一批聚类中心,再将其他样本以聚类中心为标本凝聚起来,形成遵照一定原理的初始分类,然后按照最近距离原则,不断修改认为不合理分类直至合理为止。使用的程序/*程序文件 cluster.sas */proc cluster data=TMP1.mouse_cluster standard method=ward outtree

14、=tree pseudo ccc;/*先对数据进行标准化,采用Ward离差平方和法,并计算伪F统计量、伪t2统计量、CCC统计量*/*id MOUSE_CLUSTER;*/id Brand;var Touch Chips Driver Compatibility Game;run;用tree进行聚类分析proc tree data=tree horizontal; /*横向画出谱系聚类图*/id Brand;run;运行结果SAS 系统 2012年12月20日 星期四 下午08时07分48秒 1 The FASTCLUS Procedure Replace=FULL Radius=0 Maxc

15、lusters=3 Maxiter=1 Initial Seeds Cluster Touch Chips Driver Compatibility Game - 1 7.50000000 17.00000000 8.00000000 7.00000000 7.00000000 2 7.00000000 14.00000000 6.50000000 7.00000000 7.50000000 3 9.00000000 18.50000000 8.50000000 8.00000000 9.50000000 Criterion Based on Final Seeds = 0.5333 Clus

16、ter Summary Maximum Distance RMS Std from Seed Radius Nearest Distance Between Cluster Frequency Deviation to Observation Exceeded Cluster Cluster Centroids - 1 4 0.4378 1.1180 3 2.0691 2 5 0.5745 1.5456 1 2.1062 3 4 0.6583 1.7159 1 2.0691 Statistics for Variables Variable Total STD Within STD R-Squ

17、are RSQ/(1-RSQ) - Touch 0.61758 0.45277 0.552101 1.232645 Chips 1.39711 0.77942 0.740640 2.855651 Driver 0.94902 0.51720 0.752491 3.040259 Compatibility 0.50637 0.54199 0.045313 0.047463 Game 0.91287 0.47302 0.776250 3.469274 OVER-ALL 0.92992 0.56524 0.692105 2.247863 Pseudo F Statistic = 11.24 Appr

18、oximate Expected Over-All R-Squared = . Cubic Clustering Criterion = . WARNING: The two values above are invalid for correlated variables. Cluster Means Cluster Touch Chips Driver Compatibility Game - 1 7.50000000 17.12500000 7.62500000 7.75000000 7.75000000 2 7.20000000 15.60000000 6.30000000 7.500

19、00000 7.30000000 3 8.25000000 18.37500000 8.12500000 7.62500000 9.12500000 Cluster Standard Deviations Cluster Touch Chips Driver Compatibility Game - 1 0.0000000000 0.2500000000 0.4787135539 0.6454972244 0.5000000000 2 0.4472135955 0.9617692031 0.2738612788 0.5000000000 0.4472135955 3 0.6454972244

20、0.8539125638 0.7500000000 0.4787135539 0.4787135539 SAS 系统 2012年12月20日 星期四 下午08时07分48秒 2 The CLUSTER Procedure Wards Minimum Variance Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.06623896 2.10472693 0.6132 0.6132 2 0.96151203 0.47798515 0.192

21、3 0.8056 3 0.48352688 0.22639091 0.0967 0.9023 4 0.25713597 0.02554982 0.0514 0.9537 5 0.23158616 0.0463 1.0000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation = 1 Root-Mean-Square Distance Between Observations = 3.162278 Cluster History NCL

22、-Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC PSF PST2 e 12 明基 幻影熊 优派 黑甲鼠 2 0.0043 .996 . . 21.2 . 11 微软 SideWinder 罗技 G9 2 0.0065 .989 . . 18.3 . 10 双飞燕 XL-750FS 微软 Habu 2 0.0113 .978 . . 14.7 . 9 Razer 3G 罗技 新版MX518 2 0.0115 .966 . . 14.4 . 8 苹果新概念 MG09V5U CL12 3 0.0273 .939 . . 11.0 6.4 7 多彩 T2 多彩 DL

23、M615LU 2 0.0305 .909 . . 9.9 . 6 CL9 CL10 4 0.0590 .850 . . 7.9 5.2 5 美心 点击王 CL8 4 0.0614 .788 . . 7.4 3.9 4 CL6 Razer 巨腹蛇 5 0.0955 .693 . . 6.8 3.5 3 CL5 CL7 6 0.1064 .586 . . 7.1 3.4 2 CL4 CL11 7 0.1572 .429 .537 -1.1 8.3 4.3 1 CL2 CL3 13 0.4290 .000 .000 0.00 . 8.3由tree图结构,在置信度为0.15时可分为三类,A:Razer

24、 3G 罗技 新版MX518 双飞燕 XL-750FS 微软 Habu Razer 巨腹蛇B: 微软 SideWinder 罗技 G9 C:美心 点击王 苹果新概念 MG09V5U 明基 幻影熊 优派 黑甲鼠 多彩 T2 多彩 DLM615LU指令介绍针对具有一个分类的变量和若干数值型的数据集,STEPDISC过程执行逐步判别分析的操作,从指定的指标变量中筛选出一组变量,以便于判别分析。Proc stepdisc常用的语法格式:Proc stepdisc ; Class ; Var; Run;stepdisc常用选项及说明:Data= 指定输入数据集,可为一般的类型,也可为其他特殊的类型(CO

25、RR、COVARIANCE、CSSCP、SSCP)HETHOD= 指定筛选变量的方法,也可是FORWARD、BACKWARD和STEPWISE,默认为STEPWISESLENTRY= 指定变量进入模型须达到的显著性水平,默认为0.15SLSTAY= 指定模型内部的变量继续留在模型中(不被剔除)须达到的显著性水平,默认为0.15PR2ENTRY= 指定变量进入模型须达到的平方偏相关系数值,此值必须小于等于1PR2STAY= 指定模型内部的变量继续留在模型中(不被剔除)须达到的平方偏相关系数值,默认为0.15结果分析上述程序说明了使用系统聚类法来进行研究,并且绘制出聚类分析结果的树状图。ccc说明

26、需要计算半偏R2、R2和CCC统计量。这三个统计量和下面的伪F和伪T2统计量主要用于检验聚类的效果。当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,半偏R2统计量大说明信息的损失程度大。R2统计量反映了类内离差平方和的大小,R2统计量大说明类内离差平方和小。CCC统计量的值大说明聚类的效果好。pseudo说明要计算伪F和伪T2统计量一般认为伪F统计量在出现峰值的是所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,如果伪T2统计量的值大,说明不应该合并这两类。判别分析基本原理:判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样

27、本判别的一种统计方法。近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。使用的程序/*STEPDISC过程*/proc stepdisc d

28、ata=TMP1.mouse_discrim method=stepwise slentry=0.1 slstay=0.1;/*变量进入模型和模型内变量不剔除需达到的显著性水平为0.1*/class Type; /*为类别标志的变量*/var Touch Chips Driver Compatibility Game; /*必须为数值型变量*/run;/*DISCRIM过程*/proc discrim data=TMP1.mouse_discrim method=normal pool=test crosslisterr;/* */class Type; /*为类别标志的变量*/var Chi

29、ps Driver Game; /*必须为数值型变量*/run;/*CANDISC过程*/proc discrim data=TMP1.mouse_discrim out=outcan distance anova;/*指定一个输出数据集outcan,其中包含输入数据集的全部数据和典则变量评分*/class Type; /*为类别标志的变量*/var Chips Driver Game; /*必须为数值型变量*/run;运行结果指令介绍STEPDISC过程命令针对具有一个分类的变量和若干数值型的数据集,STEPDISC过程执行逐步判别分析的操作,从指定的指标变量中筛选出一组变量,以便于判别分析

30、。Proc stepdisc常用的语法格式:Proc stepdisc ; Class ; Var; Run;stepdisc常用选项及说明:Data= 指定输入数据集,可为一般的类型,也可为其他特殊的类型(CORR、COVARIANCE、CSSCP、SSCP)HETHOD= 指定筛选变量的方法,也可是FORWARD、BACKWARD和STEPWISE,默认为STEPWISESLENTRY= 指定变量进入模型须达到的显著性水平,默认为0.15SLSTAY= 指定模型内部的变量继续留在模型中(不被剔除)须达到的显著性水平,默认为0.15PR2ENTRY= 指定变量进入模型须达到的平方偏相关系数值,此值必须小于等于1

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1