多元统计分析教案.docx-资源下载

多元统计分析教案.docx

1、多元统计分析教案课时编号多元统计分析（1-2）课目名称绪论和基本知识授课时间2005.9授课班级数学03（1-2班）统计03（1-2班）教学目的通过本章的教学应使学生对多元统计分析课程有一个概括的认识。了解多元正态分布，多元数据的特征以及图表示法。重点与难点多元统计分析的概念及它能解决哪些类型的实际问题。多元正态分布的定义，多元数据的特征以及图表示法。课堂教学设计采用课堂讲授与学生自学相结合的教学方法，使学生掌握多元统计分析的概念，多元统计分析的起源和发展，并举例说明多元统计分析能解决的实际问题。讲解多元正态分布的定义，多元数据的特征以及图表示法。使学生了解多元统计分析课程的主要教学内容和教

2、学安排，以及作业考试的内容及方式。参考书目1于秀林任雪松，多元统计分析，中国统计出版社，19992王学民，应用多元分析，上海财经大学出版社，1999教案实施效果追记第一章绪论一多元统计分析的概念多元统计分析就是利用统计学和数学方法，将隐没在大规模原始数据群体中的重要信息集中提炼出来，简明扼要的把握系统的本质特征，分析数据系统中的内在规律性。利用多元分析中不同的方法还可以对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。二多元分析的起源和发展1.1928年，Wishart发表多元正态总体样本协差阵的精确分布,是多元统计分析的开端；2.20世纪30年代多元分析在理论上得到迅速发

3、展；3.20世纪40年代应用于心理、教育、生物等方面;但由于计算量太大,其发展受到影响;4.50年代中期,由于电子计算机的出现和发展,使多元分析方法得到广泛应用;5.60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;6.多元统计分析在我国发展较晚,70年代初在我国才受到各个领域的极大关注,应用日益广泛。三多元分析能解决的实际问题多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用，足见其应用的深度和广度。四多元分析课程讲授的主要内容本课程重点介绍多元分析中常用的六种方法：聚类分析判别分析

4、主成分分析因子分析对应分析典型相关分析我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS与SPSS软件实现上述过程,对所研究的问题能做出合理推断和科学评价。五作业考试内容及方式平时作业类型：上机操作，论文；期末考试：3000字左右的课程论文；上机处理题；考试范围涵盖所讲的各种方法以及相关的英文帮助信息。【思考题】1什么是多元统计分析？2多元统计分析能解决哪些类型的实际问题？第二章基本知识一多元正态分布的定义如同一元统计分析中一元正态分布的重要地位一样

5、，多元正态分布在多元统计分析分析中占有重要的地位，因为多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上，多元正态分布是多元统计分析的基础。在实用中遇到的随机向量常常是服从正态分析或近似正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。多元正态分布是一元正态分布的推广，多元分析中的很多统计方法，大都假定数据来自多元正态总体，但要判断已有的一批数据是否来自多元正态总体，并不是一件容易的事。可是反过来要肯定数据不是来自多元正态总体，我们可对各个分量做正态检验，如果各个分量不服从一元正态分布，我们可以断定这批数据不服从多元正态分布。二多元

6、分析处理的数据特征1.多元样本中的每个样品，P个指标值往往是有相关关系的，但不同样品之间是相互独立的。2.多元分析处理的多元样本观测数据一般是横截面数据，即在同一时间横截面上的数据，它不考虑时间因素，即这些数据不是按时间顺序排列的。三多元数据图表示法图形有助于对所研究数据的直观了解，如果能把一些多元数据直接显示在平面图上，便可从图形一目了然地看出多元数据之间的关系，当只有一、二维数据时，可以使用通常的直角坐标系在平面上点图。当只有三维数据时，虽然可以在三维坐标系里点图，但已经很不方便；当维数大于3时，用通常的方法已经不能点图。在许多实际问题中，多元数据的维数都大于3，如何在平面上来表示多元数据

7、成为备受关注的问题。多元数据的图表示法分为两类：1.使高维空间的点与平面上的某种图形对应，这种图形能反映高维数据的某些特点或数据间的某些关系，如本章介绍的轮廓图、雷达图、调和曲线图、星座图等；2.在尽可能多的保留原数据信息的原则下进行降维，若能使数据维数降至2或1，则可在平面上点图，如主成分法、因子分析法等。【思考题】1什么是多元正态分布？2多元统计分析分析的数据有何特征？3多员数据的图表示法有哪几类？课时编号多元统计分析（3-8）课目名称聚类分析授课时间2005.9授课班级数学03（1-2班）统计03（1-2班）教学目的通过本章的教学应使学生了解聚类分析的原理和作用，了解聚类分析中常用的距离

8、和相似系数以及它们各自的特点及适用范围。掌握系统聚类法，能够应用系统聚类法解决实际数据分析问题。重点与难点系统聚类法的原理和作用；系统聚类法的微机实现；用系统聚类法如何解决实际数据分析问题。课堂教学设计以讲授和多媒体演示为主，讲授以下内容：一、聚类分析的原理和作用；二、聚类分析中常用的距离和相似系数；三、系统聚类法的原理和作用；四、系统聚类法的微机实现（SAS和SPSS）；五、用多媒体演示如何用系统聚类法解决实际数据分析问题。参考书目1于秀林任雪松，多元统计分析，中国统计出版社，1999 2王学民，应用多元分析，上海财经大学出版社，1999 3卫海英， SPSS10.0 for W

9、indows 在经济管理中的应用，中国统计出版社，2001 4卢纹岱，SPSS for Windows统计分析，电子工业出版社，2001 5谭浩强， SAS/PC统计分析软件实用技术，国防工业出版社，1996 6胡良平， Windows SAS 6.12 & 8.0实用统计分析教程，军事医学科学出版社，20017SAS系统使用手册（8. 2版本）8SPSS系统使用手册（11.5版本）教案实施效果追记第三章聚类分析第一节什么是聚类分析一聚类分析的概念聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。其中类指相似元素的集合。二聚类分析的基本思想认为所研究的样品或

10、指标之间存在着程度不同的相似性，根据一批样品的多个观测指标，找出能够度量样品或变量之间相似程度的统计量，并以此为依据，采用某种聚类法，将所有的样品或变量分别聚合到不同的类中，使同一类中的个体有较大的相似性，不同类中的个体差异较大。第二节距离与相似系数聚类分析的目的是将研究对象进行分类。它是在事先不知类别的情况下对数据进行分类的分析方法。分类的依据有两类：距离与相似系数。常用的距离有以下几种：1明考夫斯基距离2绝对距离3欧氏距离4切比雪夫距离5马氏距离6兰氏距离常用的相似系数有以下几种：1夹角余弦2相关系数聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等；根

11、据分类对象不同又分为对样品聚类（又称Q型聚类分析）以及对变量进行聚类（又称R型聚类分析）。对前者聚类多用距离，而后者聚类时多用相似系数。第三节系统聚类法一系统聚类法的基本思路首先，将n个样品看成n类，定义各样品之间的距离（此时其亦为类间距离）；其次，按照某种原则将最接近的两类合并为一个新类，于是得到n-1类，定义并计算各类间距离，然后再从中找出最接近的两类合并成一个新类，重复以上步骤，直到全部样品合并成一类为止，将上述合并过程画成聚类谱系图，据此图可将全部样品分类。二八种系统聚类方法正如样品之间的距离可以有不同的定义方法一样，类与类之间的距离也有各种定义。类与类之间用不同的方法定义距离，就产

12、生了不同的系统聚类方法，系统聚类方法包括最短距离法最长距离法类平均法重心法WARD法等八种不同的方法，但这些方法聚类的步骤是完全一样的。当采用欧氏距离时，八种并类方法可归结为统一的递推公式。三谱系图及利用谱系图进行分类根据谱系图确定分类个数的准则：Bemirmen于1972年提出了应根据研究的目的来确定适当的分类方法，并提出了一些根据谱系图来分析的准则。准则A：各类重心之间的距离必须很大；准则B：确定的类中，各类所包含的元素都不要太多；准则C：类的个数必须符合实用目的；准则D：若采用几种不同的聚类方法处理，则在各自的聚类图中应发现相同的类。应该指出，关于类的个数如何确定的问题，至今还没有一个合

13、适的标准，也就是说对任何观测数据都没有唯一正确的分类方法。第四节聚类分析的微机实现一系统聚类分析在SPSS中的实现在SPSS主菜单中选择AnalyzeClassifyHierarchical Cluster，可实现系统聚类分析。二系统聚类分析在SAS中的实现在SAS/ASSIST模块中没有现成的菜单操作，须通过编程来实现聚类分析。SAS/STAT模块中的Cluster过程可实现系统聚类分析，可调用Tree过程生成聚类谱系图。1.CLUSTER过程的一般格式为： PROC CLUSTER DATA=输入数据集 METHOD=聚类方法选项;VAR 聚类用变量;COPY 复制变量;RUN;其中

14、的VAR语句指定用来聚类的变量。COPY语句把指定的变量复制到OUTTREE的数据集中。 PROC CLUSTER语句的主要选项有：（1）METHOD=选项，这是必须指定的，此选项决定我们要用的聚类方法，主要由类间距离定义决定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY 、MEDIAN、TWOSTAGE等，其中DENSITY、TWOSTAGE等方法还要额外指定密度估计方法（K=、R= 或HYBRID）。（2）DATA输入数据集，可以是原始观测数据集，也可以是距离矩阵数据集。（3）OUTTRE

15、E=输出数据集，把绘制谱系聚类树的信息输出到一个数据集，可以用TREE过程调用此数据集绘图树形图并实际分类。（4）STANDARD选项，把变量标准化为均值为0，标准差为1。（5）PSEUDO选项和CCC选项。PSEUDO选项要求计算伪F和伪统计量，CCC选项要求计算、半偏和CCC统计量。其中CCC统计量也是一种考察聚类效果的统计量，CCC较大的聚类水平是较好的。 2.TREE过程用法TREE过程可以把CLUSTER过程产生的OUTTREE数据集作为输入数据集，画出谱系聚类的树形图，并按照用户指定的聚类水平（类数）产生分类结果数据集。其一般格式如下： PROC TREE DATA数据集

16、 OUT=输出数据集 NCLUSTER=类数选项; COPY 复制变量; RUN;其中COPY语句把输入数据集中的变量复制到输出数据集（实际上这些变量也必须在CLUSTER 过程中用COPY语句复制到OUTTREE数据集）。PROC TREE语句的重要选项有：（1）DATA数据集，指定从CLUSTER过程生成的OUTTREE数据集作为输入数据集。（2）OUT数据集，指定包含最后分类结果（每一个观测属于哪一类，用一个CLUSTER变量区分）的输出数据集。（3）NCLUSTERS选项，由用户指定最后把样本观测分为多少个类（即聚类水平）。（4）HORIZONTAL，画树形图时沿水平方向画，即

17、绘制水平方向的树形图，系统默认绘制垂直方向的树形图。3.例题我们以多元统计分析中一个经典的数据作为例子，这是Fisher分析过的鸢尾花数据，有三种不同鸢尾花（Setosa、Versicolor、Virginica），种类信息存入了变量SPECIES，并对每一种测量了50棵植株的花瓣长（PETALLEN）、花瓣宽（PETALWID）、花萼长（SEPALLEN）、花萼宽（SEPALWID）。这个数据已知分类，并不属于聚类分析的研究范围。这里我们为了示例，假装不知道样本的分类情况（既不知道类数也不知道每一个观测属于的类别），用SAS去进行聚类分析，如果得到的类数和分类结果符合真实的植物分类，我们就可

18、以知道聚类分析产生了好的结果。这里我们假定数据已输入SASUSER.IRIS中（见系统帮助菜单的“Sample Programs | SAS/STAT | Documentation Example 3 from Proc Cluster”）。为了进行谱系聚类并产生帮助确定类数的统计量，编写如下程序：proc cluster data=sasuser.iris method=ward outtree=otree pseudo ccc;var petallen petalwid sepallen sepalwid;copy species;run;可以显示如下的聚类过程（节略）： T Pseud

19、o Pseudo i NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC F t*2 e 149 OB16 OB76 2 0.000000 1.0000 . . . . 148 OB2 OB58 2 0.000007 1.0000 . . 1854.1 . T147 OB96 OB107 2 0.000007 1.0000 . . 1400.1 . T 146 OB89 OB113 2 0.000007 1.0000 . . 1253.1 . T 145 OB65 OB126 2 0.000007 1.0000 . . 1182.9 . T 25 CL5

20、0 OB57 7 0.000634 0.9824 0.973335 6.446 291.0 5.6 24 CL78 CL62 7 0.000742 0.9817 0.972254 6.430 293.5 9.8 23 CL68 CL38 9 0.000805 0.9809 0.971101 6.404 296.0 6.9 22 CL30 OB137 6 0.000896 0.9800 0.969868 6.352 298.3 5.1 21 CL70 CL33 4 0.000976 0.9790 0.968545 6.290 300.7 3.2 20 CL36 OB25 10 0.001087

21、0.9779 0.967119 6.206 302.9 9.8 19 CL40 CL22 19 0.001141 0.9768 0.965579 6.146 306.1 7.7 18 CL25 CL39 10 0.001249 0.9755 0.963906 6.082 309.5 6.2 17 CL29 CL45 16 0.001351 0.9742 0.962081 6.026 313.5 8.2 16 CL34 CL32 15 0.001462 0.9727 0.960079 5.984 318.4 9.0 15 CL24 CL28 15 0.001641 0.9711 0.957871

22、 5.929 323.7 9.8 14 CL21 CL53 7 0.001873 0.9692 0.955418 5.850 329.2 5.1 13 CL18 CL48 15 0.002271 0.9669 0.952670 5.690 333.8 8.9 12 CL16 CL23 24 0.002274 0.9647 0.949541 4.632 342.4 9.6 11 CL14 CL43 12 0.002500 0.9622 0.945886 4.675 353.3 5.8 10 CL26 CL20 22 0.002694 0.9595 0.941547 4.811 368.1 12.

23、9 9 CL27 CL17 31 0.003060 0.9564 0.936296 5.018 386.6 17.8 8 CL35 CL15 23 0.003095 0.9533 0.929791 5.443 414.1 13.8 7 CL10 CL47 26 0.005811 0.9475 0.921496 5.426 430.1 19.1 6 CL8 CL13 38 0.006042 0.9414 0.910514 5.806 463.1 16.3 5 CL9 CL19 50 0.010532 0.9309 0.895232 5.817 488.5 43.2 4 CL12 CL11 36

24、0.017245 0.9137 0.872331 3.987 515.1 41.0 3 CL6 CL7 64 0.030051 0.8836 0.826664 4.329 558.1 57.2 2 CL4 CL3 100 0.111026 0.7726 0.696871 3.833 502.8 115.6 1 CL5 CL2 150 0.772595 0.0000 0.000000 0.000 . 502.8伪F图形 CCC图形伪图形半偏图形输出结果列出了把150个观测每次合并两类，共合并149次的过程。NCL列指定了聚类水平G （即这一步存在的单独的类数）。“-Clusters Joi

25、ned-”为两列，指明这一步合并了哪两个类。其中OBxxx表示原始观测，而CLxxx表示在某一个聚类水平上产生的类。比如，NCL为149时合并的是OB16和OB76，即16 号观测和76号观测合并；NCL为1（最后一次合并）合并的是CL5和CL2，即类水平为5时得到的类和类水平为2时得到的类合并，CL5又是由CL9和CL19合并得到的，CL2是由CL4和CL3合并得到的，等等。FREQ表示这次合并得到的类中有多少个观测。SPRSQ是半偏，RSQ是，ERSQ是在均匀零假设下的的近似期望值，CCC为CCC统计量，Pseudo F 为伪F统计量，Pseudo t*2为伪统计量，Norm RM

26、S Dist是正规化的两类元素间距离的均方根，Tie指示距离最小的候选类对是否有多对。因为我们假装不知道数据的实际分类情况，所以我们必须找到一个合理的分类个数。为此，考察CCC、伪F、伪和半偏统计量。我们打开ASSIST模块，调入上面产生的OTREE数据集，绘制各统计量的图形。因为类水平太大时的信息没有多少用处，所以我们用WHERE语句对OTREE数据集取其类水平不超过30的观测。各统计量的图形显示：CCC统计量建议取5类或3类（局部最大值），伪F建议3类（局部最大值），伪建议3类（局部最大值处是不应合并的，即局部最大值处的类数加1），半偏建议3类。由这些指标看，比较一致的是3类，其次

27、是5类。为了看为什么不能明显地分为三类，我们对四个变量求主分量，画出前两个主分量的散点图。可以看出Setosa（红色）与其它两类分得很开，而Versicolor（绿色）与Virginica（蓝色）则不易分开。因为我们知道要分成3类，所以我们用如下的TREE过程绘制树形图并产生分类结果数据集：proc tree data=otree horizontal nclusters=3 out=oclust;copy species;run;树形图因为观测过多所以显得杂乱。从图中也可以看出，分为两类可以分得很开，而分成三类时距离则不够远。这个TREE过程用NCLUSTERS=3指定了分成3个类，结果数

28、据集OCLUST中有一个CLUSTER变量代表生成的分类。我们把这个数据集调入ASSIST模块中用不同颜色代表SPECIES（实际种类），用不同符号代表不同聚类过程分类，作前两个主分量散点图。可以看出， Virsicolor和Virginica两类互相都有分错为对方的。为了统计分类结果，可以用ASSIST模块FREQ过程作表，得到如下结果： SPECIES(Species) CLUSTERFrequency | 1| 2| 3| Total-+-+-+-+Setosa | 0 | 0 | 50 | 50-+-+-+-+Versicolor | 49 | 1 | 0 | 50-+-+-+-+Vi

29、rginica | 15 | 35 | 0 | 50-+-+-+-+Total 64 36 50 150可见Virginica被分错的较多。第五节聚类分析的相关文章分析从中国期刊网上检索与聚类分析有关的文章。登陆河北经贸大学的主页，点击“图书馆”，点击“中国期刊网”，下载并安装CAJ浏览器；在“检索词”栏目里输入“聚类分析”，在“检索项”栏选择“关键词”，然后点击“跨库检索”，用聚类分析方法写的文章被检索出来，我们可以打开看到文章的全文。推荐文章：1.朱晶，用统计分析方法对区域经济状况进行分类比较研究，鞍山师范学院学报，1999.92.夏应存，我国各地农民家庭消费结构分析，数理统计与管理，

30、1995.1补充内容：SAS程序简单运行样例：假设我们有一个班学生的数学成绩和语文成绩，数学满分为100，语文满分为120，希望计算学生的平均分数（按百分制）并按此排名，可以在程序窗口输入此程序：title 95级1班学生成绩排名;data c9501; input name $ 1-10 sex $ math chinese; avg = math*0.5 + chinese/120*100*0.5; cards;李明男 92 98张红艺女 89 106王思明男 86 90张聪男 98 109刘颍女 80 110;run;proc print;run;proc sort data=c9501; by descending avg;run;proc print;run;要运行此程序，只要用鼠标单击工具栏的提交图标，或用Locals菜单的Submit命令。运行后，运行记录窗口出现如下内

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？