多元统计分析教案.docx
《多元统计分析教案.docx》由会员分享,可在线阅读,更多相关《多元统计分析教案.docx(75页珍藏版)》请在冰豆网上搜索。
多元统计分析教案
课时编号
多元统计分析(1--2)
课目名称
绪论和基本知识
授课时间
2005.9
授课班级
数学03(1-2班)
统计03(1-2班)
教学目的
通过本章的教学应使学生对多元统计分析课程有一个概括的认识。
了解多元正态分布,多元数据的特征以及图表示法。
重点与难点
多元统计分析的概念及它能解决哪些类型的实际问题。
多元正态分布的定义,多元数据的特征以及图表示法。
课堂教学设计
采用课堂讲授与学生自学相结合的教学方法,使学生掌握多元统计
分析的概念,多元统计分析的起源和发展,并举例说明多元统计分析能
解决的实际问题。
讲解多元正态分布的定义,多元数据的特征以及图表
示法。
使学生了解多元统计分析课程的主要教学内容和教学安排,以及作
业﹑考试的内容及方式。
参考书目
1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,1999
2﹑王学民,应用多元分析,上海财经大学出版社,1999
教案实施效果追记
第一章绪论
一﹑多元统计分析的概念
多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。
利用多元分析中不同的方法还可以对研究对象进行分类和简化。
多元分析是实现做定量分析的有效工具。
二﹑多元分析的起源和发展
1.1928年,Wishart发表《多元正态总体样本协差阵的精确分布》,是多元统计分析
的开端;
2.20世纪30年代多元分析在理论上得到迅速发展;
3.20世纪40年代应用于心理、教育、生物等方面;但由于计算量太大,其发展受到
影响;
4.50年代中期,由于电子计算机的出现和发展,使多元分析方法得到广泛应用;
5.60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;
6.多元统计分析在我国发展较晚,70年代初在我国才受到各个领域的极大关注,应用日益广泛。
三﹑多元分析能解决的实际问题
多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。
四﹑多元分析课程讲授的主要内容
本课程重点介绍多元分析中常用的六种方法:
聚类分析判别分析
主成分分析因子分析
对应分析典型相关分析
我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS与SPSS软件实现上述过程,对所研究的问题能做出合理推断和科学评价。
五﹑作业﹑考试内容及方式
平时作业类型:
上机操作,论文;
期末考试:
3000字左右的课程论文;上机处理题;
考试范围涵盖所讲的各种方法以及相关的英文帮助信息。
【思考题】
1﹑什么是多元统计分析?
2﹑多元统计分析能解决哪些类型的实际问题?
第二章基本知识
一﹑多元正态分布的定义
如同一元统计分析中一元正态分布的重要地位一样,多元正态分布在多元统计分析分析中占有重要的地位,因为多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。
在实用中遇到的随机向量常常是服从正态分析或近似正态分布。
因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。
多元正态分布是一元正态分布的推广,多元分析中的很多统计方法,大都假定数据来自多元正态总体,但要判断已有的一批数据是否来自多元正态总体,并不是一件容易的事。
可是反过来要肯定数据不是来自多元正态总体,我们可对各个分量做正态检验,如果各个分量不服从一元正态分布,我们可以断定这批数据不服从多元正态分布。
二﹑多元分析处理的数据特征
1.多元样本中的每个样品,P个指标值往往是有相关关系的,但不同样品之间是相互独立的。
2.多元分析处理的多元样本观测数据一般是横截面数据,即在同一时间横截面上的数据,它不考虑时间因素,即这些数据不是按时间顺序排列的。
三﹑多元数据图表示法
图形有助于对所研究数据的直观了解,如果能把一些多元数据直接显示在平面图上,便可从图形一目了然地看出多元数据之间的关系,当只有一、二维数据时,可以使用通常的直角坐标系在平面上点图。
当只有三维数据时,虽然可以在三维坐标系里点图,但已经很不方便;当维数大于3时,用通常的方法已经不能点图。
在许多实际问题中,多元数据的维数都大于3,如何在平面上来表示多元数据成为备受关注的问题。
多元数据的图表示法分为两类:
1.使高维空间的点与平面上的某种图形对应,这种图形能反映高维数据的某些特点或数据间的某些关系,如本章介绍的轮廓图、雷达图、调和曲线图、星座图等;
2.在尽可能多的保留原数据信息的原则下进行降维,若能使数据维数降至2或1,则可在平面上点图,如主成分法、因子分析法等。
【思考题】
1﹑什么是多元正态分布?
2﹑多元统计分析分析的数据有何特征?
3﹑多员数据的图表示法有哪几类?
课时编号
多元统计分析(3--8)
课目名称
聚类分析
授课时间
2005.9
授课班级
数学03(1-2班)
统计03(1-2班)
教学目的
通过本章的教学应使学生了解聚类分析的原理和作用,了解聚类分析中常用的距离和相似系数以及它们各自的特点及适用范围。
掌握系统聚类法,能够应用系统聚类法解决实际数据分析问题。
重点与难点
系统聚类法的原理和作用;
系统聚类法的微机实现;
用系统聚类法如何解决实际数据分析问题。
课堂教学设计
以讲授和多媒体演示为主,讲授以下内容:
一、聚类分析的原理和作用;
二、聚类分析中常用的距离和相似系数;
三、系统聚类法的原理和作用;
四、系统聚类法的微机实现(SAS和SPSS);
五、用多媒体演示如何用系统聚类法解决实际数据分析问题。
参考书目
1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,1999
2﹑王学民,应用多元分析,上海财经大学出版社,1999
3﹑卫海英,SPSS10.0forWindows在经济管理中的应用,中国统计出版社,2001
4﹑卢纹岱,SPSSforWindows统计分析,电子工业出版社,2001
5﹑谭浩强,SAS/PC统计分析软件实用技术,国防工业出版社,1996
6﹑胡良平,WindowsSAS6.12&8.0实用统计分析教程,军事医学科学出版社,2001
7﹑SAS系统使用手册(8.2版本)
8﹑SPSS系统使用手册(11.5版本)
教案实施效果追记
第三章聚类分析
第一节什么是聚类分析
一﹑聚类分析的概念
聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。
其中类指相似元素的集合。
二﹑聚类分析的基本思想
认为所研究的样品或指标之间存在着程度不同的相似性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。
第二节距离与相似系数
聚类分析的目的是将研究对象进行分类。
它是在事先不知类别的情况下对数据进行分类的分析方法。
分类的依据有两类:
距离与相似系数。
常用的距离有以下几种:
1﹑明考夫斯基距离
2﹑绝对距离
3﹑欧氏距离
4﹑切比雪夫距离
5﹑马氏距离
6﹑兰氏距离
常用的相似系数有以下几种:
1﹑夹角余弦
2﹑相关系数
聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q型聚类分析)以及对变量进行聚类(又称R型聚类分析)。
对前者聚类多用距离,而后者聚类时多用相似系数。
第三节系统聚类法
一﹑系统聚类法的基本思路
首先,将n个样品看成n类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。
二﹑八种系统聚类方法
正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。
类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法﹑最长距离法﹑类平均法﹑重心法﹑WARD法等八种不同的方法,但这些方法聚类的步骤是完全一样的。
当采用欧氏距离时,八种并类方法可归结为统一的递推公式。
三﹑谱系图及利用谱系图进行分类
根据谱系图确定分类个数的准则:
Bemirmen于1972年提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分析的准则。
准则A:
各类重心之间的距离必须很大;
准则B:
确定的类中,各类所包含的元素都不要太多;
准则C:
类的个数必须符合实用目的;
准则D:
若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。
应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标准,也就是说对任何观测数据都没有唯一正确的分类方法。
第四节聚类分析的微机实现
一﹑系统聚类分析在SPSS中的实现
在SPSS主菜单中选择Analyze→Classify→HierarchicalCluster,可实现系统聚类分析。
二﹑系统聚类分析在SAS中的实现
在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现聚类分析。
SAS/STAT模块中的Cluster过程可实现系统聚类分析,可调用Tree过程生成聚类谱系图。
1.CLUSTER过程的一般格式为:
PROCCLUSTERDATA=输入数据集METHOD=聚类方法选项;
VAR聚类用变量;
COPY复制变量;
RUN;
其中的VAR语句指定用来聚类的变量。
COPY语句把指定的变量复制到OUTTREE=的数据集中。
PROCCLUSTER语句的主要选项有:
(1)METHOD=选项,这是必须指定的,此选项决定我们要用的聚类方法,主要由类间距离定义决定。
方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法还要额外指定密度估计方法(K=、R=或HYBRID)。
(2)DATA=输入数据集,可以是原始观测数据集,也可以是距离矩阵数据集。
(3)OUTTREE=输出数据集,把绘制谱系聚类树的信息输出到一个数据集,可以用TREE过程调用此数据集绘图树形图并实际分类。
(4)STANDARD选项,把变量标准化为均值为0,标准差为1。
(5)PSEUDO选项和CCC选项。
PSEUDO选项要求计算伪F和伪
统计量,CCC选项要求计算
、半偏
和CCC统计量。
其中CCC统计量也是一种考察聚类效果的统计量,CCC较大的聚类水平是较好的。
2.TREE过程用法
TREE过程可以把CLUSTER过程产生的OUTTREE=数据集作为输入数据集,画出谱系聚类的树形图,并按照用户指定的聚类水平(类数)产生分类结果数据集。
其一般格式如下:
PROCTREEDATA=数据集OUT=输出数据集NCLUSTER=类数选项;
COPY复制变量;
RUN;
其中COPY语句把输入数据集中的变量复制到输出数据集(实际上这些变量也必须在CLUSTER过程中用COPY语句复制到OUTTREE=数据集)。
PROCTREE语句的重要选项有:
(1)DATA=数据集,指定从CLUSTER过程生成的OUTTREE=数据集作为输入数据集。
(2)OUT=数据集,指定包含最后分类结果(每一个观测属于哪一类,用一个CLUSTER变量区分)的输出数据集。
(3)NCLUSTERS=选项,由用户指定最后把样本观测分为多少个类(即聚类水平)。
(4)HORIZONTAL,画树形图时沿水平方向画,即绘制水平方向的树形图,系统默认绘制垂直方向的树形图。
3.例题
我们以多元统计分析中一个经典的数据作为例子,这是Fisher分析过的鸢尾花数据,有三种不同鸢尾花(Setosa、Versicolor、Virginica),种类信息存入了变量SPECIES,并对每一种测量了50棵植株的花瓣长(PETALLEN)、花瓣宽(PETALWID)、花萼长(SEPALLEN)、花萼宽(SEPALWID)。
这个数据已知分类,并不属于聚类分析的研究范围。
这里我们为了示例,假装不知道样本的分类情况(既不知道类数也不知道每一个观测属于的类别),用SAS去进行聚类分析,如果得到的类数和分类结果符合真实的植物分类,我们就可以知道聚类分析产生了好的结果。
这里我们假定数据已输入SASUSER.IRIS中(见系统帮助菜单的“SamplePrograms|SAS/STAT|DocumentationExample3fromProcCluster”)。
为了进行谱系聚类并产生帮助确定类数的统计量,编写如下程序:
procclusterdata=sasuser.irismethod=wardouttree=otreepseudoccc;
varpetallenpetalwidsepallensepalwid;
copyspecies;
run;
可以显示如下的聚类过程(节略):
∙T
∙PseudoPseudoi
NCL-ClustersJoined-FREQSPRSQRSQERSQCCCFt**2e
149OB16OB7620.0000001.0000....
148OB2OB5820.0000071.0000..1854.1.T
147OB96OB10720.0000071.0000..1400.1.T
146OB89OB11320.0000071.0000..1253.1.T
145OB65OB12620.0000071.0000..1182.9.T
………………………………………………………………………………………………………
25CL50OB5770.0006340.98240.9733356.446291.05.6
24CL78CL6270.0007420.98170.9722546.430293.59.8
23CL68CL3890.0008050.98090.9711016.404296.06.9
22CL30OB13760.0008960.98000.9698686.352298.35.1
21CL70CL3340.0009760.97900.9685456.290300.73.2
20CL36OB25100.0010870.97790.9671196.206302.99.8
19CL40CL22190.0011410.97680.9655796.146306.17.7
18CL25CL39100.0012490.97550.9639066.082309.56.2
17CL29CL45160.0013510.97420.9620816.026313.58.2
16CL34CL32150.0014620.97270.9600795.984318.49.0
15CL24CL28150.0016410.97110.9578715.929323.79.8
14CL21CL5370.0018730.96920.9554185.850329.25.1
13CL18CL48150.0022710.96690.9526705.690333.88.9
12CL16CL23240.0022740.96470.9495414.632342.49.6
11CL14CL43120.0025000.96220.9458864.675353.35.8
10CL26CL20220.0026940.95950.9415474.811368.112.9
9CL27CL17310.0030600.95640.9362965.018386.617.8
8CL35CL15230.0030950.95330.9297915.443414.113.8
7CL10CL47260.0058110.94750.9214965.426430.119.1
6CL8CL13380.0060420.94140.9105145.806463.116.3
5CL9CL19500.0105320.93090.8952325.817488.543.2
4CL12CL11360.0172450.91370.8723313.987515.141.0
3CL6CL7640.0300510.88360.8266644.329558.157.2
2CL4CL31000.1110260.77260.6968713.833502.8115.6
1CL5CL21500.7725950.00000.0000000.000.502.8
伪F图形
CCC图形
伪
图形
半偏
图形
输出结果列出了把150个观测每次合并两类,共合并149次的过程。
NCL列指定了聚类水平G(即这一步存在的单独的类数)。
“-ClustersJoined-”为两列,指明这一步合并了哪两个类。
其中OBxxx表示原始观测,而CLxxx表示在某一个聚类水平上产生的类。
比如,NCL为149时合并的是OB16和OB76,即16号观测和76号观测合并;NCL为1(最后一次合并)合并的是CL5和CL2,即类水平为5时得到的类和类水平为2时得到的类合并,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的,等等。
FREQ表示这次合并得到的类中有多少个观测。
SPRSQ是半偏
,RSQ是
,ERSQ是在均匀零假设下的
的近似期望值,CCC为CCC统计量,PseudoF为伪F统计量,Pseudot**2为伪
统计量,NormRMSDist是正规化的两类元素间距离的均方根,Tie指示距离最小的候选类对是否有多对。
因为我们假装不知道数据的实际分类情况,所以我们必须找到一个合理的分类个数。
为此,考察CCC、伪F、伪
和半偏
统计量。
我们打开ASSIST模块,调入上面产生的OTREE数据集,绘制各统计量的图形。
因为类水平太大时的信息没有多少用处,所以我们用WHERE语句对OTREE数据集取其类水平不超过30的观测。
各统计量的图形显示:
CCC统计量建议取5类或3类(局部最大值),伪F建议3类(局部最大值),伪
建议3类(局部最大值处是不应合并的,即局部最大值处的类数加1),半偏
建议3类。
由这些指标看,比较一致的是3类,其次是5类。
为了看为什么不能明显地分为三类,我们对四个变量求主分量,画出前两个主分量的散点图。
可以看出Setosa(红色)与其它两类分得很开,而Versicolor(绿色)与Virginica(蓝色)则不易分开。
因为我们知道要分成3类,所以我们用如下的TREE过程绘制树形图并产生分类结果数据集:
proctreedata=otreehorizontalnclusters=3out=oclust;
copyspecies;
run;
树形图因为观测过多所以显得杂乱。
从图中也可以看出,分为两类可以分得很开,而分成三类时距离则不够远。
这个TREE过程用NCLUSTERS=3指定了分成3个类,结果数据集OCLUST中有一个CLUSTER变量代表生成的分类。
我们把这个数据集调入ASSIST模块中用不同颜色代表SPECIES(实际种类),用不同符号代表不同聚类过程分类,作前两个主分量散点图。
可以看出,Virsicolor和Virginica两类互相都有分错为对方的。
为了统计分类结果,可以用ASSIST模块FREQ过程作表,得到如下结果:
SPECIES(Species)CLUSTER
Frequency|1|2|3|Total
-----------+--------+--------+--------+
Setosa|0|0|50|50
-----------+--------+--------+--------+
Versicolor|49|1|0|50
-----------+--------+--------+--------+
Virginica|15|35|0|50
-----------+--------+--------+--------+
Total643650150
可见Virginica被分错的较多。
第五节聚类分析的相关文章分析
从中国期刊网上检索与聚类分析有关的文章。
登陆河北经贸大学的主页,点击“图书馆”,点击“中国期刊网”,下载并安装CAJ浏览器;在“检索词”栏目里输入“聚类分析”,在“检索项”栏选择“关键词”,然后点击“跨库检索”,用聚类分析方法写的文章被检索出来,我们可以打开看到文章的全文。
推荐文章:
1.朱晶,用统计分析方法对区域经济状况进行分类比较研究,鞍山师范学院学报,1999.9
2.夏应存,我国各地农民家庭消费结构分析,数理统计与管理,1995.1
补充内容:
SAS程序简单运行样例:
假设我们有一个班学生的数学成绩和语文成绩,数学满分为100,语文满分为120,希望计算学生的平均分数(按百分制)并按此排名,可以在程序窗口输入此程序:
title'95级1班学生成绩排名';
datac9501;
inputname$1-10sex$mathchinese;
avg=math*0.5+chinese/120*100*0.5;
cards;
李明男9298
张红艺女89106
王思明男8690
张聪男98109
刘颍女80110
;
run;
procprint;run;
procsortdata=c9501;
bydescendingavg;
run;
procprint;run;
要运行此程序,只要用鼠标单击工具栏的提交图标
,或用Locals菜单的Submit命令。
运行后,运行记录窗口出现如下内容:
50title'95级1班学生成绩排名';
51datac9501;
52inputname$1-10sex$m