多元统计分析教案.docx
《多元统计分析教案.docx》由会员分享,可在线阅读,更多相关《多元统计分析教案.docx(22页珍藏版)》请在冰豆网上搜索。
![多元统计分析教案.docx](https://file1.bdocx.com/fileroot1/2022-10/12/15050b2d-cf1b-44c5-8c68-6ac448e04731/15050b2d-cf1b-44c5-8c68-6ac448e047311.gif)
多元统计分析教案
-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN
多元统计分析教案
第一章绪论
1多元统计分析的概念
多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。
利用多元分析中不同的方法还可以对研究对象进行分类和简化。
多元分析是实现做定量分析的有效工具。
2多元分析的起源和发展
1)1928年,Wishart发表《多元正态总体样本协差阵的精确分布》,是多元统计分析的开端;
2)20世纪30年代多元分析在理论上得到迅速发展;
3)20世纪40年代应用于心理、教育、生物等方面;但由于计算量太大,其发展受到影响;
4)50年代中期,由于电子计算机的出现和发展,使多元分析方法得到广泛应用;
5)60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;
6)多元统计在我国发展较晚,70年代初在我国才受到各个领域的极大关注,应用日益广泛。
3多元分析能解决的实际问题
多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。
4多元分析课程讲授的主要内容
本课程重点介绍多元分析中常用的六种方法:
聚类分析;判别分析;主成分分析;因子分析;对应分析;典型相关分析
我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS、SPSS等数学软件实现上述过程,对所研究的问题能做出合理推断和科学评价。
5原始资料阵及其标准化
1)原始资料阵:
设有个样品,项指标(变量),组成矩阵
,
2)第项指标均值,
3)指标的协方差阵,其中
4)原始指标(变量)的标准化
第二章聚类分析
1什么是聚类分析
聚类分析的概念
聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。
其中类指相似元素的集合。
聚类分析的基本思想
认为所研究的样品或指标之间存在着程度不同的相似性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。
2距离与相似系数
聚类分析的目的是将研究对象进行分类。
它是在事先不知类别的情况下对数据进行分类的分析方法。
分类的依据有两类:
距离与相似系数。
变量的类型
1)间隔尺度变量:
连续量,如速度,重量等。
2)间隔尺度变量:
等级,有次序关系,如一级品、二级品等。
3)间隔尺度变量:
无等级也无数量关系,如性别,产品型号。
常用的距离有以下几种:
1)明考夫斯基距离:
2)绝对距离:
3)欧氏距离:
4)切比雪夫距离:
5)马氏距离:
,其中,为协方差阵
6)兰氏距离:
常用的相似系数有以下几种:
1)夹角余弦:
2)相关系数:
聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q型聚类分析)以及对变量进行聚类(又称R型聚类分析)。
对前者聚类多用距离,而后者聚类时多用相似系数。
3系统聚类法
系统聚类法的基本思路
就近原则:
首先,将n个样品看成n类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。
八种系统聚类方法
正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。
类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法﹑最长距离法﹑类平均法﹑重心法﹑WARD法等八种不同的方法,但这些方法聚类的步骤是完全一样的。
当采用欧氏距离时,八种并类方法可归结为统一的递推公式。
设,,,
1)最短距离法:
;
2)最长距离法:
;
3)类平均法:
;
4)WARD法(离差平方和):
;
谱系图及利用谱系图进行分类
根据谱系图确定分类个数的准则:
Bemirmen于1972年提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分析的准则。
准则A:
各类重心之间的距离必须很大;
准则B:
确定的类中,各类所包含的元素都不要太多;
准则C:
类的个数必须符合实用目的;
准则D:
若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。
应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标准,也就是说对任何观测数据都没有唯一正确的分类方法。
分类个数的确定(统计量法)
总离差平方和:
组内离差平方和:
,
统计量;,,越大聚类效果越好。
当在第类时迅速下降时,确定为类。
第三章判别分析
1什么是判别分析
判别分析的基本思想
判别分析是用于判断个体所属类别的一种统计方法。
根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。
当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。
其前提是总体均值有显着差异,否则错分率大,判别分析无意义。
判别分析与聚类分析的关系
1.2.1区别
判别分析是在研究对象分类已知的情况下,根据样本数据推导出一个或一组判别函数,同时指定一种判别准则,用于确定待判样品的所属类别,使错判率最小。
聚类分析预先不知道分类,它要解决的问题,正是对给定的未知分类的样品进行分类,它是一种纯统计技术,只要有多指标存在,就能根据各观测的变量值近似程度排序,只是描述性的统计,而判别分析能对未知分类观测判别分类,带有预测性质。
1.2.2联系
两者都是研究分类问题,两种方法往往联合起来使用。
样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。
2距离判别法
距离判别法的基本思想
如果事先已有m类的先验知识,将每一类视为一个总体,计算各样品与各总体之间的距离,将各样品分别归入与其距离最近的类。
两总体距离判别
设有两个总体、、为一样品,定义到两总体的距离分别为和
判别准则为:
判别准则的直观表述即样品离哪个总体最近,则判该样品属于哪个总体。
与上述准则等价的想法,就是算出样品到各总体间距离的差,根据差值来判断样品的归属。
多总体距离判别
设有个总体(组)、它们的均值它们的协方差阵(均为正定),为一样品,到总体的距离.
判别准则为:
分为协方差阵相同和协方差阵不同两种情况,它们的判别函数有差异,而判别准则无差异。
3费歇判别法
费歇判别法的基本思想
从类总体中抽取具有个指标的样品的观测数据,的原始资料阵,.其第个样品的观测值
借助于方差分析的思想构造一个判别函数,即,其中系数,的确定原则是使两组间的区别达到最大,而使两组内部的离差达到最小。
组间离差平方和:
,其中和依次为组内平均和总平均
组内离差平方和:
,
选择,使,由代数知的最大值,就是取的最大特征值所对应的特征向量..
判别函数
费歇准则下的线性判别函数
其中,.的解应为方程
的特征根所对应的(单位)特征向量.
,累计贡献率
第一判别式第二判别式…….第判别式
判别准则
,
其中为第判别式在的样本均值.为到前判别式在的样本均值的(欧氏)距离平方.
两个总体(组)的判别
1)判别函数,称为联合协方差阵。
2)判别规则,其中;
误判概率与误判代价
来自而误判为的概率记为;误判概率的估计,其中为的个数;为把的元素误判为的元素的个数.
来自而误判为的代价记为;特别的.
4贝叶斯判别法
贝叶斯判别法的基本思想
贝叶斯判别法是源于贝叶斯统计思想的一种判别分析法。
这种方法先假定对研究对象已有一定的认识,这种认识以先验概率来描述,然后取得一个样本,用样本来修正已有的认识,得到后验概率分布,利用后验概率分布进行统计推断。
判别规则
4.2.1后验概率最大
设有个总体(组),的概率密度;来自的(先验)概率为.
后验概率:
判别准则为:
4.2.2错判的平均损失最小
判别准则为:
5逐步判别法
从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献大的变量加入到模型中去,同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显着的变量,如果有,将其从模型中删除,直到模型中的所有变量都符合引入模型的条件,而模型外的变量都不符合引入模型的条件为止,整个过程结束。
整个筛选过程实质就是作假设检验,通过检验引入显着性变量,剔除不显着变量。
反映在输出结果上,通常可以用F值的大小作为变量引入模型的标准,即一个变量是否能进入模型主要取决于协方差分析的F检验的显着水平。
逐步判别过程本身并不建立判别函数,筛选出重要变量后,可用前面所讲的方法建立判别函数和判别准则,对新样品进行判别归类。
第四章主成分分析
1主成分分析及基本思想
主成分分析的概念
主成分分析的工作对象是样本点*定量变量类型的数据表。
主成分分析的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。
也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。
很显然,在一个低维空间分析问题要比在一个高维空间中分析容易的多。
英国统计学家斯格特(scott)在1961年对157个英国城镇发展水平进行调查时,原始测量的变量有57个。
通过主成分分析发现,只需5个新的综合变量(他们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57维降到了5维。
可以想象,在5维空间对系统进行任何分析,都比在57维中更加快捷和有效。
另一项十分着名的工作是美国的统计学家斯通(STONE)在1947年关于国民经济的研究。
他曾利用美国1929-1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴﹑消费资料和生产资料﹑纯公共支出﹑净增库存﹑股息﹑利息和外贸平衡等。
在进行主成分分析后,竟以%的精度,用3个新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新变量分别命名为总收入﹑总收入变化率和经济发展或衰退的趋势。
这样,用3个综合变量取代了原来的17个变量,问题得到了极大的简化。
一个多变量的高维系统如何进行降维处理,可以用几个最直观的例子来说明主成分分析的工作思路。
假设有一个二维数据表,表中数据点的分布如图所示,重心为g,很显然,在长轴方向上,数据的离差最大,因此,所反映的数据信息也最多,这个方向被称为数据变异的最大方向。
如果将原点平移到g,并且做旋转变换,便得到一个正交坐标系。
可以看出,若省略短轴,将数据点在长轴上投影,就会得到一个简化的一维数据系统。
因此,降维处理的核心思想,就是省却变异不大的变量方向。
又如,一个三维数据群点的分布是球形的,假若这个球是饼状的,其变异较大的方向为u1和u2,而u3方向的变异很小,即在该方向上各样本点取值没有很大的差别,就可以不考虑u3方向,三维空间的数据点就可以在二维平面图上得以显示。
达到降维的目的。
从中也可以看出主成分分析从几何上看是寻找p维空间中椭球体的主轴问题。
主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。
它是研究如何通过少数几个主成分来解释多变量的方差—协方差结构,其功能在于简化原有的变量群。
具体地说,就是设法将原来多个指标重新组合成一组新的相互无关的综合指标,来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。
这些综合指标是原来指标的