聚类分析.docx

上传人:b****5 文档编号:5368160 上传时间:2022-12-15 格式:DOCX 页数:15 大小:27.07KB
下载 相关 举报
聚类分析.docx_第1页
第1页 / 共15页
聚类分析.docx_第2页
第2页 / 共15页
聚类分析.docx_第3页
第3页 / 共15页
聚类分析.docx_第4页
第4页 / 共15页
聚类分析.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

聚类分析.docx

《聚类分析.docx》由会员分享,可在线阅读,更多相关《聚类分析.docx(15页珍藏版)》请在冰豆网上搜索。

聚类分析.docx

聚类分析

多元统计分析教学大纲

(第二次修订)

 

 

 

 

 

河北经贸大学数学与统计学学院

信息与计算科学教研室编

2003年10月

编写说明

  多元统计分析是统计学的一个重要分支。

多元统计分析方法是处理多维数据不可缺少的重要工具,随着电子计算机的普及和发展,多元统计分析方法已愈来愈多地应用于社会经济各个方面的数据分析之中。

为了规范教学,使我校的信息与计算科学专业课教学质量再上一个台阶,信息与计算科学教研室多元统计分析教学小组,在参照兄弟院校的相关课程教学大纲的基础上,修订本大纲,作为我校信息与计算科学专业教学、题库建设和教学检查的依据。

  本课程从应用的角度出发,重点讲解常用的六种多元统计分析方法:

聚类分析﹑判别分析﹑主成分分析、因子分析、对应分析和典型相关分析,对每一种分析方法要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS与SPSS软件实现上述过程,对所研究的问题能做出合理推断和科学评价。

学习本课程要求学生具有初等数理统计知识、一定的线性代数知识和计算机应用能力。

本大纲执笔人是信息与计算科学教研室陈旭红.

数学与统计学学院信息与计算科学教研室

2003年10月

 

课时分配表

章目内容课时

绪论

1

聚类分析

6

判别分析

6

主成分分析

5

因子分析

6

对应分析

5

典型相关分析

5

合计

 

34

目录

第一章绪论………………………………………………………………

(1)

第一节什么是多元统计分析…………………………………

(1)

第二节多元分析能解决的实际问题‥………………………

(1)

第二章聚类分析…………………………………………………………

(1)

第一节什么是聚类分析………………………………………

(1)

第二节距离与相似系数………………………………………

(2)

第三节系统聚类法……………………………………………

(2)

第四节聚类分析的微机实现…………………………………

(2)

第三章判别分析…………………………………………………………(3)

什么是判别分析………………………………………………(3)

距离判别法……………………………………………………(3)

费歇判别法………………………………………………………(4)

贝叶斯判别法……………………………………………………(4)

逐步判别法………………………………………………………(4)

判别分析的微机实现……………………………………………(5)

第四章主成分分析………………………………………………………(5)

主成分分析及基本思想…………………………………………(5)

主成分分析模型及几何解释……………………………………(6)

第三节主成分的计算…………………………………………(6)

第四节主成分分析的微机实现………………………………(7)

第五章因子分析…………………………………………………………(7)

因子分析及基本思想……………………………………………(7)

因子分析的数学模型…………………………………………(7)

因子载荷矩阵的求解…………………………………………(8)

因子模型的旋转………………………………………………(8)

因子得分………………………………………………………(8)

因子分析的微机实现……………………………………………(8)

第六章对应分析…………………………………………………………(9)

对应分析及其基本思想…………………………………………(9)

对应分析的基本原理…………………………………………(9)

对应分析的计算步骤…………………………………………(9)

第四节对应分析的微机实现…………………………………(10)

第七章典型相关分析…………………………………………………(10)

第一节典型相关分析及基本思想……………………………(10)

第二节典型相关分析的数学描述……………………………(11)

第三节总体的典型相关系数和典型变量……………………(11)

样本的典型相关系数和典型变量………………………………(11)

典型相关系数的显著性检验……………………………………(11)

典型相关分析的微机实现………………………………………(11)

主要参考书目……………………………………………………………(12)

第一章绪论

【教学目的与要求】通过本章的教学应使学生对多元统计分析课程有一个概括的认识。

【教学重点与难点】多元统计分析的概念及它能解决哪些类型的实际问题。

【教学方法】课堂讲授与学生自学相结合。

【教学内容】多元统计分析的概念﹑多元统计分析的起源和发展及举例说明多元统计分析能解决的实际问题。

什么是多元统计分析

一﹑多元统计分析的概念

多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。

利用多元分析中不同的方法还可以对研究对象进行分类和简化。

多元分析是实现做定量分析的有效工具。

二﹑多元分析的主要内容

本课程重点介绍多元分析中常用的六种方法:

聚类分析﹑判别分析﹑主成分分析及因子分析﹑对应分析和典型相关分析。

三﹑多元分析的起源和发展

第二节多元分析能解决的实际问题

多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。

【思考题】

1﹑什么是多元统计分析?

2﹑多元统计分析能解决哪些类型的实际问题?

第二章聚类分析

【教学目的与要求】通过本章的教学应使学生了解聚类分析的原理和作用,了解聚类分析中常用的距离和相似系数以及它们各自的特点及适用范围。

掌握系统聚类法,能够应用系统聚类法解决实际数据分析问题。

【教学重点与难点】本章的重点是系统聚类法。

【教学方法】讲授原理、多媒体演示例题和学生自学相结合。

【教学内容】聚类分析的原理和作用﹑用系统聚类法如何解决实际数据分析问题。

第一节什么是聚类分析

一﹑聚类分析的概念

聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。

其中类指相似元素的集合。

二﹑聚类分析的基本思想

认为所研究的样品或指标之间存在着程度不同的相似性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。

第二节距离与相似系数

聚类分析的目的是将研究对象进行分类。

它是在事先不知类别的情况下对数据进行分类的分析方法。

分类的依据有两类:

距离与相似系数。

常用的距离有以下几种:

1﹑明考夫斯基距离

2﹑绝对距离

3﹑欧氏距离

4﹑切比雪夫距离

5﹑马氏距离

6﹑兰氏距离

常用的相似系数有以下几种:

1﹑夹角余弦

2﹑相关系数

聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q型聚类分析)以及对变量进行聚类(又称R型聚类分析)。

对前者聚类多用距离,而后者聚类时多用相似系数。

系统聚类法

一﹑系统聚类法的基本思路

首先,将n个样品看成n类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。

二﹑八种系统聚类方法

正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。

类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法﹑最长距离法﹑类平均法﹑重心法﹑WARD法等八种不同的方法,但这些方法聚类的步骤是完全一样的。

当采用欧氏距离时,八种并类方法可归结为统一的递推公式。

三﹑谱系图及利用谱系图进行分类

第四节聚类分析的微机实现

一﹑系统聚类分析在SPSS中的实现

在SPSS主菜单中选择Analyze→Classify→HierarchicalCluster,可实现系统聚类分析。

二﹑系统聚类分析在SAS中的实现

在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现聚类分析。

SAS/STAT模块中的Cluster过程可实现系统聚类分析,可调用Tree过程生成聚类谱系图。

【思考题】

1﹑简述系统聚类法的基本思路。

2﹑写出样品间相关系数公式。

3﹑常用的距离及相似系数有哪些?

它们各有什么特点?

4﹑利用谱系图分类应注意哪些问题?

5﹑在SAS和SPSS中如何实现系统聚类分析?

第三章判别分析

【教学目的与要求】通过本章的教学应使学生了解判别分析的基本思想和几种常用判别分析方法,能够用这些方法分析解决实际问题。

【教学重点与难点】判别分析的基本思想及几种判别分析方法的实现与应用。

【教学方法】讲授原理、多媒体演示例题和学生自学相结合。

【教学内容】判别分析的基本思路和作用﹑用不同的判别分析方法如何解决实际数据分析问题。

第一节什么是判别分析

一﹑判别分析的基本思想

判别分析是用于判断个体所属类别的一种统计方法。

根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。

当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。

其前提是总体均值有显著差异,否则错分率大,判别分析无意义。

二﹑判别分析与聚类分析的关系

区别:

判别分析是在研究对象分类已知的情况下,根据样本数据推导出一个或一组判别函数,同时指定一种判别准则,用于确定待判样品的所属类别,使错判率最小。

聚类分析预先不知道分类,它要解决的问题,正是对给定的未知分类的样品进行分类,它是一种纯统计技术,只要有多指标存在,就能根据各观测的变量值近似程度排序,只是描述性的统计,而判别分析能对未知分类观测判别分类,带有预测性质。

联系:

两者都是研究分类问题,两种方法往往联合起来使用。

样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。

第二节距离判别法

一﹑距离判别法的基本思想

如果事先已有m类的先验知识,将每一类视为一个总体,计算各样品与各总体之间的距离,将各样品分别归入与其距离最近的类。

二﹑两总体距离判别

设有两个总体G1、G2,X为一样品,定义X到两总体的距离分别为d(X,G1)和d(X,G2),判别准则为:

判别准则的直观表述即样品离哪个总体最近,则判该样品属于哪个总体。

与上述准则等价的想法,就是算出样品到各总体间距离的差,根据差值来判断样品的归属。

三﹑两总体距离判别的几何意义

四﹑多总体距离判别

分为协方差阵相同和协方差阵不同两种情况,它们的判别函数有差异,而判别准则无差异。

第三节费歇判别法

一﹑费歇判别法的基本思想

从两类总体中抽取具有p个指标的样品的观测数据,借助于方差分析的思想构造一个判别函数,即y=c1x1+c2x2+…+CPXP,其中系数c1,c2,…,cp的确定原则是使两组间的区别达到最大,而使两组内部的离差达到最小。

二﹑判别函数

费歇准则下的线性判别函数

y(x)=cx的解应为方程

|B—λE|=0

的最大特征根λ1对应的特征向量ι1。

三﹑判别准则

对于待判样品,将样品的P个变量值代入判别函数中求出K个判别分Y值,比较结果大小,将样品分入最大判别值对应的组中去。

  

贝叶斯判别法

一﹑贝叶斯判别法的基本思想

贝叶斯判别法是源于贝叶斯统计思想的一种判别分析法。

这种方法先假定对研究对象已有一定的认识,这种认识以先验概率来描述,然后取得一个样本,用样本来修正已有的认识,得到后验概率分布,利用后验概率分布进行统计推断。

二﹑判别规则

1﹑后验概率最大

2﹑错判的平均损失最小

逐步判别法

从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献大的变量加入到模型中去,同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显著的变量,如果有,将其从模型中删除,直到模型中的所有变量都符合引入模型的条件,而模型外的变量都不符合引入模型的条件为止,整个过程结束。

整个筛选过程实质就是作假设检验,通过检验引入显著性变量,剔除不显著变量。

反映在输出结果上,通常可以用F值的大小作为变量引入模型的标准,即一个变量是否能进入模型主要取决于协方差分析的F检验的显著水平。

逐步判别过程本身并不建立判别函数,筛选出重要变量后,可用前面所讲的方法建立判别函数和判别准则,对新样品进行判别归类。

第六节判别分析的微机实现

一﹑判别分析在SPSS中的实现

在SPSS主菜单中选择Analyze→Classify→Discriminant,可实现判别分析。

二﹑判别分析在SAS中的实现

在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现判别分析。

SAS/STAT模块中实现判别分析的过程有:

Discrim,实现最基本的判别分析;

Candisc,将判别分析与典型相关分析相结合;

Stepdisc,逐步判别分析,是一个变量的筛选过程。

【思考题】

1﹑简述距离判别法的基本思路,图示其几何意义。

2﹑判别分析与聚类分析有何异同?

3﹑简述贝叶斯判别的基本思路。

4﹑简述费歇判别的基本思路。

5﹑简述逐步判别法的基本思想。

6﹑在SAS和SPSS软件中如何实现判别分析?

第四章主成分分析

【教学目的与要求】通过本章的教学应使学生了解主成分分析的基本原理及其作用,掌握主成分分析的方法,能够应用这一方法分析数据,解决实际问题。

【教学重点与难点】主成分分析的作用及其应用,贡献率、累计贡献率的意义及其在实际应用中的作用。

【教学方法】讲授原理、多媒体演示例题和学生自学相结合。

【教学内容】主成分分析的基本思路和作用﹑用主成分分析方法如何解决实际数据分析问题。

第一节主成分分析及基本思想

一﹑主成分分析的概念

主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。

它是研究如何通过少数几个主成分来解释多变量的方差—协方差结构,其功能在于简化原有的变量群。

具体地说,就是设法将原来多个指标重新组合成一组新的相互无关的综合指标,来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。

这些综合指标是原来指标的线性组合,我们称之为主成分。

通过这种方法可以降低数据维数,消除原始变量之间的相关性以便进一步利用其他方法对数据进行分析。

二﹑主成分分析的基本思想

各指标间既然有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出影响某一过程的几个综合指标,使综合指标为原来变量的线性组合,并使其尽可能多的反映原来指标的信息,综合指标反映的信息量用其方差来表达,即综合指标的方差越大,表示其包含的信息越多。

在所有的线性组合中方差最大的称为第一主成分,如果第一主成分不足以代表原来P个指标的信息,再选取第二个线性组合作为第二主成分,第一主成分已有的信息就不需要再出现在第二主成分中,依次可造出P个主成分。

这些主成分之间不仅不相关,而且它们的方差依次递减。

在解决实际问题时,一般不是取P个主成分,而是根据累计贡献率的大小取前几个最大主成分,既保留了原指标大部分的信息,又达到降维的目的。

第二节主成分分析模型及几何解释

一﹑主成分分析的数学模型

设原始变量为x1,x2,…,xp,考虑它们的线性变换

yi=a1ix1+a2ix2+…+apixp(i=1,2,…,p)

其中y1,y2,…,yp满足以下条件:

(1)cov(yi,yj)=0,(i≠j);

(2)D(y1)≥D(y2)≥…≥D(yp)

  即y1是x1,x2,…,xp的一切线性组合中方差最大者,y2是方差次大者,依此类推,称y1为x1,x2,…xp的第一主成分,y2为第二主成分,…,yp为第p个主成分。

二﹑主成分的几何意义

主成分分析从几何上看是寻找p维空间中椭球体的主轴问题。

第三节主成分的计算

一﹑主成分的概念

主成分其实就是原来指标的一些特殊的线性组合,这些线性组合的系数就是原指标协方差矩阵特征值所对应的特征向量。

用数学语言来描述即:

设D(X)=V,则随机向量X=(x1,x2,…,xp)ˊ的第i个主成分yi=aˊiX

(i=1,2,…,p),其中ai为V的第i大特征根λi对应的单位特征向量。

求主成分关键在于求出协方差阵V的特征向量,但实际中V是未知的,一般可用S作为V的估计求出S的特征值和特征向量作为V的特征值和特征向量的估计。

通常,在进行数据分析之前,为了消除量纲影响要先将数据进行标准化,而对于标准化数据来说,其S与R相同,故在实际中常由样本相关阵去估计V的特征值和特征向量。

二﹑贡献率和累计贡献率

贡献率即λk在特征值总和中所占的比重;累计贡献率即前m个特征值在特征值总和中所占的比重。

累计贡献率表达了前m个主成分对原始变量x1,x2,…,xp的信息提取率。

通常取k使得前k个主成分的累计贡献率达到70%至80%即可。

第四节主成分分析的微机实现

一﹑主成分分析在SPSS中的实现

在SPSS主菜单中选择Analyze→DataReduction→Factor,可借用因子分析过程实现主成分分析。

二﹑主成分分析在SAS中的实现

在SAS主菜单中选择Solutions→ASSIST→DataAnalysis→Multivariate→PrincipalComponents,可实现主成分分析。

【思考题】

1﹑主成分分析的几何意义是什么?

2﹑主成分分析的主要作用有那些?

3﹑什么是贡献率和累计贡献率,其意义何在?

4﹑为什么说贡献率和累计贡献率能反映主成分中所包含的原始变量的信息?

5﹑为什么要用标准化数据去估计V的特征向量与特征值?

6﹑证明:

对于标准化数据有S=R。

7﹑主成分分析在SAS和SPSS中如何实现?

第五章因子分析

【教学目的与要求】通过本章教学应使学生了解因子分析模型,理解因子载荷阵的统计意义,了解方差旋转的作用,掌握用因子分析模型分析研究实际问题的能力。

【教学重点与难点】本章重点是要使学生了解因子模型及因子载荷阵的统计意义,掌握因子分析的方法。

【教学方法】讲授原理、多媒体演示例题和学生自学相结合。

【教学内容】因子分析的基本思路和作用﹑因子分析的模型﹑因子载荷阵的统计意义﹑因子旋转﹑因子得分﹑用因子分析方法如何解决实际数据分析问题。

第一节因子分析及基本思想

一﹑因子分析的概念

因子分析是主成分分析的推广和发展,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

它是多元分析中一种降维和分析、简化数据结构的方法。

二﹑因子分析的基本思想

根据相关性大小把变量分组,使得同组内的变量间相关关系强,不同组的变量间相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子,可用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一变量。

第二节因子分析的数学模型

一﹑因子分析的数学模型

设X为Pⅹ1的随机向量,其均值为μ,协方差阵为V=(?

ij)pⅹp,若X能表示成为

X=μ+∧f+u

其中∧是pⅹк的未知常数矩阵,f和u为rⅹι的随机向量。

f称为公共因子。

u叫做特殊因子,∧叫做因子载荷阵。

.通常假定:

1﹑E(f)=0,D(f)=Ιк;

2﹑E(u)=0,D(u)=diag(φ12,φ22…φp2)

3﹑cov(f,u)=0

二﹑因子载荷阵的统计意义

设因子载荷阵∧=(aij),aij称为因子载荷,是连接观测变量和公共因子之间的纽带,其统计意义就是第i个变量与第j个公共因子的相关系数,即表示变量xi依赖公共因子Fj的分量,反映了第i个变量在第j个公共因子上的相对重要性。

第三节因子载荷矩阵的求解

建立因子模型的关键是要求出因子载荷矩阵,估计因子载荷矩阵的方法很多,有主成分法,极大似然法等,其中主成分法的使用较普遍。

计算因子载荷阵可以从样本的协方差阵出发,也可以从样本相关阵出发。

第四节因子模型的旋转

在因子分析模型中,公共因子与因子载荷阵的解不是唯一的。

进行因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以利于对公共因子命名和解释结果。

若每个公共因子的涵义不清,难以找到合理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其他公共因子上的载荷较小。

最常用的旋转变换是正交旋转变换。

第五节因子得分

在得到因子载荷阵和公共因子后,反过来要考察每个样品的因子表现,即通过已知的样品观察值来计算相应的公因子值,称之为因子得分。

利用因子得分可对各个样品进行评价。

第六节因子分析的微机实现

一﹑因子分析在SPSS中的实现

在SPSS主菜单中选择Analyze→DataReduction→Factor,可实现因子分析。

二﹑因子分析在SAS中的实现

在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现因子分析。

SAS/STAT模块中的Factor过程可实现因子分析。

【思考题】

1﹑因子得分模型与主成分分析模型有何不同?

2﹑因子载荷阵的统计意义是什么?

3﹑方差旋转的目的是什么?

4﹑因子分析有何作用?

5﹑因子模型与回归模型有何不同?

6﹑在SAS和SPSS中如何实现因子分析?

第六章对应分析

【教学目的与要求】通过本章的教学应使学生了解对应分析的基本思想和基本原理,掌握用对应分析法分析研究解决实际问题的方法。

【教学重点与难点】本章重点是使学生了解对应分析的基本思想,掌握对应分析的方法。

【教学方法】讲授原理、多媒体演示例题和学生自学相结合。

【教学内容】对应分析的基本思路和基本原理﹑用对应分析方法如何解决实际数据分析问题。

对应分析及其基本思想

一﹑对应分析的概念

对应分析又称为相应分析,是在R型和Q型因子分析基础上发展起来的一种多元统计方法,它从R型因子分析出发,而直接获得Q型因子分析的结果。

根据R型和Q型因子分析的内在联系,可将指标(变量)和样品同时反映到相同坐标轴(因子轴)的一张图形上,便于对问题的分析。

对应分析可提供三方面的信息即指标之间的关系,样品之间的关系,指标与样品之间的关系。

二﹑对应分析的基本思想

通过一个过渡矩阵Z将R型因子分析和Q型因子分析有机地结合起来。

首先给出变量点的协差阵A和样品点的协差阵B,由于A和B有相同的非零特征根,这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类。

第二节对应分析的基本原理

由原始资料阵X出发

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 其它模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1