多元统计分析及spss实现_精品文档.ppt

资源描述

多元统计分析及spss实现_精品文档.ppt

《多元统计分析及spss实现_精品文档.ppt》由会员分享，可在线阅读，更多相关《多元统计分析及spss实现_精品文档.ppt（135页珍藏版）》请在冰豆网上搜索。

多元统计分析及spss实现_精品文档.ppt

多元统计分析及spss实现,数理部任铭,多元统计分析方法从研究问题的角度可以分为不同的类，相应有具体解决问题的方法。

多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。

本讲重点介绍常用的统计方法。

这些方法包括聚类分析、主成分分析、因子分析、判别分析、对应分析、典型相关分析、方差分析、回归分析等。

典型统计赛题：

葡萄酒评价（2012年A题）,葡萄酒评价（2012年A题）,内容提纲,1、数据处理2、描述性统计3、聚类分析4、主成分分析5、因子分析6、判别分析7、方差分析8、回归分析,一、数据处理,SPSS界面介绍建立数据文件制图,一、数据处理SPSS界面介绍,数据编辑窗口,一、数据处理SPSS界面介绍,结果编辑窗口,一、数据处理建立数据文件,定义变量数据录入数据文件的保存数据编辑调用其它数据文件,一、数据处理建立数据文件：

定义变量,单击数据编辑窗口左下方的“VariableView”标签或双击题头（Var），进入变量定义窗口。

可定义：

变量名（Name）变量类型（Type）变量长度（Width）小数点位数（Decimal）变量标签（Label）变量值标签（Values）缺失值的定义方式（Missing）变量的显示宽度（Columns）变量显示的对齐方式（Align）变量的测量尺度（Measure）,一、数据处理建立数据文件：

定义变量,定义变量名（Name）时，应注意：

（1）变量名可为汉字或英文，英文的第一个字符必须为字母，后面可跟任意字母、数字、句点或、#、_、$等；

（2）变量名不能以句点结尾；（3）定义时应避免最后一个字符为下划线“_”（因为某些过程运行时自动创建的变量名的最后一个字符有可能为下划线）；（4）变量的长度一般不能超过8个字符；（5）每个变量名必须保证是唯一的，不区分大小写。

常用的变量类型（Type）包括：

数值型、字符串型、日期格式变量等。

一、数据处理建立数据文件：

数据录入,直接录入调入数据：

excel、记事本等,一、数据处理建立数据文件：

保存,选择“File”菜单的“Save”命令，可直接保存为SPSS默认的数据文件格式（*.sav）。

选择“File”菜单的“SaveAs”命令，弹出“SaveDataAs”对话框，可选择保存为Excel（*.xls）等文件格式。

一、数据处理建立数据文件：

数据编辑,

（1）数据的排序：

数据排序个案数据排列变量

（2）数据的转置：

数据转置分割文件、重组、选择个案等,一、数据处理制图,主要通过“Graph”菜单中的选项来创建图形,二、描述性统计,例2.1：

数据2.1给出了员工代码、性别、起始薪金、当前薪金等信息：

1.利用频率计算当前薪金的描述性统计量，并绘制带正态检验的直方图；2.利用探索性分析不同性别员工当前薪金情况；3.用比率分析比较不同性别员工的薪金增长率是否有较大差异；4.用P-P图和Q-Q图检验当前薪金是否符合正态分布,二、描述性统计,1.利用频率计算当前薪金的描述性统计量，并绘制带正态检验的直方图,二、描述性统计,1.利用频率计算当前薪金的描述性统计量，并绘制带正态检验的直方图,二、描述性统计,2.利用探索性分析不同性别员工当前薪金情况,单击“分割文件”按钮，将“性别”指定为分组方式，选中“比较组”，单击“确定”分析描述统计描述，将“当前薪金”指定为变量，单击“选项”按钮，选中所需统计量，单击“继续”，单击“确定”分析描述统计探索，将“当前薪金”指定为因变量，将“性别”指定为因子，单击“绘制”，选定“直方图”，单击“继续”，单击“确定”,二、描述性统计,2.利用探索性分析不同性别员工当前薪金情况,p值小于0.05，通过正态性检验，即认为当前薪金分布服从正态分布,二、描述性统计,3.用比率分析比较不同性别员工的薪金增长率是否有较大差异,分析描述统计比率，将“当前薪金”指定为分子，将“起始薪金”指定为分母，将“性别”指定为组变量，单击“统计量”，选中：

均值、置信区间、AAD、PRD、COD，单击“继续”，单击“确定”,二、描述性统计,3.用比率分析比较不同性别员工的薪金增长率是否有较大差异,二、描述性统计,4.用P-P图和Q-Q图检验当前薪金是否符合正态分布,Q-Q图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图.要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.用QQ图还可获得样本偏度和峰度的粗略信息.P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。

通过P-P图可以检验数据是否符合指定的分布。

当数据符合指定分布时，P-P图中各点近似呈一条直线。

如果P-P图中各点不呈直线，但有一定规律，可以对变量数据进行转换，使转换后的数据更接近指定分布。

P-P图和Q-Q图的用途完全相同，只是检验方法存在差异,聚类分析就是分析如何对样品（或变量）进行量化分类的问题。

通常聚类分析分为Q型聚类和R型聚类。

Q型聚类是对样品进行分类处理；R型聚类是对变量进行分类处理。

三、聚类分析聚类分析的概念及分类,在聚类之前，要首先分析样品（变量）间的相似性。

样品相似性度量（距离）：

即两个样品间相似程度就可用p维空间中的两点距离公式来度量。

变量相似性度量（夹角余弦、相关系数）相对于数据的大小，我们更关心变量的方向及相关性,三、聚类分析相似性度量,三、聚类分析相似性度量,几种距离,三、聚类分析相似性度量,三、聚类分析相似性度量,3距离选择的原则,一般说来，同一批数据采用不同的距离公式，会得到不同的分类结果。

产生不同结果的原因，主要是由于不同的距离公式的侧重点和实际意义都有不同。

因此我们在进行聚类分析时，应注意距离公式的选择。

通常选择距离公式应注意遵循以下的基本原则：

（1）要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的空间距离概念。

马氏距离有消除量纲影响的作用。

（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。

（3）要考虑研究对象的特点和计算量的大小。

样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。

实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。

三、聚类分析相似性度量,无论是夹角余弦还是相关系数，它们的绝对值都小于1，作为变量近似性的度量工具，我们把它们统记为cij。

当cij=1时，说明变量Xi与Xj完全相似；当cij近似于1时，说明变量Xi与Xj非常密切；当cij=0时，说明变量Xi与Xj完全不一样；当cij近似于0时，说明变量Xi与Xj差别很大。

据此，我们把比较相似的变量聚为一类，把不太相似的变量归到不同的类内。

在实际聚类过程中，为了计算方便，我们把变量间相似性的度量公式作一个变换为dij=1cij或者dij2=1cij2来表示变量间的距离远近，小则先聚成一类，这比较符合人们的一般思维习惯。

三、聚类分析相似性度量,A）系统聚类法B）K均值聚类法,三、聚类分析常见聚类方法,A）系统聚类法系统聚类的基本思想是：

距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

系统聚类过程是：

假设总共有n个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有n类；第二步根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其它的样品（或变量）仍各自聚为一类，共聚成n1类；第三步将“距离”最近的两个类进一步聚成一类，共聚成n2类；，以上步骤一直进行下去，最后将所有的样品（或变量）全聚成一类。

为了直观地反映以上的系统聚类过程，可以把整个分类系统画成一张谱系图。

所以有时系统聚类也称为谱系分析。

三、聚类分析常见聚类方法,系统聚类法与聚类步骤流程图,初始分类：

若与距离最小,合并为一类,no,输出分类结果,B）K均值聚类系统聚类法需要计算出不同样品或变量的距离，还要在聚类的每一步都要计算“类间距离”，相应的计算量自然比较大；特别是当样本的容量很大时，需要占据非常大的计算机内存空间，这给应用带来一定的困难。

而K均值法是一种快速聚类法，采用该方法得到的结果比较简单易懂，对计算机的性能要求不高，因此应用也比较广泛。

K均值法是麦奎因（MacQueen，1967）提出的，这种算法的基本思想是将每一个样品分配给最近中心（均值）的类中，具体的算法至少包括以下三个步骤：

1将所有的样品分成K个初始类；2通过欧氏距离将某个样品划入离中心最近的类中，并对获得样品与失去样品的类，重新计算中心坐标；3重复步骤2，直到所有的样品都不能再分配时为止。

三、聚类分析常见聚类方法,K-均值聚类法步骤流程图,Matlab聚类分析工具箱：

cluster,三、聚类分析Matlab聚类分析工具箱,三、聚类分析SPSS实现,例3.1：

（数据3.1）已知全国31个省市的城市小康水平衡量指标值，现要分析各省市城市水平情况及相似程度，采用聚类分析法将31个省市分为3类，并用判别分析法分析城市水平划分所依据的主要变量，并验证聚类分析所划分类别是否合理。

三、聚类分析SPSS实现,三、聚类分析SPSS实现,三、聚类分析SPSS实现,四、主成分分析主要目的,多元统计分析处理的是多变量（多指标）问题。

由于变量较多，增加了分析问题的复杂性。

但在实际问题中，变量之间可能存在一定的相关性，因此，多变量中可能存在信息的重叠。

人们自然希望通过克服相关性、重叠性，用较少的变量来代替原来较多的变量，而这种代替可以反映原来多个变量的大部分信息，这实际上是一种“降维”的思想。

主成分分析的数学模型是，设p个变量构成的p维随机向量为X=（X1，Xp）。

对X作正交变换，令Y=TX，其中T为正交阵，要求Y的各分量是不相关的，并且Y的第一个分量的方差是最大的，第二个分量的方差次之，等等。

为了保持信息不丢失，Y的各分量方差和与X的各分量方差和相等。

四、主成分分析数学模型,四、主成分分析主成分的性质,四、主成分分析累计贡献率,四、主成分分析具体步骤,四、主成分分析综合评价,四、主成分分析SPSS实现,例4.1：

（数据4.1）汽车参数，用主成分分析和因子分析方法处理该数据。

四、主成分分析SPSS实现,四、主成分分析SPSS实现,该表给出了主成分分析从每个变量提取的信息，可以看出，所有变量都提取了70%以上的信息。

四、主成分分析SPSS实现,该表为各主成分解释原始变量总方差的情况，默认保留了特征值大于1的主成分，前两个主成分累积解释了82.057%的方差，效果比较好。

四、主成分分析SPSS实现,该表为成分矩阵，即主成分与标准化原始变量之间相关系数矩阵；标准化原始变量可用所得主成分近似线性表示，同时0.8642+（-0.351）2=0.869即第一个变量被提取的信息的比例。

第一列数据的平方和为第1主成分的特征值。

四、主成分分析SPSS实现,本例分析从相关矩阵出发求主成分，该表中的系数为将原始变量标准化后表示主成分的系数。

标准化主成分1=0.158X引擎+0.131X马力+（-0.154）X油耗,五、因子分析,因子分析（factoranalysis）也是一种降维、简化数据的技术。

它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个“抽象”的变量来表示其基本的数据结构。

这几个抽象的变量被称作“因子”，能反映原来众多变量的主要信息。

原始的变量是可观测的显在变量，而因子一般是不可观测的潜在变量。

例如，在商业企业的形象评价中，消费者可以通过一系列指标构成的一个评价指标体系，评价百货商场的各个方面的优劣。

但消费者真正关心的只是三个方面：

商店的环境、商店的服务和商品的价格。

这三个方面除了价格外，商店的环境和服务质量，都是客观存在的、抽象的影响因素，都不便于直接测量，只能通

展开阅读全文