第8讲SPSS的多元统计分析因子分析聚类分析判别分析优质PPT.ppt

资源描述

第8讲SPSS的多元统计分析因子分析聚类分析判别分析优质PPT.ppt

《第8讲SPSS的多元统计分析因子分析聚类分析判别分析优质PPT.ppt》由会员分享，可在线阅读，更多相关《第8讲SPSS的多元统计分析因子分析聚类分析判别分析优质PPT.ppt（61页珍藏版）》请在冰豆网上搜索。

第8讲SPSS的多元统计分析因子分析聚类分析判别分析优质PPT.ppt

首先看一下本节课给出的相关数据：

本数据文件是某市民在食品、衣着、医疗保健等几个方面的消费数据。

这些指标之间存在着不同强弱的相关性。

如果单独分析这些指标，那么就很难全面的分析和了解居民消费结构的特点。

因此，我们可以考虑采用“因子分析因子分析”的方法，将这几个指标综合为少数几个因子，通过这几个因子来考察居民消费结构的变动情况。

整体分析与设计的内容u因子分析因子分析二、方法原理二、方法原理在研究实际问题的时候，往往希望尽可能的收集相关变量，以期对问题有较全面、完整的把握和认识。

例如，企业综合评价研究中，可能会收集诸如盈利能力、负债能力、运营能力等方面的经济指标数据。

这些数据在带来有关信息的同时，也给数据的分析带来了一定的困难：

这众多的变量之间可能存在着或多或少的相关性，实际观测到的数据包含的信息有一部分可能是重复的。

为了解决这些问题，最简单和最直接的办法就是减少变量数目。

但这又将导致另一个问题，即信息丢失或不完整的问题。

因此，研究人员希望能够找到一种有效的方法，既能减少参与数据分析的变量个数，同时又不会造成统计信息的大量浪费和丢失。

-“因子分析因子分析”就这样应运而生了。

因子分析就是在尽可能不损失信息或少损失信息的情况下，将多个变量减少为少数几个因子的方法，这几个因子可以高度概括大量数据中的信息。

这样，既减少了变量个数，又同样能再现变量之间的内在联系。

整体分析与设计的内容u因子分析因子分析二、方法原理二、方法原理1.因子分析的数学模型针对变量作因子分析，称为R型因子分析；

对样本个案做因子分析，称为Q型因子分析。

这两种方法有许多相似之处。

其中，R型因子分析的数学模型如下：

设原有p个变量，且每个变量（或经标准化处理后的变量）的均值为0，标准差为1.现将每个原有变量用k（k0的情况，这个距离有助于克服各指标之间量纲的影响，但没有考虑指标间的相关性。

4.相似系数n夹角余弦将任何两个样品Xi与Xj看成p纬空间的两个向量，这两个向量的夹角余弦可表达为：

取值1，说明两样品完全相似；

接近1，说明两样品相似密切；

取值0，说明两样品完全不相似；

接近0，说明两样品差别大。

整体分析与设计的内容u聚类分析聚类分析一、方法原理一、方法原理4.相似系数n相关系数聚类分析的内容非常丰富：

有序样品聚类法、动态聚类法、模糊聚类法、快速聚类法、系统聚类法等。

整体分析与设计的内容u聚类分析聚类分析二、快速聚类法二、快速聚类法1.算法原理算法原理K-均值聚类法又叫快速聚类法，可用于大量数据进行聚类分析的情形。

它是一种非分层的聚类方法，具有占用内存少、计算量大、处理速度快，特别适合大样本的聚类分析。

其具体操作步骤为：

指定聚类数目k（由用户指定）确定k个初始类的中心（用户指定；

或根据数据本身结构的中心来确定）根据距离最近原则进行分类。

（逐一计算每一记录到各个中心点的距离，把各个记录按照距离最近的原则归入各个类别，并计算新形成类别的中心点）按照新的中心位置，重新计算每一个记录距离新的类别中心点的距离，并重新进行归类重复步骤（4），直到达到一定的收敛标准整体分析与设计的内容u聚类分析聚类分析二、快速聚类法二、快速聚类法2.案例背景介绍案例背景介绍n全国人口文化程度分析深入了解全国人口的文化程度状况，是很有意义的一项工作。

本节的数据文件给出了1990年全国人口普查数据。

数据中，有三个指标：

大学以上文化程度的人口比例、初中文化程度的人口比例、文盲半文盲的人口比例。

过这些指标和具体的数据，来分析省市地区之间文化程度的差异。

这是一个典型的多元分析问题，可以考虑利用快速聚类法来分析研究省市之间的差异性。

整体分析与设计的内容u聚类分析聚类分析二、快速聚类法二、快速聚类法3.操作说明操作说明数据文件：

“全国人口文化程度.sav”菜单：

“分析分类K-均值聚类”输入分类个数，系统默认为2.本例子中，输入4.系统默认项.选择初始类中心，在迭代的过程中不断更新聚类中心。

把观测量分派到与之最近的以类中心为标志的类中去。

只使用初始类中心对观测量进行分类，聚类中心始终不变。

用户可以指定外部文件或数据作为初始聚类中心点；

也可以将聚类分析中心结果输出到指定文件或数据集中。

小技巧：

对于大数据集，可以先用小样本，迭代聚类，并通过该选项组将中心结果保存到文件或记录集；

再通过读取的方式，获得该中心，选择“仅分类”来处理大样本数据。

整体分析与设计的内容u聚类分析聚类分析二、快速聚类法二、快速聚类法3.操作说明操作说明1）“迭代”按钮：

输入迭代次数。

文本框可输入范围：

1999输入算法收敛标准，其实就是算法的精度。

该文本框输入数值是不得超过1的正数。

例如，输入0.02，则表示两次迭代计算的最小的类中心的变化距离小于初始类中心距离的2%时，迭代停止。

选择该复选框，在每个观测量被分配到一类后，立刻计算新的类中心；

若不选该复选框，则完成所有的观测量的一次分配后，再计算各类的中心，此时可节省迭代时间。

2）“保存”按钮：

在数据集中生成名为qcl_1的新变量。

其值表示聚类结果，即各观测量被分配到哪一类。

其取值可为1、2、3等。

在数据集中生成名为qcl_2的新变量。

其值表示各观测量与所属类中心的欧氏距离。

整体分析与设计的内容u聚类分析聚类分析二、快速聚类法二、快速聚类法3.操作说明操作说明3）“选项”按钮：

整体分析与设计的内容u聚类分析聚类分析二、快速聚类法二、快速聚类法4.输出分析输出分析1）初始中心表2）迭代历史表初始中心间的最小距离为13.128整体分析与设计的内容u聚类分析聚类分析二、快速聚类法二、快速聚类法4.输出分析输出分析3）分析结果列表列出了4类地区整体分析与设计的内容u聚类分析聚类分析二、快速聚类法二、快速聚类法4.输出分析输出分析4）最终聚类分析中心表5）最终聚类中心位置之间的距离与初始中心比，变化很大第一类和第二类之间的距离最大；

第一类和第三类之间的距离最短。

整体分析与设计的内容u聚类分析聚类分析二、快速聚类法二、快速聚类法4.输出分析输出分析6）方差分析表组间均方组间自由度组内均方组内自由度7）聚类数目汇总表整体分析与设计的内容u聚类分析聚类分析三、系统聚类法三、系统聚类法1.算法原理算法原理又称为层次聚类法或分层聚类法。

1）对研究对象本身进行分类，称为Q型聚类；

对研究对象的观察指标进行分类，称为R聚类。

2）根据聚类过程的不同，又分为分解法和凝聚法。

n分解法：

开始把所有个体（观测量或变量）都视为同属一大类，再根据距离和相似性逐层分解，直到参与聚类的每个个体自成一类为止。

n凝聚法：

开始把参与聚类的每个个体（观测量或变量）视为一类，根据两类之间的距离或相似性逐步合并，直到合并为一个大类为止。

系统聚类的距离公式有多种，常用的是“组间平均距离法”。

整体分析与设计的内容u聚类分析聚类分析三、系统聚类法三、系统聚类法2.案例背景案例背景要求：

要求：

不同地区信息基础设施发展状况的评价。

数据文件中给出了世界不同地区信息基础设施的发展状况。

这里选取了发达地区、新兴工业化地区、拉美地区。

亚洲发展中地区、转型地区等不同类型的20个地区的数据。

描述信息基础设施的变量主要有6个，分别为：

nCall：

每千人拥有电话线数nMovecall：

每千房居民移动电话数nFee：

高峰时期每三分钟国际电话的成本nComputer：

每千人拥有的计算机数nMips：

每千人中计算机功率（每秒百万指令）nNet：

每千人互联网络户主数根据这6个变量指标来分析地区之间的信息基础设施发展的差异,可采用系统聚类法.整体分析与设计的内容u聚类分析聚类分析三、系统聚类法三、系统聚类法3.操作操作数据文件：

”不同地区信息基础设施发展状况的评价.sav”菜单：

“分析分类系统聚类”即Q型聚类即R型聚类整体分析与设计的内容u聚类分析聚类分析三、系统聚类法三、系统聚类法3.操作操作1）“统计量”按钮：

输出显示聚类过程中每一步合并的类或观测量，反映聚类过程中每一步样品或类的合并过程。

输出相似矩阵或不相似矩阵，及其更具体的类别，取决于“方法”按钮对应的对话框中的设置。

输入大于1的整数。

例如，输入“2”，在结果窗口将显示输出聚为2类的分析结果。

表述输出样本或变量的分类数从最小值到最大值的各种分类聚类表。

最大类数值不能大于参与聚类的样本数或变量总数。

整体分析与设计的内容u聚类分析聚类分析三、系统聚类法三、系统聚类法3.操作操作2）“绘制”按钮：

输入文本框的必须是正整数。

分别是起、止步骤以及步长。

例如，输入3、9、2，则生成的冰柱图则从第3步开始，显示第3、5、7、9步的聚类情况。

注注意意：

“排序标准”标签文字翻译的不对，应该是“步长”才准确。

冰柱图的显示方向。

整体分析与设计的内容u聚类分析聚类分析三、系统聚类法三、系统聚类法3.操作操作3）“方法”按钮：

该方法合并两类的依据是使这两个类别里所有两两配对观测量的平均距离最小。

该方法合并两类的依据是使两个类别合并后的新类中，观测量的平均距离最小。

离差平方和。

聚类使得类内各样本的离差平方和最小；

类间的离差平方和尽可能大。

适合于等间隔测度的连续性变量。

下拉列表中可选择距离测度方法。

适合于字数变量（离散变量），下拉列表中可选择不相似性测度的方法。

选择标准化方法。

把相似性值变为不相似性或相反整体分析与设计的内容u聚类分析聚类分析三、系统聚类法三、系统聚类法3.操作操作4）“保存”按钮：

保存指定聚类个数时的分类结果。

文本框的值必须是大于1的正数，且小于等于参与聚类的观测量个数和变量个数。

文本框中输入最小聚类数目和最大聚类数目，表示分别生成样本或变量的分类数从最小值到最大值的各种分类聚类变量。

例如，输入“4”和“6”，表示在聚类结束后，在原数据集中将会增加3个变量，分别表明分为4类、5类和6类时的聚类结果，即分别为4、5、6类时各分析对象分别属于哪一类。

整体分析与设计的内容u聚类分析聚类分析三、系统聚类法三、系统聚类法4.输出分析输出分析1）聚类过程表步骤序号第二列和第三列，给出了某一步骤中哪些地区参与了合并。

例如，第一步中，第十个样品和第十二个样品，首先被合并在一起。

每一步的聚类系数。

可根据这个系数来判断数据应该被分为多少类，当两个相邻步骤的系数变化远大于前面相邻步骤变化时，即可大致确定应该将聚类过程进行到哪里的类别数是较为合适的。

（主要是参考作用）第五列和第六列，表示参与合并的类是在第几步第一次出现。

0代表该记录是第一次出现在聚类过程中。

标识出：

该步骤合并的类别，下一次将在第几步中出现，与其他类再进行合并。

整体分析与设计的内容u聚类分析聚类分析三、系统聚类法三、系统聚类法4.输出分析输出分析2）聚类分析结果表3）树形图聚类结果分

展开阅读全文