spss计算均值向量、协方差阵.ppt

资源描述

spss计算均值向量、协方差阵.ppt

《spss计算均值向量、协方差阵.ppt》由会员分享，可在线阅读，更多相关《spss计算均值向量、协方差阵.ppt（26页珍藏版）》请在冰豆网上搜索。

spss计算均值向量、协方差阵.ppt

一：

多元分布的样本均值向量的估计二：

多元分布的样本协差阵、离差阵的估计v这里给出的样本协差阵是，而不是系统聚类法v设有20个土壤样品分别对5个变量的观测数据下表所示，试利用系统聚类法对其进行样品聚类分析。

土壤样本的观测数据土壤样本的观测数据

（一）操作步骤1.在SPSS窗口中选择AnalyzeClassifyHierachicalCluster，调出系统聚类分析主界面，并将变量X1X5移入Variables框中。

在Cluster栏中选择Cases单选按钮，即对样品进行聚类（若选择Variables，则对变量进行聚类）。

在Display栏中选择Statistics和Plots复选框，这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

K均值聚类分析主界面均值聚类分析主界面2.点击Iterate按钮，对迭代参数进行设置。

MaximumIterations参数框用于设定K-means算法迭代的最大次数，ConvergenceCriterion参数框用于设定算法的收敛判据，其值应该介于0和1之间。

例如判据设置为0.02，则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时，迭代停止。

设置完这两个参数之后，只要在迭代的过程中先满足了其中的参数，则迭代过程就停止。

这里我们选择系统默认的标准。

单击Continue，返回主界面。

Iterate子对话框子对话框3.点击Save按钮，设置保存在数据文件中的表明聚类结果的新变量。

其中Clustermembership选项用于建立一个代表聚类结果的变量，默认变量名为qcl_1；Distancefromclustercenter选项建立一个新变量，代表各观测量与其所属类中心的欧氏距离。

我们将两个复选框都选中，单击Continue按钮返回。

Save子对话框子对话框4.点击Options按钮，指定要计算的统计量。

选中Initialclustercenters和Clusterinformationforeachcase复选框。

这样，在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息，包括分配到哪一类和该观测量距所属类中心的距离。

单击Continue返回。

5.点击OK按钮，运行K均值聚类分析程序。

Options子对话框子对话框

（二）主要运行结果解释1.InitialClusterCenters（给出初始类中心）2.IterationHistory（给出每次迭代结束后类中心的变动）从下表中可以看到本次聚类过程共经历了三次迭代。

由于我们在Iterate子对话框中使用系统默认的选项（最大迭代次数为10和收敛判据为0），所以在第三次迭代后，类中心的变化为0，从而迭代停止。

迭代过程中类中心的变化量迭代过程中类中心的变化量3.ClusterMembership（给出各观测量所属的类及与所属类中心的距离）下表中Cluster列给出了观测量所属的类别，Distance列给出了观测量与所属类中心的距离。

各观测量所属类成员表各观测量所属类成员表4.FinalClusterCenters（给出聚类结果形成的类中心的各变量值）最终的类中心表最终的类中心表从以上两表可以看出31个地区被分成3类。

第一类包括：

江苏、浙江、山东和广东4个省。

这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元，属于三个产业都比较发达的地区。

第二类包括：

天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区。

这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元，属于欠发达地区。

剩下的11个地区为第三类。

这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和212.87亿元，属于中等发达地区。

5.由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量，所以，在数据编辑窗口中，我们可以看到生成的两个表示分类结果的新变量。

变量qcl_1和变量qcl_2分别代表分类号和观测量距所属类中心的距离。

展开阅读全文