应用多元统计分析习题解答聚类分析.docx

资源描述

应用多元统计分析习题解答聚类分析.docx

《应用多元统计分析习题解答聚类分析.docx》由会员分享，可在线阅读，更多相关《应用多元统计分析习题解答聚类分析.docx（24页珍藏版）》请在冰豆网上搜索。

应用多元统计分析习题解答聚类分析.docx

应用多元统计分析习题解答聚类分析

第五章聚类分析

5.1判别分析和聚类分析有何区别？

答：

即根据一定的判别准则，判定一个样本归属于哪一类。

具体而言，设有n个样本，对每个样本测得p项指标（变量）的数据，已知每个样本属于k个类别（或总体）中的某一类，通过找出一个最优的划分，使得不同类别的样本尽可能地区别开，并判别该样本属于哪个总体。

聚类分析是分析如何对样品（或变量）进行量化分类的问题。

在聚类之前，我们并不知道总体，而是通过一次次的聚类，使相近的样品（或变量）聚合形成总体。

通俗来讲，判别分析是在已知有多少类及是什么类的情况下进行分类，而聚类分析是在不知道类的情况下进行分类。

5.2试述系统聚类的基本思想。

答：

系统聚类的基本思想是：

距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

5.3对样品和变量进行聚类分析时，所构造的统计量分别是什么？

简要说明为什么这样构造？

答：

对样品进行聚类分析时，用距离来测定样品之间的相似程度。

因为我们把n个样本看作p维空间的n个点。

点之间的距离即可代表样品间的相似度。

常用的距离为

（一）闵可夫斯基距离：

q取不同值，分为

（1）绝对距离（）

（2）欧氏距离（）

（3）切比雪夫距离（）

（二）马氏距离

（三）兰氏距离

对变量的相似性，我们更多地要了解变量的变化趋势或变化方向，因此用相关性进行衡量。

将变量看作p维空间的向量，一般用

（一）夹角余弦

（二）相关系数

5.4在进行系统聚类时，不同类间距离计算方法有何区别？

选择距离公式应遵循哪些原则？

答：

设dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj之间的距离。

（1）.最短距离法

（2）最长距离法

（3）中间距离法

其中

（4）重心法

（5）类平均法

（6）可变类平均法

其中β是可变的且β<1

（7）可变法

其中β是可变的且β<1

（8）离差平方和法

通常选择距离公式应注意遵循以下的基本原则：

（1）要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的空间距离概念。

马氏距离有消除量纲影响的作用。

（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。

（3）要考虑研究对象的特点和计算量的大小。

样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。

实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。

5.5试述K均值法与系统聚类法的异同。

答：

相同：

K—均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的。

不同：

系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。

具体类数的确定，离不开实践经验的积累；有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K—均值法确定类数的参考。

5.6试述K均值法与系统聚类有何区别？

试述有序聚类法的基本思想。

答：

K均值法的基本思想是将每一个样品分配给最近中心（均值）的类中。

系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。

具体类数的确定，有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K均值法确定类数的参考。

有序聚类就是解决样品的次序不能变动时的聚类分析问题。

如果用表示个有序的样品，则每一类必须是这样的形式，即，其中且，简记为。

在同一类中的样品是次序相邻的。

一般的步骤是

（1）计算直径{D（i,j）}。

（2）计算最小分类损失函数{L[p（l,k）]}。

（3）确定分类个数k。

（4）最优分类。

5.7检测某类产品的重量，抽了六个样品，每个样品只测了一个指标，分别为1，2，3，6，9，11.试用最短距离法，重心法进行聚类分析。

（1）用最短距离法进行聚类分析。

采用绝对值距离，计算样品间距离阵

210

5430

87630

1098520

由上表易知中最小元素是于是将，，聚为一类，记为

计算距离阵

630

8520

中最小元素是=2于是将，聚为一类，记为

计算样本距离阵

630

中最小元素是于是将，聚为一类，记为

因此，

（2）用重心法进行聚类分析

计算样品间平方距离阵

410

251690

64493690

10081642540

易知中最小元素是于是将，，聚为一类，记为

计算距离阵

160

4990

812540

注：

计算方法,其他以此类推。

中最小元素是=4于是将，聚为一类，记为

计算样本距离阵

160

64160

中最小元素是于是将，聚为一类，记为

因此，

5.8下表是15个上市公司2001年的一些主要财务指标，使用系统聚类法和K－均值法分别对这些公司进行聚类，并对结果进行比较分析。

公司

编号

净资产收益率

每股净利润

总资产周转率

资产负债率

流动负债比率

每股净资产

净利润增长率

总资产增长率

11.09

0.21

0.05

96.98

70.53

1.86

-44.04

81.99

11.96

0.59

0.74

51.78

90.73

4.95

7.02

16.11

0.03

181.99

100

-2.98

103.33

21.18

11.58

0.13

0.17

46.07

92.18

1.14

6.55

-56.32

-6.19

-0.09

0.03

43.3

82.24

1.52

-1713.5

-3.36

0.47

0.48

68.4

4.7

-11.56

0.85

10.49

0.11

0.35

82.98

99.87

1.02

100.23

30.32

11.12

-1.69

0.12

132.14

100

-0.66

-4454.39

-62.75

3.41

0.04

0.2

67.86

98.51

1.25

-11.25

-11.43

1.16

0.01

0.54

43.7

100

1.03

-87.18

-7.41

30.22

0.16

0.4

87.36

94.88

0.53

729.41

-9.97

8.19

0.22

0.38

30.31

100

2.73

-12.31

-2.77

95.79

-5.2

0.5

252.34

99.34

-5.42

-9816.52

-46.82

16.55

0.35

0.93

72.31

84.05

2.14

115.95

123.41

-24.18

-1.16

0.79

56.26

97.8

4.81

-533.89

-27.74

解:

令净资产收益率为X1，每股净利润X2，总资产周转率为X3，资产负债率为X4，流动负债比率为X5，每股净资产为X6，净利润增长率为X7，总资产增长率为X8，用spss对公司聚类分析的步骤如下：

a）系统聚类法:

1.在SPSS窗口中选择Analyze→Classify→HierachicalCluster，调出系统聚类分析主界面，并将变量移入Variables框中。

在Cluster栏中选择Cases单选按钮，即对样品进行聚类（若选择Variables，则对变量进行聚类）。

在Display栏中选择Statistics和Plots复选框，这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

图5.1系统分析法主界面

2.点击Statistics按钮，设置在结果输出窗口中给出的聚类分析统计量。

我们选择Agglomerationschedule与ClusterMembership中的Rangeofsolution2-4，如图5.2所示，点击Continue按钮，返回主界面。

（其中，Agglomerationschedule表示在结果中给出聚类过程表，显示系统聚类的详细步骤；Proximitymatrix表示输出各个体之间的距离矩阵；ClusterMembership表示在结果中输出一个表，表中显示每个个体被分配到的类别，Rangeofsolution2-4即将所有个体分为2至4类。

）

3.点击Plots按钮，设置结果输出窗口中给出的聚类分析统计图。

选中Dendrogram复选框和Icicle栏中的None单选按钮，如图5.3，即只给出聚类树形图，而不给出冰柱图。

单击Continue按钮，返回主界面。

图5.2Statistics子对话框图5.3　Plots子对话框

4.点击Method按钮，设置系统聚类的方法选项。

ClusterMethod下拉列表用于指定聚类的方法，这里选择Between-groupinkage（组间平均数连接距离）；Measure栏用于选择对距离和相似性的测度方法，选择SquaredEuclideandistance（欧氏距离）；单击Continue按钮，返回主界面。

图5.4Method子对话框图5.5Save子对话框

5.点击Save按钮，指定保存在数据文件中的用于表明聚类结果的新变量。

None表示不保存任何新变量；Singlesolution表示生成一个分类变量，在其后的矩形框中输入要分成的类数；Rangeofsolutions表示生成多个分类变量。

这里我们选择Rangeofsolutions，并在后面的两个矩形框中分别输入2和4，即生成三个新的分类变量，分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。

点击Continue，返回主界面。

6.点击OK按钮，运行系统聚类过程。

聚类结果分析:

下面的群集成员表给出了把公司分为2类，3类，4类时各个样本所属类别的情况，另外，从右边的树形图也可以直观地看到，若将15个公司分为2类，则13独自为一类，其余的为一类；若分为3类，则公司8分离出来，自成一类。

以此类推。

表5.1各样品所属类别表

图5.6聚类树形图

b）K均值法的步骤如下：

1.在SPSS窗口中选择Analyze→Classify→K-MeansCluster，调出K均值聚类分析主界面，并将变量X1-X8移入Variables框中。

在Method框中选择Iterateclassify，即使用K-means算法不断计算新的类中心，并替换旧的类中心（若选择Classifyonly，则根据初始类中心进行聚类，在聚类过程中不改变类中心）。

在NumberofCluster后面的矩形框中输入想要把样品聚成的类数，这里我们输入3，即将15个公司分为3类。

（Centers按钮，则用于设置迭代的初始类中心。

如果不手工设置，则系统会自动设置初始类中心，这里我们不作设置。

）

图5.

展开阅读全文