应用多元统计分析习题解答聚类分析Word格式.docx

上传人:b****3 文档编号:13534840 上传时间:2022-10-11 格式:DOCX 页数:24 大小:459.19KB
下载 相关 举报
应用多元统计分析习题解答聚类分析Word格式.docx_第1页
第1页 / 共24页
应用多元统计分析习题解答聚类分析Word格式.docx_第2页
第2页 / 共24页
应用多元统计分析习题解答聚类分析Word格式.docx_第3页
第3页 / 共24页
应用多元统计分析习题解答聚类分析Word格式.docx_第4页
第4页 / 共24页
应用多元统计分析习题解答聚类分析Word格式.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

应用多元统计分析习题解答聚类分析Word格式.docx

《应用多元统计分析习题解答聚类分析Word格式.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析习题解答聚类分析Word格式.docx(24页珍藏版)》请在冰豆网上搜索。

应用多元统计分析习题解答聚类分析Word格式.docx

对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。

将变量看作p维空间的向量,一般用

(一)夹角余弦

 

(二)相关系数

5.4在进行系统聚类时,不同类间距离计算方法有何区别?

选择距离公式应遵循哪些原则?

设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。

(1).最短距离法

(2)最长距离法

(3)中间距离法

其中

(4)重心法

(5)类平均法

(6)可变类平均法

其中β是可变的且β<

1

(7)可变法

其中β是可变的且β<

(8)离差平方和法

通常选择距离公式应注意遵循以下的基本原则:

(1)要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的空间距离概念。

马氏距离有消除量纲影响的作用。

(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。

(3)要考虑研究对象的特点和计算量的大小。

样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。

实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。

5.5试述K均值法与系统聚类法的异同。

相同:

K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。

不同:

系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。

具体类数的确定,离不开实践经验的积累;

有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。

5.6试述K均值法与系统聚类有何区别?

试述有序聚类法的基本思想。

K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。

具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。

有序聚类就是解决样品的次序不能变动时的聚类分析问题。

如果用表示个有序的样品,则每一类必须是这样的形式,即,其中且,简记为。

在同一类中的样品是次序相邻的。

一般的步骤是

(1)计算直径{D(i,j)}。

(2)计算最小分类损失函数{L[p(l,k)]}。

(3)确定分类个数k。

(4)最优分类。

5.7检测某类产品的重量,抽了六个样品,每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。

(1)用最短距离法进行聚类分析。

采用绝对值距离,计算样品间距离阵

0

10

210

5430

87630

1098520

由上表易知中最小元素是于是将,,聚为一类,记为

计算距离阵

30

630

8520

中最小元素是=2于是将,聚为一类,记为

计算样本距离阵

30

630

中最小元素是于是将,聚为一类,记为

因此,

(2)用重心法进行聚类分析

计算样品间平方距离阵

410

251690

64493690

10081642540

易知中最小元素是于是将,,聚为一类,记为

160

4990

812540

注:

计算方法,其他以此类推。

中最小元素是=4于是将,聚为一类,记为

160

64160

5.8下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法分别对这些公司进行聚类,并对结果进行比较分析。

公司

编号

净资产收益率

每股净利润

总资产周转率

资产负债率

流动负债比率

每股净资产

净利润增长率

总资产增长率

11.09

0.21

0.05

96.98

70.53

1.86

-44.04

81.99

2

11.96

0.59

0.74

51.78

90.73

4.95

7.02

16.11

3

0.03

181.99

100

-2.98

103.33

21.18

4

11.58

0.13

0.17

46.07

92.18

1.14

6.55

-56.32

5

-6.19

-0.09

43.3

82.24

1.52

-1713.5

-3.36

6

10

0.47

0.48

68.4

86

4.7

-11.56

0.85

7

10.49

0.11

0.35

82.98

99.87

1.02

100.23

30.32

8

11.12

-1.69

0.12

132.14

-0.66

-4454.39

-62.75

9

3.41

0.04

0.2

67.86

98.51

1.25

-11.25

-11.43

1.16

0.01

0.54

43.7

1.03

-87.18

-7.41

11

30.22

0.16

0.4

87.36

94.88

0.53

729.41

-9.97

12

8.19

0.22

0.38

30.31

2.73

-12.31

-2.77

13

95.79

-5.2

0.5

252.34

99.34

-5.42

-9816.52

-46.82

14

16.55

0.93

72.31

84.05

2.14

115.95

123.41

15

-24.18

-1.16

0.79

56.26

97.8

4.81

-533.89

-27.74

解:

令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下:

a)系统聚类法:

1.在SPSS窗口中选择Analyze→Classify→HierachicalCluster,调出系统聚类分析主界面,并将变量移入Variables框中。

在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。

在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

图5.1系统分析法主界面

2.点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。

我们选择Agglomerationschedule与ClusterMembership中的Rangeofsolution2-4,如图5.2所示,点击Continue按钮,返回主界面。

(其中,Agglomerationschedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;

Proximitymatrix表示输出各个体之间的距离矩阵;

ClusterMembership表示在结果中输出一个表,表中显示每个个体被分配到的类别,Rangeofsolution2-4即将所有个体分为2至4类。

3.点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。

选中Dendrogram复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。

单击Continue按钮,返回主界面。

图5.2Statistics子对话框图5.3 Plots子对话框

4.点击Method按钮,设置系统聚类的方法选项。

ClusterMethod下拉列表用于指定聚类的方法,这里选择Between-groupinkage(组间平均数连接距离);

Measure栏用于选择对距离和相似性的测度方法,选择SquaredEuclideandistance(欧氏距离);

图5.4Method子对话框图5.5Save子对话框

5.点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。

None表示不保存任何新变量;

Singlesolution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;

Rangeofsolutions表示生成多个分类变量。

这里我们选择Rangeofsolutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。

点击Continue,返回主界面。

6.点击OK按钮,运行系统聚类过程。

聚类结果分析:

下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;

若分为3类,则公司8分离出来,自成一类。

以此类推。

表5.1各样品所属类别表

图5.6聚类树形图

b)K均值法的步骤如下:

1.在SPSS窗口中选择Analyze→Classify→K-MeansCluster,调出K均值聚类分析主界面,并将变量X1-X8移入Variables框中。

在Method框中选择Iterateclassify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classifyonly,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。

在NumberofCluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将15个公司分为3类。

(Centers按钮,则用于设置迭代的初始类中心。

如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。

图5.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1