应用多元统计分析习题解答聚类分析.docx

资源描述

应用多元统计分析习题解答聚类分析.docx

《应用多元统计分析习题解答聚类分析.docx》由会员分享，可在线阅读，更多相关《应用多元统计分析习题解答聚类分析.docx（18页珍藏版）》请在冰豆网上搜索。

应用多元统计分析习题解答聚类分析.docx

应用多元统计分析习题解答聚类分析

海量资源，欢迎共阅

第五章聚类分析

5.1判别分析和聚类分析有何区别？

答：

即根据一定的判别准则，判定一个样本归属于哪一类。

具体而言，设有n个样本，对每个样本测得p项指标（变量）的数据，已知每个样本属于k个类别（或总体）中的某一类，通过找出一个最优的划分，使得不同类别的样本尽可能地区别开，并判别该样本属于哪个总体。

聚类分析是分析如何对样品（或变量）进行量化分类的问题。

在聚类之前，我们并不知道总体，而是通过一次次的聚类，使相近的样品（或变量）聚合形成总体。

通俗来讲，判别分析是在已知有多少类及是什么类的情况下进行分类，而聚类分析是在不知道类的情况下进行分类。

5.2试述系统聚类的基本思想。

答：

系统聚类的基本思想是：

距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

5.3对样品和变量进行聚类分析时，所构造的统计量分别是什么？

简要说明为什么这样构造？

答：

对样品进行聚类分析时，用距离来测定样品之间的相似程度。

因为我们把n个样本看作p维空间的n个点。

点之间的距离即可代表样品间的相似度。

常用的距离为

pq1/q

（一）闵可夫斯基距离：

dij（q）（XikXjk）

海量资源，欢迎共阅

q取不同值，分为

（1）绝对距离（q1）

（2）欧氏距离（q2）

（3）切比雪夫距离（q）

（二）马氏距离

（三）兰氏距离

对变量的相似性，我们更多地要了解变量的变化趋势或变化方向，因此用相关性进行衡量。

将变量看作p维空间的向量，一般用

（一）夹角余弦

（二）相关系数

5.4在进行系统聚类时，不同类间距离计算方法有何区别？

选择距离公式应遵循哪些原则？

答：

设dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj之间的距离。

（1）.最短距离法

（2）最长距离法

（3）中间距离法

Dk2r12Dk2p21Dk2qDp2q

其中

（4）重心法

（5）类平均法

（6）可变类平均法

Dk2r

（1）（npDk2pnqDk2q）D2pq

nrnr

海量资源，欢迎共阅其中是可变的且<1

（7）可变法

Dk2r12（Dk2pDk2q）Dp2q其中是可变的且<1

（8）离差平方和法

通常选择距离公式应注意遵循以下的基本原则：

（1）要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的空间距离概念。

马氏距离有消除量纲影响的作用。

（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。

（3）要考虑研究对象的特点和计算量的大小。

样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。

实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。

5.5试述K均值法与系统聚类法的异同。

答：

相同：

K—均值法和系统聚类法一样，都是以距离的远近亲疏为海量资源，欢迎共阅

标准进行聚类的。

不同：

系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。

具体类数的确定，离不开实践经验的积累；有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K—均值法确定类数的参考。

5.6试述K均值法与系统聚类有何区别？

试述有序聚类法的基本思想。

答：

K均值法的基本思想是将每一个样品分配给最近中心（均值）的类中。

系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。

具体类数的确定，有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K均值法确定类数的参考。

有序聚类就是解决样品的次序不能变动时的聚类分析问题。

如果用X

（1）,X

（2）,,X（n）表示n个有序的样品，则每一类必须是这样的形式，即X（i）,X（i1）,,X（j），其中1in,且jn，简记为Gi{i,i1,,j}。

在同一类中的样品是次序相邻的。

一般的步骤是

（1）计算直径{D（i,j）}。

（2）计算最小分类损失函数{L[p（l,k）]}。

（3）确定分类个数k。

（4）最优分类。

5.7检测某类产品的重量，抽了六个样品，每个样品只测了一个指标，分别为1，2，3，6，9，11.试用最短距离法，重心法进行聚类分析。

（1）用最短距离法进行聚类分析。

海量资源，欢迎共阅采用绝对值距离，计算样品间距离阵

210

5430

87630

1098520

由上表易知中最小元素是于是将，，聚为一类，记为

计算距离阵

630

8520

中最小元素是=2于是将，聚为一类，记为计算样本距离阵

630

海量资源，欢迎共阅

中最小元素是

于是将，聚为一类，记为

因此，

2）用重心法进行聚类分析

计算样品间平方距离阵

410

251690

64493690

10081642540

易知

中最小元素是

聚

为一类，记为

计算距离阵

160

4990

812540

海量资源，欢迎共阅

注：

计算方法

其他以此类推

中最小元素是=4于是将，聚为一类，记为

计算样本距离阵

160

64160

中最小元素是于是将，聚为一类，记为

因此，

5.8下表是15个上市公司2001年的一些主要财务指标，使用系统聚类法和K－均值法分别对这些公司进行聚类，并对结果进行比较分析

公司

净资产

每股净

总资产

资产负

流动负

每股净

净利润

总资产

编号

收益率

利润

周转率

债率

债比率

资产

增长率

11.09

0.21

0.05

96.98

70.53

1.86

-44.04

81.99

11.96

0.59

0.74

51.78

90.73

4.95

7.02

16.11

0.03

181.99

100

-2.98

103.33

21.18

11.58

0.13

0.17

46.07

92.18

1.14

6.55

-56.32

-6.19

-0.09

0.03

43.3

82.24

1.52

-1713.5

-3.36

0.47

0.48

68.4

4.7

-11.56

0.85

10.49

0.11

0.35

82.98

99.87

1.02

100.23

30.32

11.12

-1.69

0.12

132.14

100

-0.66

-4454.39

-62.75

3.41

0.04

0.2

67.86

98.51

1.25

-11.25

-11.43

1.16

0.01

0.54

43.7

100

1.03

-87.18

-7.41

30.22

0.16

0.4

87.36

94.88

0.53

729.41

-9.97

8.19

0.22

0.38

30.31

100

2.73

-12.31

-2.77

95.79

-5.2

0.5

252.34

99.34

-5.42

-9816.52

-46.82

16.55

0.35

0.93

72.31

84.05

2.14

115.95

123.41

-24.18

-1.16

0.79

56.26

97.8

4.81

-533.89

-27.74

解:

令净资产收益率为X1，每股净利润X2，总资产周转率为X3，资

海量资源，欢迎共阅

产负债率为X4，流动负债比率为X5，每股净资产为X6，净利润增长率为X7，总资产增长率为X8，用spss对公司聚类分析的步骤如下：

a）系统聚类法:

1.在SPSS窗口中选择Analyze→Classify→HierachicalCluster，调出系统聚类分析主界面，并将变量X1-X8移入Variables框中。

在Cluster栏中选择Cases单选按钮，即对样品进行聚类（若选择Variables，则对变量进行聚类）。

在Display栏中选择Statistics和Plots复选框，这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

图5.1系统分析法主界面

2.点击Statistics按钮，设置在结果输出窗口中给出的聚类分析统计量。

我们选择Agglomerationschedule与ClusterMembership中的Rangeofsolution2-4，如图5.2所示，点击Continue按钮，返回主界面。

（其中，Agglomerationschedule表示在结果中给出聚类过程表，显示系统聚类的详细步骤；Proximitymatrix表示输出各个体之间的距离矩阵；ClusterMembership表示在结果中输出一个表，表中显示每个个体被分配到的类别，Rangeofsolution2-4即将所有个体分为2至4类。

）

3.点击Plots按钮，设置结果输出窗口中给出的聚类分析统计图。

选中Dendrogram复选框和Icicle栏中的None单选按钮，如图5.3，即只给出聚类树形图，而不给出冰柱图。

单击Continue按钮，返回主界面。

图5.2Statistics子对话框图5.3Plots子对话框

4.点击Method按钮，设置系统聚类的方法选项。

ClusterMethod下拉列表海量资源，欢迎共阅

用于指定聚类的方法，这里选择Between-groupinkage（组间平均数连接距离）；Measure栏用于选择对距离和相似性的测度方法，选择SquaredEuclideandistance（欧氏距离）；单击Continue按钮，返回主界面。

图5.4Method子对话框图5.5Save子对话框

5.点击Save按钮，指定保存在数据文件中的用于表明聚类结果的新变量。

None表示不保存任何新变量；Singlesolution表示生成一个分类变量，在其后的矩形框中输入要分成的类数；Rangeofsolutions表示生成多个分类变量。

这里我们选择Rangeofsolutions，并在后面的两个矩形框中分别输入2和4，即生成三个新的分类变量，分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。

点击Continue，返回主界面。

6.点击OK按钮，运行系统聚类过程。

聚类结果分析:

下面的群集成员表给出了把公司分为2类，3类，4类时各个样本所属类别的情况，另外，从右边的树形图也可以直观地看到，若将15个公司分为2类，则13独自为一类，其余的为一类；若分为3类，则公司8分离出来，自成一类。

以此类推。

表5.1各样品所属类别表

图5.6聚类树形图

b）K均值法的步骤如下：

1.在SPSS窗口中选择Analyze→Classify→K-MeansCluster，调出K均值

聚类分析主界面，并将变量X1-X8移入Variables框中。

在Method框中

海量资源，欢迎共阅

选择Iterateclassify，即使用K-means算法不断计算新的类中心，并替换旧的类中心（若选择Classifyonly，则根据初始类中心进行聚类，在聚类过程中不改变类中心）。

在NumberofCluster后面的矩形框中输入想要把样品聚成的类数，这里我们输入3，即将15个公司分为3类。

（Centers按钮，则用于设置迭代的初始类中心。

如果不手工设置，则系统会自动设置初始类中心，这里我们不作设置。

）

图5.7K均值聚类分析主界面

2.点击Iterate按钮，对迭代参数进行设置。

MaximumIterations参数框用于设定K-means算法迭代的最大次数，输入10，ConvergenceCriterion参数框用于设定算法的收敛判据，输入0，只要在迭代的过程中先满足了其中的参数，则迭代过程就停止。

单击Continue，返回主界面。

图5.8Iterate子对话框

3.点击Save按钮，设置保存在数据文件中的表明聚类结果的新变量。

我们将两个复选框都选中，其中Clustermembership选项用于建立一个代表聚类结果的变量，默认变量名为qcl_1；Distancefromclustercenter选项建立一个新变量，代表各观测量与其所属类中心的欧氏距离。

单击Continue按钮返回。

图5.9Save子对话框

4.点击Options按钮，指定要计算的统计量。

选中Initialclustercenters和Clusterinformationforeachcase复选框。

这样，在输出窗口中将给出聚类的初始类中心和每个公司的分类信息，包括分配到哪一类和该公司距所属类中心的距离。

单击Continue返回

海量资源，欢迎共阅

图5.10Options子对话框

5.点击OK按钮，运行K均值聚类分析程序。

聚类结果分析:

以下三表给出了各公司所属的类及其与所属类中心的距离，聚类形成的类的中心的各变量值以及各类的公司数。

由以上表格可得公司13与公司8各自成一类，其余的公司为一类。

通过比较可知，两种聚类方法得到的聚类结果完全一致。

5.9下表是某年我国16个地区农民支出情况的抽样调查数据，每个地区调查了反映每人平均生活消费支出情况的六个经济指标。

试通过统计分析软件用不同的方法进行系统聚类分析，并比较何种方法与人

们观察到的实际情况较接近

地区

食品

衣着

燃料

住房

交通和通讯

娱乐教

育文化

北京

190.33

43.77

9.73

60.54

49.01

9.04

天津

135.2

36.4

10.47

44.16

36.49

3.94

河北

95.21

22.83

9.3

22.44

22.81

2.8

山西

104.78

25.11

6.4

9.89

18.17

3.25

内蒙

128.41

27.63

8.94

12.58

23.99

2.27

辽宁

145.68

32.83

17.79

27.29

39.09

3.47

吉林

159.37

33.38

18.37

11.81

25.29

5.22

黑龙江

116.22

29.57

13.24

13.76

21.75

6.04

上海

221.11

38.64

12.53

115.65

50.82

5.89

江苏

144.98

29.12

11.67

42.6

27.3

5.74

浙江

169.92

32.75

12.72

47.12

34.35

安徽

135.11

23.09

15.62

23.54

18.18

6.39

福建

144.92

21.26

16.96

19.52

21.75

6.73

江西

140.54

21.5

17.64

19.19

15.97

4.94

山东

115.84

30.26

12.2

33.6

33.77

3.85

河南

101.18

23.26

8.46

20.2

20.5

4.3

解:

令食品支出为X1，衣着支出为X2，燃料支出为X3，住房支出为

X4，交通和通讯支出为X5，娱乐教育文化支出为X6，用spss对16各地区聚类分析的步骤如5.8题，不同的方法在第4个步骤的海量资源，欢迎共阅

Method子对话框中选择不同的Clustermethod。

1.Between-groupinkage（组间平均数连接距离）

上表给出了把全国16个地区分为2类、3类和4类时，各地区所属的类别，另外从右边的树形图也可以直观地观察到，若用组间平均数连接距离将这些地区分为3类，则9（上海）独自为一类，1（北京）和11（浙江）为一类，剩余地区为一类。

2.Within-grouplinkage（组内平均连接距离）若用组内平均数连接距离将这些地区分为3类，则9（上海）独自为一类，1（北京）独自为一类，剩余地区为一类。

3.Nearestneighbor（最短距离法）

若用最短距离法将这些地区分为3类，则9（上海）独自为一类，1（北京）独自为一类，剩余地区为一类。

4.Furthestneighbor（最远距离法）

若用最远距离法将这些地区分为3类，则9（上海）独自为一类，1（北京）和11（浙江）为一类，剩余地区为一类。

5.Centroidcluster（重心法）

若用重心法将这些地区分为3类，则9（上海）独自为一类，1（北京）和11（浙江）为一类，剩余地区为一类。

6.Mediancluster（中位数距离）

若用中位数距离法将这些地区分为3类，则9（上海）独自为一类，1（北京）和11（浙江）为一类，剩余地区为一类。

7.Wardmethod（离差平方和）

海量资源，欢迎共阅

若用离差平方和法将这些地区分为3类，则9（上海），1（北京）和11（浙江）为一类，2（天津）、6（辽宁）、7（吉林）、10（江苏）、12（安徽）、13（福建）和14（江西）为一类，剩余地区为一类。

5.10根据上题数据通过SPSS统计分析软件进行快速聚类运算，并与

系统聚类分析结果进行比较

解：

快速聚类运算即K均值法聚类，具体步骤同5.8，聚类结果如下：

聚类的结果为9（上海）独自为一类，1（北京）、2（天津）、6（辽宁）、7（吉林）、10（江苏）、11（浙江）、13（福建）和14（江西）为一类，剩余地区为一类。

5.11下表是2003年我国省会城市和计划单列市的主要经济指标：

人均GDPx1（元）、人均工业产值x2（元）、客运总量x3（万人）、货运总量x4（万吨）、地方财政预算内收入x5（亿元）、固定资产投资总额x6（亿元）、在岗职工占总人口的比例x7（％）、在岗职工人均工资额x8（元）、城乡居民年底储蓄余额x9（亿元）。

试通过统计分析软件进行系统聚类分析，并比较何种方法与人们观察到的实际情况较接近。

城市

北京

31886

33168

30520

30671

593

2000

37.8

25312

6441

天津

26433

43732

3507

34679

205

934

18.8

18648

1825

石家庄

15134

13159

11843

10008

416

9.5

12306

1044

太原

15752

15831

2975

15248

197

22.8

12679

660

呼和浩特

18991

11257

3508

4155

182

13.5

14116

255

沈阳

23268

15446

6612

14636

557

14.8

14961

1423

大连

29145

27615

11001

21081

111

407

14.7

17560

1310

长春

18630

21045

6999

10892

294

12.5

13870

831

哈尔滨

14825

7561

6458

9518

423

17.7

12451

1154

上海

46586

77083

7212

63861

899

2274

21.0

27305

6055

南京

27547

43853

16790

14805

136

794

15.4

22190

1134

杭州

32667

49823

21349

16815

150

717

11.8

24667

1466

宁波

32543

47904

24938

13797

139

555

10.9

23691

1060

合肥

10621

11714

6034

4641

245

8.3

13901

359

福州

22281

21310

9680

8250

376

11.8

15053

876

厦门

53590

93126

4441

3055

238

38.6

19024

397

南昌

14221

9205

5728

4454

210

11.0

13913

483

济南

23437

22634

5810

14354

429

13.5

16027

758

青岛

24705

35506

14666

30553

120

548

14.5

15335

908

郑州

16674

14023

10709

7847

373

12.7

13538

1048

武汉

21278

17083

11882

16610

623

17.4

13730

1286

海量资源，欢迎共阅

长沙

15446

8873

10609

10631

434

10.0

16987

705

广州

48220

55404

29751

28859

275

1089

25.1

28805

3727

深圳

191838

347519

10989

6793

291

875

69.6

31053

2199

南宁

8176

3390

7016

5893

170

8.3

13171

451

海口

16442

14553

13284

3304

16.5

14819

284

重庆

7190

5076

58290

32450

162

1187

6.5

12440

1897

成都

17914

9289

72793

28798

展开阅读全文