第六章数据分析梅长林习题答案文档格式.docx

资源描述

第六章数据分析梅长林习题答案文档格式.docx

《第六章数据分析梅长林习题答案文档格式.docx》由会员分享，可在线阅读，更多相关《第六章数据分析梅长林习题答案文档格式.docx（18页珍藏版）》请在冰豆网上搜索。

第六章数据分析梅长林习题答案文档格式.docx

1980

362.1

1981

288.9

1982

260.0

1983

218.3

1984

141.7

1985

60.4851

1986

169.3

1987

350.2

1988

730.5

1989

890.3

1990

985.0

1991

723.8

1992

249.2

1993

484.6

1994

1475.1

1995

1086.4

1996

394.5

1997

96.1975

1998

471.9

1999

958.6

聚类结果散点图：

习题6.6

（1）在proccluster过程中取选项“method=single”,用最短距离法得到的聚类结果如下所示：

ClusterHistory

NCL

ClustersJoined

FREQ

Min

Dist

CL9

CL10

CL8

CL7

CL5

CL4

CL6

CL3

CL2

上述聚类过程为：

首先在最短距离为1的时候，将挪威语和丹麦语聚为一类，得新类CL10={丹麦语，挪威语}，其中包含2个样本，这是全部类被分为10类；

其次，将法语和意大利语聚为一类，CL9={法语，意大利语}；

其中包含两个样本，这是全部样本被分为9类，接着在最短距离为2的时候，波兰语被分到CL9当中，也即CL8={CL9,波兰语}，然后英语被分到CL10中，的新类CL7={CL10,英语}={丹麦语，挪威语，英语}，如此等等，最后在最短距离为8的时候，所有类并入CL2中，这样全部样品归为一类，系统聚类结束。

由谱系聚类法能够细致的看出由小到大的聚类过程，由合并时的距离水平可以看出样本之间的亲疏程度。

然后利用proctree过程可以画出最短距离谱系图如下所示：

其中以E、N、Da、Du、G、Fr、S、I、P、H、Fi分别代表英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语、芬兰语等11中语言。

（2）最长距离法。

在proccluster过程中选取”method=conplete”,得到最长距离法聚类过程见下表：

Max

与最短距离法聚类过程相比，倒数第六步两种方法合并次序和合并距离水平有所不同。

（3）类平均距离法。

在proccluster过程中选取”method=average”,得到最长距离法聚类过程见下表：

Aver

1.5

5.75

6.9

9.0556

与最短距离法聚类过程相比，倒数第二步两种方法合并次序不同，在最长距离聚类中时将匈牙利语和芬兰语先合并为一类在和CL3聚为一类。

最长距离聚类法谱系图如下所示：

（4）重心法。

在proccluster过程中选取”method=centroid”,得到最长距离法聚类过程见下表：

Squared

Cent

1.25

1.75

3.5556

4.4444

4.0625

5.3594

6.5679

6.22

重心法与前述几种方法在类的合并以及距离水平都有所差异。

其谱系聚类结果如下所示：

2.习题6.7

（1）最长距离法。

在proccluster过程中选取”method=complete”,得到最长距离法聚类过程见下表:

13.9

2000

17.06

18.83

29.022

31.489

CL13

47.606

CL15

CL12

53.244

CL11

68.7

81.253

118.56

123.18

CL14

144.09

199.95

306.9

672.8

然后得到聚为三类的结果：

第一类：

1989、1990、1992、1991、1993

第二类：

1999、2000、1996、1997、1998、1995、1994

第三类：

1985、1992、1988

CLUSTER

CLUSNAME

谱系聚类结果图：

（2）类平均距离法。

、

23.508

38.338

42.159

56.317

73.327

89.989

110.9

122.26

171.24

185.58

466.34

谱系聚类结果图如下所示：

1989、1990、1992、1988、1991、1993

1986、1987、1985

（3）对数据进行标准化之后，得到聚为三类的结果分别为：

最长距离法：

聚为三类的结果为：

1999、2000、1996、1997、1998、1994

第二类结果：

1989、1990、1991、1992、1993

第三类结果为：

1895、1986、1987、1988

展开阅读全文