《统计分析与SPSS的应用第五版》课后练习答案第10章.docx

上传人:b****5 文档编号:4809157 上传时间:2022-12-09 格式:DOCX 页数:18 大小:1.06MB
下载 相关 举报
《统计分析与SPSS的应用第五版》课后练习答案第10章.docx_第1页
第1页 / 共18页
《统计分析与SPSS的应用第五版》课后练习答案第10章.docx_第2页
第2页 / 共18页
《统计分析与SPSS的应用第五版》课后练习答案第10章.docx_第3页
第3页 / 共18页
《统计分析与SPSS的应用第五版》课后练习答案第10章.docx_第4页
第4页 / 共18页
《统计分析与SPSS的应用第五版》课后练习答案第10章.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

《统计分析与SPSS的应用第五版》课后练习答案第10章.docx

《《统计分析与SPSS的应用第五版》课后练习答案第10章.docx》由会员分享,可在线阅读,更多相关《《统计分析与SPSS的应用第五版》课后练习答案第10章.docx(18页珍藏版)》请在冰豆网上搜索。

《统计分析与SPSS的应用第五版》课后练习答案第10章.docx

《统计分析与SPSS的应用第五版》课后练习答案第10章

《统计分析与SPSS的应用(第五版)》(薛薇)

课后练习答案

第10章SPSS的聚类分析

1、根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。

要求:

1)根据凝聚状态表利用碎石图对聚类类数进行研究。

2)绘制聚类树形图,说明哪些省市聚在一起。

3)绘制各类的科研指标的均值对比图。

4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。

采用欧氏距离,组间平均链锁法

利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。

大约聚成4类。

步骤:

分析→分类→系统聚类→按如下方式设置……

结果:

凝聚计划

阶段

组合的集群

系数

首次出现阶段集群

下一个阶段

集群1

集群2

集群1

集群2

1

26

30

328.189

0

0

2

2

26

29

638.295

1

0

7

3

20

25

1053.423

0

0

5

4

4

12

1209.922

0

0

15

5

8

20

1505.035

0

3

6

6

8

16

1760.170

5

0

9

7

24

26

1831.926

0

2

10

8

7

11

1929.891

0

0

11

9

5

8

2302.024

0

6

22

10

24

31

2487.209

7

0

22

11

2

7

2709.887

0

8

16

12

22

28

2897.106

0

0

19

13

6

23

2916.551

0

0

17

14

10

19

3280.752

0

0

25

15

4

21

3491.585

4

0

21

16

2

3

4229.375

11

0

21

17

6

13

4612.423

13

0

20

18

9

18

5377.253

0

0

25

19

14

22

5622.415

0

12

24

20

6

15

5933.518

17

0

23

21

2

4

6827.276

16

15

26

22

5

24

7930.765

9

10

24

23

6

27

9475.498

20

0

26

24

5

14

14959.704

22

19

28

25

9

10

19623.050

18

14

27

26

2

6

24042.669

21

23

28

27

9

17

32829.466

25

0

29

28

2

5

48360.854

26

24

29

29

2

9

91313.530

28

27

30

30

1

2

293834.503

0

29

0

将系数复制下来后,在EXCEL中建立工作表。

选中数据列,点击“插入”菜单→拆线图……

碎石图:

由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。

其他略。

接下来,添加一个变量CLU4_1,其值为类别值。

(1、2、3、4),再数据→汇总→设置……→确定。

均值对比,依据聚类解,利用分类汇总,计算各个聚类变量的均值

方差分析结果:

分析→比较均值→单因素ANOVA→设置……→确定

ANOVA

平方和

df

均方

F

显著性

投入人年数

组之间

59778341.196

3

19926113.732

26.428

.000

组内

20357294.159

27

753973.858

总计

80135635.355

30

投入高级职称的人年数

组之间

16485966.820

3

5495322.273

34.553

.000

组内

4294074.147

27

159039.783

总计

20780040.968

30

投入科研事业费(百元)

组之间

0.884

3

44150467293.628

324.318

.000

组内

3675602946.794

27

136133442.474

总计

7.677

30

课题总数

组之间

16470536.564

3

5490178.855

32.181

.000

组内

4606273.436

27

170602.720

总计

21076810.000

30

专著数

组之间

7203690.385

3

2401230.128

61.327

.000

组内

1057167.809

27

39154.363

总计

8260858.194

30

论文数

组之间

219675698.219

3

73225232.740

17.693

.000

组内

111743385.717

27

4138643.915

总计

331419083.935

30

获奖数

组之间

169882.049

3

56627.350

3.619

.026

组内

422436.790

27

15645.807

总计

592318.839

30

不同组在各个聚类变量上的均值均存在显著差异。

2、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?

因为数量级将对距离产生较大影响,并影响最终聚类结果。

3、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响?

为什么?

会。

如果所选变量之间存在较强的线性关系,能够相互替代,在计算距离时同类变量将重复“贡献”,占有较高权重,而使最终的聚类结果偏向该类变量。

4、试说明K-Mean聚类分析的基本步骤。

K-Means聚类分析步骤:

确定聚类数目K--确定K个初始类中心点--根据距离最近原则进行分类--重新确定K个类中心点--判断是否已经满足终止条件。

是一个反复迭代的分类过程。

在聚类过程中,样本所属的类会不断调整,直至达到最终稳定为止。

5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为:

“消费结构.sav”,变量包括:

地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务、医疗保健、杂项商品和服务支出。

若采用层次聚类法(个体间距离定义为平方欧氏距离,类间距离定义为组间平均链锁距离),绘制的碎石图如下:

(1)依据上图,数据聚成几类较为恰当?

(2)试采用K-MEANS聚类方法,从类内相似性和类间差异性角度分析将数据聚成几类较为恰当。

(1)聚成3类较为恰当。

注:

碎石图可按第9章第1题方式绘制,也可按如下方式绘制。

步骤:

分析→降维→因子分析→导入全部变量到变量框中(地区变量除外)→抽取:

选中碎石图→继续→确定。

得到:

(可以看出,分成3类恰当)

(2)用K-MEANS聚类方法进行分类,比较分类数为2、3、4时的差别。

步骤:

分析→分类→K-平均聚类→地区变量导入到标注个案,其他变量全部导入到变量框中→聚类数填2→选项:

选中初始聚类中心和ANOVA→继续→确定。

得到:

ANOVA

聚类

错误

F

显著性

均方

df

均方

df

食品

13927902.967

1

246753.779

29

56.445

.000

衣着

278718.565

1

37555.425

29

7.422

.011

居住

667583.436

1

31940.764

29

20.901

.000

家庭设备用品及服务

411657.258

1

14558.041

29

28.277

.000

医疗保健

325304.302

1

34400.296

29

9.456

.005

交通和通信

10285607.457

1

57486.400

29

178.922

.000

教育文化娱乐服务

5226361.465

1

69080.933

29

75.656

.000

杂项商品和服务

248312.931

1

6496.550

29

38.222

.000

仅当出于描述目的时才应该使用F检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量

聚类

1

4.000

2

27.000

有效

31.000

缺失

.000

将上图中的聚类数修改为3,则得到:

ANOVA

聚类

错误

F

显著性

均方

df

均方

df

食品

8311754.509

2

159294.770

28

52.178

.000

衣着

100878.509

2

41645.317

28

2.422

.107

居住

565811.147

2

16508.690

28

34.274

.000

家庭设备用品及服务

237257.836

2

12833.027

28

18.488

.000

医疗保健

198689.996

2

33054.746

28

6.011

.007

交通和通信

4709934.064

2

90458.748

28

52.067

.000

教育文化娱乐服务

2676015.304

2

67059.926

28

39.905

.000

杂项商品和服务

150742.666

2

4829.555

28

31.213

.000

仅当出于描述目的时才应该使用F检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量

聚类

1

1.000

2

25.000

3

5.000

有效

31.000

缺失

.000

将上图中的聚类数修改为4,则得到:

ANOVA

聚类

错误

F

显著性

均方

df

均方

df

食品

6461251.597

3

62963.251

27

102.619

.000

衣着

135334.013

3

35623.106

27

3.799

.022

居住

237725.271

3

32618.140

27

7.288

.001

家庭设备用品及服务

142250.914

3

15077.322

27

9.435

.000

医疗保健

111992.289

3

36553.186

27

3.064

.045

交通和通信

3596731.324

3

43056.263

27

83.536

.000

教育文化娱乐服务

1812882.568

3

66335.586

27

27.329

.000

杂项商品和服务

97486.291

3

5342.741

27

18.246

.000

仅当出于描述目的时才应该使用F检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量

聚类

1

1.000

2

3.000

3

15.000

4

12.000

有效

31.000

缺失

.000

从3个ANOVA表可以看出,分为2类时,P-值均小于0.05,表明有显著差异;分为3类时,出现了“衣着”的P-值为0.107,大于0.05;分为4类时,P-值均小于0.05,表明有显著差异。

表明仅从ANOVA表看,分为3类,不合适。

再看F值,F值大表明组间差大,组内差小,即类内相似性大,类间差异性大,经比较可以看出,分类2类时,组间方差和组内方差均较大,而分为4类时,组间方差和组内方差相对来说,组内方差缩小得明显一些。

故分为4类较为恰当。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工作范文 > 行政公文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1