数据分析试题.docx

上传人:b****6 文档编号:7040559 上传时间:2023-01-16 格式:DOCX 页数:24 大小:79.20KB
下载 相关 举报
数据分析试题.docx_第1页
第1页 / 共24页
数据分析试题.docx_第2页
第2页 / 共24页
数据分析试题.docx_第3页
第3页 / 共24页
数据分析试题.docx_第4页
第4页 / 共24页
数据分析试题.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

数据分析试题.docx

《数据分析试题.docx》由会员分享,可在线阅读,更多相关《数据分析试题.docx(24页珍藏版)》请在冰豆网上搜索。

数据分析试题.docx

数据分析试题

上海第二工业大学(试卷编号:

)2011~2012学年第二学期数据分析期末考试卷A卷

姓名:

王赞学号:

094860117班级:

09计算A1

题号

得分

一、某医院管理工作者希望了解病人对医院工作的满意程度

和病人的年龄

、病情的严重程度

和忧虑程度

之间的关系,他们随机选取了23位病人,得到下表所列数据:

(本题40分,每小题5分)

1

2

3

4

5

6

7

8

9

10

11

12

50

36

40

41

28

49

42

45

52

29

29

43

51

46

48

44

43

54

50

48

62

50

48

53

2.3

2.3

2.2

1.8

1.8

2.9

2.2

2.4

2.9

2.1

2.4

2.4

48

57

66

89

89

36

46

54

26

77

89

67

13

14

15

16

17

18

19

20

21

22

23

38

34

53

36

33

29

33

55

29

44

43

55

51

54

49

56

46

49

51

52

58

50

2.2

2.3

2.2

2.0

2.5

1.9

2.1

2.4

2.3

2.9

2.3

47

51

57

66

79

88

60

49

77

52

60

(1)拟合

关于

的线性回归模型,写出回归方程;根据所得的回归模型中回归系数给出初步的分析结果;

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

4472.725

3

1490.908

12.072

.000a

残差

2346.579

19

123.504

总计

6819.304

22

a.预测变量:

(常量),Xi3,Xi1,XI2。

b.因变量:

Yi

表一

 

系数a

模型

非标准化系数

标准系数

t

Sig.

B

标准误差

试用版

1

(常量)

177.445

27.839

6.374

.000

Xi1

-1.069

.326

-.514

-3.284

.004

XI2

-.839

.887

-.212

-.947

.356

Xi3

-13.193

13.221

-.228

-.998

.331

a.因变量:

Yi

表二

由方差分析看出:

F统计量的值为12.072,根据p值检验法知F检验的p值显然小于0.0001,因此拒绝原假设,接受对立假设,即因变量与3个自变量之间具有高度显著的线性回归关系。

由表二可以看出,如果显著水平

为0.05,而t检验的3个p值分别为0.004、0356、0.331显然小于显著水平,因此拒绝原假设,接受对立假设,则说明因变量和XI1存在着高度显著的线性回归关系,与XI2、XI3没有显著的线性关系。

并且得到回归方程为:

Yi=177.455-1.069Xi1。

其意义是在Xi1每增加一个单位,则

减少1.069个单位。

(2)、设误差项

独立同分布于

,在

=0.01水平上检验回归关系的显著性;(写出原假设、对立假设和检验统计量)

解:

由表1可以看出SSR为4472.725,SSE为2346.579,SST为6619.304;

设y与X1,X2,X3的观测值之间满足关系

(i=1,2……18)其中

(i=1,2……18)相互独立,均服从正态分布N(0,

),利用SPSS可得到下列分析结果。

由此表可知,

的估计值

2=MSE=123.504,MSR=1490.908检验假设:

H0:

H1:

至少有一个非零的,统计量F=

=12.072

检验值P从表看几乎接近于零<

=0.01,则拒绝H0,此结果表明Y与X1,X2,X3之间存在高度显著的线性回归关系。

(3)、在

=0.05时,检验各自变量对

的影响的显著性;(写出原假设、对立假设和检验统计量);

解:

假设检验为:

,检验统计量

t检验的3个p值分别为0.004、0.356、0.331,显然XI1小于显著水平0.05,因此拒绝原假设,接受对立假设,则说明因变量只和XI1之间都存在着高度显著的线性回归关系。

(4)、根据

(2)(3)的结果解释由

(1)所得到的模型是否合理?

为什么?

合理,有表一的结果可知,三个变量总体和Y具有高度的线性关系,但是有表二可知对每一个变量分析时只有XI1和Y具有高度现象关系。

(5)用逐步回归法来选择最优回归方程,取

系数a

模型

非标准化系数

标准系数

t

Sig.

B的95.0%置信区间

B

标准误差

试用版

下限

上限

1

(常量)

121.994

12.618

9.668

.000

95.753

148.235

Xi1

-1.510

.312

-.726

-4.843

.000

-2.159

-.862

2

(常量)

157.527

18.182

8.664

.000

119.599

195.454

Xi1

-1.111

.322

-.534

-3.453

.003

-1.782

-.440

Xi3

-22.368

8.970

-.386

-2.493

.022

-41.080

-3.656

a.因变量:

Yi

表三

已排除的变量c

模型

BetaIn

t

Sig.

偏相关

共线性统计量

容差

1

XI2

-.375a

-2.467

.023

-.483

.782

Xi3

-.386a

-2.493

.022

-.487

.752

2

XI2

-.212b

-.947

.356

-.212

.362

a.模型中的预测变量:

(常量),Xi1。

b.模型中的预测变量:

(常量),Xi1,Xi3。

c.因变量:

Yi

表四

解:

根据表三和表四结果知道最终的选取的结果是只有XI1保留,也就是变量XI2和XI3被删除。

根据t检验的p值可以看出,最终模型只有变量XI1与因变量之间具有高度显著的线性相关关系。

(6)写出残差向量,通过残差分析来分析模型的合理性;

RES_1为:

-2.82240

-12.99019

.64668

16.08086

1.34021

-5.45738

-15.53577

-3.36804

-5.53378

.24370

14.52278

11.69058

-14.61579

-16.93157

10.58460

-5.42982

16.83504

5.24722

-13.31846

4.84355

4.56127

8.55382

.85289

残差关于拟合值的残差图如图1:

图1

从图1看出,该残差图中各点分布近似长条矩形,因此认为该线性回归模型比较合理。

残差关于XI1的残差图如图2:

从图2看出,该残差图中各点分布近似长条矩形,因此说明该模型中不需要添加该自变量的高阶项和交叉项。

残差关于XI2的残差图如图3:

(7)计算数据的标准化残差,并利用残差正态性的频率检验法来检验误差

的正态性假设是否合理?

解:

数据标准化残差以变量名为ZRE_1存储在数据中:

-.25397

-1.16889

.05819

1.44700

.12060

-.49107

-1.39795

-.30307

-.49794

.02193

1.30680

1.05195

-1.31517

-1.52355

.95243

-.48859

1.51486

.47216

-1.19843

.43584

.41044

.76970

.07674

落在(-1,1)区间的概率为14/23=0.61与0.68很接近

落在(-1.5,1.5)区间的概率为21/23=0.91与0.87很接近

落在(-2,2)区间的概率为23/23=1.0与0.95很接近

认为正态性假设是合理的。

(8)对自变量一组新的观测值(48,50,2.2)T,给出

的预报值的99%的置信区间;

解:

置信区间为:

(43.72601,66.25573)。

 

二、各地区居民消费水平(20XX年)数据见附录中数据文件xfsp.sav中,设对应于全体居民、农村居民、城镇居民的数据变量分别记为

,(本大题共40分,每小题5分)

(1)从样本协方差矩阵出发,求出样本

的第一和第二主成分,计算各样本主成分的贡献率;将第一样本主成分

从小到大排序,并分析排序的实际含义。

解释的总方差

成份

初始特征值a

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

原始

1

30588315.942

98.549

98.549

30588315.942

98.549

98.549

2

335962.375

1.082

99.631

335962.375

1.082

99.631

3

114484.513

.369

100.000

114484.513

.369

100.000

重新标度

1

30588315.942

98.549

98.549

2.939

97.964

97.964

2

335962.375

1.082

99.631

.032

1.070

99.034

3

114484.513

.369

100.000

.029

.966

100.000

提取方法:

主成份分析。

a.分析协方差矩阵时,初始特征值在整个原始解和重标刻度解中均相同。

表一

成份矩阵a

原始

重新标度

成份

成份

1

2

3

1

2

3

qtjm

3927.371

319.851

-147.964

.996

.081

-.038

ncjm

1798.050

170.375

304.126

.982

.093

.166

czjm

3454.141

-452.360

9.923

.992

-.130

.003

提取方法:

主成份。

a.已提取了3个成份。

表二

解:

表一的第二列表示相关系数矩阵的特征值,第三列表示样本主成分的贡献率,第四列表示样本的累积贡献率。

可见到第一个主成分,累积贡献率已经超过98%以上。

根据表二的数据可以很快算出样本的主成分,每一列分别对应除以

得出对应的特征向量。

第一主成分的系数向量为:

(3927.371,1798.050,3454.141)/

=(0.71,0.33,0.62)所以第一主成分为:

Y1=0.71*x1+0.33*x2+0.62*x3

从而计算数据在第一主成分上的得分为:

西藏7206.00

贵州8296.53

青海8343.05

甘肃8404.29

新疆8528.76

广西8787.97

江西8819.13

安徽8884.00

云南8920.08

海南9050.48

黑龙江9086.47

陕西9146.91

四川9193.57

山西9253.16

河南9682.78

宁夏9834.55

河北9995.16

吉林10096.79

重庆10218.44

湖北10468.41

内蒙古10653.94

湖南10794.94

辽宁11862.07

山东13094.62

福建14232.36

江苏14664.97

天津16858.35

广东18322.30

浙江19847.38

北京25907.81

上海32037.40

从得分的结果来看,作为发达城市的上海,北京,浙江,广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多,这个是符合实际情况的。

(2)从样本的相关系数矩阵出发,求出样本

的第一和第二主成分,计算各样本主成分的贡献率,将第一样本主成分

从小到大排序,并分析排序的实际含义。

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

1

2.945

98.175

98.175

2.945

98.175

98.175

2

.038

1.276

99.450

.038

1.276

99.450

3

.016

.550

100.000

.016

.550

100.000

提取方法:

主成份分析。

表一

 

成份矩阵a

成份

1

2

3

qtjm

.994

-.009

-.104

ncjm

.989

-.133

.058

czjm

.989

.143

.047

提取方法:

主成份。

a.已提取了3个成份。

表二

解:

表一的第二列表示相关系数矩阵的特征值,第三列表示样本主成分的贡献率,第四列表示样本的累积贡献率。

可见到第一个主成分,累积贡献率已经超过98%以上。

根据表二的数据可以很快算出样本的主成分,每一列分别对应除以

得出对应的特征向量。

第一主成分的系数向量为:

(0.994,0.989,0.989)/

=(0.579,0.576,0.576)所以第一主成分为:

Y1=0.579*x1+0.576*x2+0.576*x3

从而计算数据在第一主成分上的得分为:

西藏6951.85

贵州7864.83

青海7983.37

甘肃8008.04

新疆8123.27

广西8484.22

云南8536.45

安徽8554.25

江西8613.93

黑龙江8714.75

陕西8770.57

海南8778.62

山西8865.35

四川8871.23

河南9340.49

宁夏9381.10

河北9621.36

重庆9687.29

吉林9719.85

湖北10042.46

内蒙古10188.98

湖南10413.29

辽宁11393.33

山东12551.96

福建13747.25

江苏14279.18

天津16095.76

广东17281.96

浙江19236.75

北京24779.72

上海30806.26

从得分的结果来看,作为发达城市的上海,北京,浙江,广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多,这个是符合实际情况的。

 

(3)比较两种结果有何差异,试说明哪种结果更好?

并说明你的理由。

两种结果差异不大,使用哪种方法都可以,因为原始数据的量纲相差不大,几乎都在同一数量级,所以使用协方差和使用相关系数都差不多。

(4)本题数据是否适合进行因子分析?

理由是什么?

KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.765

Bartlett的球形度检验

近似卡方

177.109

df

3

Sig.

.000

相关矩阵a

qtjm

ncjm

czjm

相关

qtjm

1.000

.979

.977

ncjm

.979

1.000

.962

czjm

.977

.962

1.000

Sig.(单侧)

qtjm

.000

.000

ncjm

.000

.000

czjm

.000

.000

a.行列式=.002

解:

由KMO检验值0.756(>0.6)和从变量的相关系数矩阵可以看出,各变量间的相关性很高,因此变量间所表示的信息量有交叉部分,因此可以进行因子分析。

(5)取公共因子数为1时,对

进行因子分析,并进行解释;对公共因子

得分从小到大进行排序,并进行分析解释。

 

公因子方差

初始

提取

qtjm

1.000

.989

ncjm

1.000

.979

czjm

1.000

.977

提取方法:

主成份分析。

选取一个因子,从上表可以看出因子可以解释qtim,ncjm,czjm,因此本因子的提取效果是理想的

(6)取公共因子数为2时,采用方差最大正交旋转进行因子分析,对公共因子

得分从小到大进行排序。

再对公共因子

进行解释。

旋转成份矩阵a

成份

1

2

qtjm

.715

.692

ncjm

.798

.600

czjm

.604

.796

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

a.旋转在3次迭代后收敛。

因子一只要解释qtjm,ncjm,因子二主要解释czjm。

(7)根据第(5)(6)小题的结果分析哪种取法更加合理?

为什么?

解:

(5)的方法更合理,因为一个因子就可以解释所有变量了。

(8)简单说明因子分析中采用正交旋转的目的是什么?

解:

为了使一部分变量仅与第一个因子相关,另一部分变量与第二个因子相关。

三、各地区历年电力消费量见附件中数据文件dlxf.sav(单位:

亿千瓦小时);变量

分别代表2000年、20XX年、20XX年、20XX年、20XX年、20XX年的电力消费:

(本大题共20分,每小题4分)

(1)选择三种不同的谱系聚类法聚类,并给出这三种方法分3类的结果;

1、采用最长距离:

群集成员

案例

3群集

1:

北京

1

2:

天津

1

3:

河北

2

4:

山西

1

5:

内蒙古

1

6:

辽宁

2

7:

吉林

1

8:

黑龙江

1

9:

上海

1

10:

江苏

3

11:

浙江

2

12:

安徽

1

13:

福建

1

14:

江西

1

15:

山东

3

16:

河南

2

17:

湖北

1

18:

湖南

1

19:

广东

3

20:

广西

1

21:

海南

1

22:

重庆

1

23:

四川

1

24:

贵州

1

25:

云南

1

26:

陕西

1

27:

甘肃

1

28:

青海

1

29:

宁夏

1

30:

新疆

1

分类结果:

第1类:

1、2、4、5、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、28、29、30.

第2类:

3、6、11、16。

第3类:

10、15、19、

2、最短距离:

群集成员

案例

3群集

1:

北京

1

2:

天津

1

3:

河北

1

4:

山西

1

5:

内蒙古

1

6:

辽宁

1

7:

吉林

1

8:

黑龙江

1

9:

上海

1

10:

江苏

2

11:

浙江

1

12:

安徽

1

13:

福建

1

14:

江西

1

15:

山东

2

16:

河南

1

17:

湖北

1

18:

湖南

1

19:

广东

3

20:

广西

1

21:

海南

1

22:

重庆

1

23:

四川

1

24:

贵州

1

25:

云南

1

26:

陕西

1

27:

甘肃

1

28:

青海

1

29:

宁夏

1

30:

新疆

1

分类结果:

第1类:

1,2,、3、4、5、6、7、8、9、11、12、13、14、16、17、18、20、21、22、23、24、25、26、27、28、29、30.

第2类:

10、15。

第3类:

19。

3、质新法:

群集成员

案例

3群集

1:

北京

1

2:

天津

1

3:

河北

2

4:

山西

1

5:

内蒙古

1

6:

辽宁

1

7:

吉林

1

8:

黑龙江

1

9:

上海

1

10:

江苏

2

11:

浙江

2

12:

安徽

1

13:

福建

1

14:

江西

1

15:

山东

2

16:

河南

2

17:

湖北

1

18:

湖南

1

19:

广东

3

20:

广西

1

21:

海南

1

22:

重庆

1

23:

四川

1

24:

贵州

1

25:

云南

1

26:

陕西

1

27:

甘肃

1

28:

青海

1

29:

宁夏

1

30:

新疆

1

分类结果:

第1类:

1、2、4、5、6、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、28、29、30.

第2类:

3、10、11、15、16。

第3类:

19。

 

(2)用快速聚类法进行聚类,分别写出分3类和4类的结果;

分为3类为:

聚类成员

案例号

地区

聚类

距离

1

北京

2

227.373

2

天津

2

197.649

3

河北

1

600.121

4

山西

1

532.452

5

内蒙古

2

404.109

6

辽宁

1

192.567

7

吉林

2

180.935

8

黑龙江

2

278.295

9

上海

1

585.090

10

江苏

3

284.503

11

浙江

1

859.277

12

安徽

2

209.794

13

福建

2

568.947

14

江西

2

209.294

15

山东

3

654.848

16

河南

1

307.871

17

湖北

2

669.441

18

湖南

2

436.859

19

广东

3

897.880

20

广西

2

81.107

21

海南

2

852.741

22

重庆

2

264.783

23

四川

1

517.956

24

贵州

2

67.380

25

云南

2

131.648

26

陕西

2

83.849

27

甘肃

2

43.459

28

青海

2

585.657

29

宁夏

2

392.516

30

新疆

2

363.615

分类结果:

第1类:

3、4、6、9、11、16、23。

第2类:

1、2、5、7、8、12、13、14、17、18、20、21、22、24、25、26、27、28、29、30.

第3类:

10、15、19。

分为四类为:

聚类成员

案例号

地区

聚类

距离

1

北京

2

292.7

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1