数据分析试题Word下载.docx

上传人:b****6 文档编号:21508981 上传时间:2023-01-30 格式:DOCX 页数:24 大小:180.46KB
下载 相关 举报
数据分析试题Word下载.docx_第1页
第1页 / 共24页
数据分析试题Word下载.docx_第2页
第2页 / 共24页
数据分析试题Word下载.docx_第3页
第3页 / 共24页
数据分析试题Word下载.docx_第4页
第4页 / 共24页
数据分析试题Word下载.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

数据分析试题Word下载.docx

《数据分析试题Word下载.docx》由会员分享,可在线阅读,更多相关《数据分析试题Word下载.docx(24页珍藏版)》请在冰豆网上搜索。

数据分析试题Word下载.docx

16

17

18

19

20

21

22

23

38

34

33

55

56

58

2.0

2.5

1.9

47

79

88

60

(1)拟合

关于

的线性回归模型,写出回归方程;

根据所得的回归模型中回归系数给出初步的分析结果;

Anovab

模型

平方和

df

均方

F

Sig.

回归

4472.725

1490.908

12.072

.000a

残差

2346.579

123.504

总计

6819.304

a.预测变量:

(常量),Xi3,Xi1,XI2。

b.因变量:

Yi

表一

 

系数a

非标准化系数

标准系数

t

B

标准误差

试用版

(常量)

177.445

27.839

6.374

.000

Xi1

-1.069

.326

-.514

-3.284

.004

XI2

-.839

.887

-.212

-.947

.356

Xi3

-13.193

13.221

-.228

-.998

.331

a.因变量:

表二

由方差分析看出:

F统计量的值为12.072,根据p值检验法知F检验的p值显然小于0.0001,因此拒绝原假设,接受对立假设,即因变量与3个自变量之间具有高度显著的线性回归关系。

由表二可以看出,如果显著水平

为0.05,而t检验的3个p值分别为0.004、0356、0.331显然小于显著水平,因此拒绝原假设,接受对立假设,则说明因变量和XI1存在着高度显著的线性回归关系,与XI2、XI3没有显著的线性关系。

并且得到回归方程为:

Yi=177.455-1.069Xi1。

其意义是在Xi1每增加一个单位,则

减少1.069个单位。

(2)、设误差项

独立同分布于

,在

=0.01水平上检验回归关系的显著性;

(写出原假设、对立假设和检验统计量)

解:

由表1可以看出SSR为4472.725,SSE为2346.579,SST为6619.304;

设y与X1,X2,X3的观测值之间满足关系

(i=1,2……18)其中

(i=1,2……18)相互独立,均服从正态分布N(0,

),利用SPSS可得到下列分析结果。

由此表可知,

的估计值

2=MSE=123.504,MSR=1490.908检验假设:

H0:

H1:

至少有一个非零的,统计量F=

=12.072

检验值P从表看几乎接近于零<

=0.01,则拒绝H0,此结果表明Y与X1,X2,X3之间存在高度显著的线性回归关系。

(3)、在

=0.05时,检验各自变量对

的影响的显著性;

(写出原假设、对立假设和检验统计量);

解:

假设检验为:

,检验统计量

t检验的3个p值分别为0.004、0.356、0.331,显然XI1小于显著水平0.05,因此拒绝原假设,接受对立假设,则说明因变量只和XI1之间都存在着高度显著的线性回归关系。

(4)、根据

(2)(3)的结果解释由

(1)所得到的模型是否合理?

为什么?

合理,有表一的结果可知,三个变量总体和Y具有高度的线性关系,但是有表二可知对每一个变量分析时只有XI1和Y具有高度现象关系。

(5)用逐步回归法来选择最优回归方程,取

B的95.0%置信区间

下限

上限

121.994

12.618

9.668

95.753

148.235

-1.510

.312

-.726

-4.843

-2.159

-.862

157.527

18.182

8.664

119.599

195.454

-1.111

.322

-.534

-3.453

.003

-1.782

-.440

-22.368

8.970

-.386

-2.493

.022

-41.080

-3.656

表三

已排除的变量c

BetaIn

偏相关

共线性统计量

容差

-.375a

-2.467

.023

-.483

.782

-.386a

-.487

.752

-.212b

.362

a.模型中的预测变量:

(常量),Xi1。

b.模型中的预测变量:

(常量),Xi1,Xi3。

c.因变量:

表四

根据表三和表四结果知道最终的选取的结果是只有XI1保留,也就是变量XI2和XI3被删除。

根据t检验的p值可以看出,最终模型只有变量XI1与因变量之间具有高度显著的线性相关关系。

(6)写出残差向量,通过残差分析来分析模型的合理性;

RES_1为:

-2.82240

-12.99019

.64668

16.08086

1.34021

-5.45738

-15.53577

-3.36804

-5.53378

.24370

14.52278

11.69058

-14.61579

-16.93157

10.58460

-5.42982

16.83504

5.24722

-13.31846

4.84355

4.56127

8.55382

.85289

残差关于拟合值的残差图如图1:

图1

从图1看出,该残差图中各点分布近似长条矩形,因此认为该线性回归模型比较合理。

残差关于XI1的残差图如图2:

从图2看出,该残差图中各点分布近似长条矩形,因此说明该模型中不需要添加该自变量的高阶项和交叉项。

残差关于XI2的残差图如图3:

(7)计算数据的标准化残差,并利用残差正态性的频率检验法来检验误差

的正态性假设是否合理?

数据标准化残差以变量名为ZRE_1存储在数据中:

-.25397

-1.16889

.05819

1.44700

.12060

-.49107

-1.39795

-.30307

-.49794

.02193

1.30680

1.05195

-1.31517

-1.52355

.95243

-.48859

1.51486

.47216

-1.19843

.43584

.41044

.76970

.07674

落在(-1,1)区间的概率为14/23=0.61与0.68很接近

落在(-1.5,1.5)区间的概率为21/23=0.91与0.87很接近

落在(-2,2)区间的概率为23/23=1.0与0.95很接近

认为正态性假设是合理的。

(8)对自变量一组新的观测值(48,50,2.2)T,给出

的预报值的99%的置信区间;

置信区间为:

(43.72601,66.25573)。

二、各地区居民消费水平(2006年)数据见附录中数据文件xfsp.sav中,设对应于全体居民、农村居民、城镇居民的数据变量分别记为

,(本大题共40分,每小题5分)

(1)从样本协方差矩阵出发,求出样本

的第一和第二主成分,计算各样本主成分的贡献率;

将第一样本主成分

从小到大排序,并分析排序的实际含义。

解释的总方差

成份

初始特征值a

提取平方和载入

合计

方差的%

累积%

原始

30588315.942

98.549

335962.375

1.082

99.631

114484.513

.369

100.000

重新标度

2.939

97.964

.032

1.070

99.034

.029

.966

提取方法:

主成份分析。

a.分析协方差矩阵时,初始特征值在整个原始解和重标刻度解中均相同。

成份矩阵a

qtjm

3927.371

319.851

-147.964

.996

.081

-.038

ncjm

1798.050

170.375

304.126

.982

.093

.166

czjm

3454.141

-452.360

9.923

.992

-.130

提取方法:

主成份。

a.已提取了3个成份。

表一的第二列表示相关系数矩阵的特征值,第三列表示样本主成分的贡献率,第四列表示样本的累积贡献率。

可见到第一个主成分,累积贡献率已经超过98%以上。

根据表二的数据可以很快算出样本的主成分,每一列分别对应除以

得出对应的特征向量。

第一主成分的系数向量为:

(3927.371,1798.050,3454.141)/

=(0.71,0.33,0.62)所以第一主成分为:

Y1=0.71*x1+0.33*x2+0.62*x3

从而计算数据在第一主成分上的得分为:

西藏7206.00

贵州8296.53

青海8343.05

甘肃8404.29

新疆8528.76

广西8787.97

江西8819.13

安徽8884.00

云南8920.08

海南9050.48

黑龙江9086.47

陕西9146.91

四川9193.57

山西9253.16

河南9682.78

宁夏9834.55

河北9995.16

吉林10096.79

重庆10218.44

湖北10468.41

内蒙古10653.94

湖南10794.94

辽宁11862.07

山东13094.62

福建14232.36

江苏14664.97

天津16858.35

广东18322.30

浙江19847.38

北京25907.81

上海32037.40

从得分的结果来看,作为发达城市的上海,北京,浙江,广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多,这个是符合实际情况的。

(2)从样本的相关系数矩阵出发,求出样本

的第一和第二主成分,计算各样本主成分的贡献率,将第一样本主成分

初始特征值

2.945

98.175

.038

1.276

99.450

.016

.550

.994

-.009

-.104

.989

-.133

.058

.143

.047

(0.994,0.989,0.989)/

=(0.579,0.576,0.576)所以第一主成分为:

Y1=0.579*x1+0.576*x2+0.576*x3

西藏6951.85

贵州7864.83

青海7983.37

甘肃8008.04

新疆8123.27

广西8484.22

云南8536.45

安徽8554.25

江西8613.93

黑龙江8714.75

陕西8770.57

海南8778.62

山西8865.35

四川8871.23

河南9340.49

宁夏9381.10

河北9621.36

重庆9687.29

吉林9719.85

湖北10042.46

内蒙古10188.98

湖南10413.29

辽宁11393.33

山东12551.96

福建13747.25

江苏14279.18

天津16095.76

广东17281.96

浙江19236.75

北京24779.72

上海30806.26

(3)比较两种结果有何差异,试说明哪种结果更好?

并说明你的理由。

两种结果差异不大,使用哪种方法都可以,因为原始数据的量纲相差不大,几乎都在同一数量级,所以使用协方差和使用相关系数都差不多。

(4)本题数据是否适合进行因子分析?

理由是什么?

KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.765

Bartlett的球形度检验

近似卡方

177.109

相关矩阵a

相关

1.000

.979

.977

.962

Sig.(单侧)

a.行列式=.002

由KMO检验值0.756(>

0.6)和从变量的相关系数矩阵可以看出,各变量间的相关性很高,因此变量间所表示的信息量有交叉部分,因此可以进行因子分析。

(5)取公共因子数为1时,对

进行因子分析,并进行解释;

对公共因子

得分从小到大进行排序,并进行分析解释。

公因子方差

初始

提取

选取一个因子,从上表可以看出因子可以解释qtim,ncjm,czjm,因此本因子的提取效果是理想的

(6)取公共因子数为2时,采用方差最大正交旋转进行因子分析,对公共因子

得分从小到大进行排序。

再对公共因子

进行解释。

旋转成份矩阵a

.715

.692

.798

.600

.604

.796

旋转法:

具有Kaiser标准化的正交旋转法。

a.旋转在3次迭代后收敛。

因子一只要解释qtjm,ncjm,因子二主要解释czjm。

(7)根据第(5)(6)小题的结果分析哪种取法更加合理?

(5)的方法更合理,因为一个因子就可以解释所有变量了。

(8)简单说明因子分析中采用正交旋转的目的是什么?

为了使一部分变量仅与第一个因子相关,另一部分变量与第二个因子相关。

三、各地区历年电力消费量见附件中数据文件dlxf.sav(单位:

亿千瓦小时);

变量

分别代表2000年、2002年、2003年、2004年、2005年、2006年的电力消费:

(本大题共20分,每小题4分)

(1)选择三种不同的谱系聚类法聚类,并给出这三种方法分3类的结果;

1、采用最长距离:

群集成员

案例

3群集

1:

北京

2:

天津

3:

河北

4:

山西

5:

内蒙古

6:

辽宁

7:

吉林

8:

黑龙江

9:

上海

10:

江苏

11:

浙江

12:

安徽

13:

福建

14:

江西

15:

山东

16:

河南

17:

湖北

18:

湖南

19:

广东

20:

广西

21:

海南

22:

重庆

23:

四川

24:

贵州

25:

云南

26:

陕西

27:

甘肃

28:

青海

29:

宁夏

30:

新疆

分类结果:

第1类:

1、2、4、5、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、28、29、30.

第2类:

3、6、11、16。

第3类:

10、15、19、

2、最短距离:

1,2,、3、4、5、6、7、8、9、11、12、13、14、16、17、18、20、21、22、23、24、25、26、27、28、29、30.

10、15。

19。

3、质新法:

1、2、4、5、6、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、28、29、30.

3、10、11、15、16。

(2)用快速聚类法进行聚类,分别写出分3类和4类的结果;

分为3类为:

聚类成员

案例号

地区

聚类

距离

227.373

197.649

600.121

532.452

404.109

192.567

180.935

278.295

585.090

284.503

859.277

209.794

568.947

209.294

654.848

307.871

669.441

436.859

897.880

81.107

852.741

264.783

517.956

24

67.380

25

131.648

83.849

27

43.459

585.657

392.516

30

363.615

3、4、6、9、11、16、23。

1、2、5、7、8、12、13、14、17、18、20、21、22、24、25、26、27、28、29、30.

10、15、19。

分为四类为:

292.729

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 工学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1