数据分析试题.docx

资源描述

数据分析试题.docx

《数据分析试题.docx》由会员分享，可在线阅读，更多相关《数据分析试题.docx（24页珍藏版）》请在冰豆网上搜索。

数据分析试题.docx

数据分析试题

上海第二工业大学（试卷编号：

）2011～2012学年第二学期数据分析期末考试卷A卷

姓名:

王赞学号：

094860117班级：

09计算A1

题号

一

二

三

得分

一、某医院管理工作者希望了解病人对医院工作的满意程度

和病人的年龄

、病情的严重程度

和忧虑程度

之间的关系，他们随机选取了23位病人，得到下表所列数据：

（本题40分，每小题5分）

2.3

2.2

1.8

2.9

2.2

2.4

2.9

2.1

2.4

2.2

2.3

2.2

2.0

2.5

1.9

2.1

2.4

2.3

2.9

2.3

（1）拟合

关于

的线性回归模型，写出回归方程；根据所得的回归模型中回归系数给出初步的分析结果；

Anovab

模型

平方和

均方

Sig.

回归

4472.725

1490.908

12.072

.000a

残差

2346.579

123.504

总计

6819.304

a.预测变量:

（常量）,Xi3,Xi1,XI2。

b.因变量:

表一

系数a

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

177.445

27.839

6.374

.000

Xi1

-1.069

.326

-.514

-3.284

.004

XI2

-.839

.887

-.212

-.947

.356

Xi3

-13.193

13.221

-.228

-.998

.331

a.因变量:

表二

由方差分析看出：

F统计量的值为12.072，根据p值检验法知F检验的p值显然小于0.0001，因此拒绝原假设，接受对立假设，即因变量与3个自变量之间具有高度显著的线性回归关系。

由表二可以看出，如果显著水平

为0.05，而t检验的3个p值分别为0.004、0356、0.331显然小于显著水平，因此拒绝原假设，接受对立假设，则说明因变量和XI1存在着高度显著的线性回归关系，与XI2、XI3没有显著的线性关系。

并且得到回归方程为：

Yi=177.455-1.069Xi1。

其意义是在Xi1每增加一个单位，则

减少1.069个单位。

（2）、设误差项

独立同分布于

，在

=0.01水平上检验回归关系的显著性；（写出原假设、对立假设和检验统计量）

解：

由表1可以看出SSR为4472.725，SSE为2346.579，SST为6619.304；

设y与X1，X2，X3的观测值之间满足关系

（i=1，2……18）其中

（i=1，2……18）相互独立，均服从正态分布N（0，

），利用SPSS可得到下列分析结果。

由此表可知，

的估计值

2=MSE=123.504，MSR=1490.908检验假设：

H0：

H1：

至少有一个非零的，统计量F=

=12.072

检验值P从表看几乎接近于零<

=0.01,则拒绝H0，此结果表明Y与X1，X2，X3之间存在高度显著的线性回归关系。

（3）、在

=0.05时，检验各自变量对

的影响的显著性；（写出原假设、对立假设和检验统计量）；

解：

假设检验为：

，检验统计量

t检验的3个p值分别为0.004、0.356、0.331，显然XI1小于显著水平0.05，因此拒绝原假设，接受对立假设，则说明因变量只和XI1之间都存在着高度显著的线性回归关系。

（4）、根据

（2）（3）的结果解释由

（1）所得到的模型是否合理？

为什么？

合理，有表一的结果可知，三个变量总体和Y具有高度的线性关系，但是有表二可知对每一个变量分析时只有XI1和Y具有高度现象关系。

（5）用逐步回归法来选择最优回归方程，取

；

系数a

模型

非标准化系数

标准系数

Sig.

B的95.0%置信区间

标准误差

试用版

下限

上限

（常量）

121.994

12.618

9.668

.000

95.753

148.235

Xi1

-1.510

.312

-.726

-4.843

.000

-2.159

-.862

（常量）

157.527

18.182

8.664

.000

119.599

195.454

Xi1

-1.111

.322

-.534

-3.453

.003

-1.782

-.440

Xi3

-22.368

8.970

-.386

-2.493

.022

-41.080

-3.656

a.因变量:

表三

已排除的变量c

模型

BetaIn

Sig.

偏相关

共线性统计量

容差

XI2

-.375a

-2.467

.023

-.483

.782

Xi3

-.386a

-2.493

.022

-.487

.752

XI2

-.212b

-.947

.356

-.212

.362

a.模型中的预测变量:

（常量）,Xi1。

b.模型中的预测变量:

（常量）,Xi1,Xi3。

c.因变量:

表四

解：

根据表三和表四结果知道最终的选取的结果是只有XI1保留，也就是变量XI2和XI3被删除。

根据t检验的p值可以看出，最终模型只有变量XI1与因变量之间具有高度显著的线性相关关系。

（6）写出残差向量，通过残差分析来分析模型的合理性；

RES_1为：

-2.82240

-12.99019

.64668

16.08086

1.34021

-5.45738

-15.53577

-3.36804

-5.53378

.24370

14.52278

11.69058

-14.61579

-16.93157

10.58460

-5.42982

16.83504

5.24722

-13.31846

4.84355

4.56127

8.55382

.85289

残差关于拟合值的残差图如图1：

图1

从图1看出，该残差图中各点分布近似长条矩形，因此认为该线性回归模型比较合理。

残差关于XI1的残差图如图2：

从图2看出，该残差图中各点分布近似长条矩形，因此说明该模型中不需要添加该自变量的高阶项和交叉项。

残差关于XI2的残差图如图3：

（7）计算数据的标准化残差，并利用残差正态性的频率检验法来检验误差

的正态性假设是否合理？

解：

数据标准化残差以变量名为ZRE_1存储在数据中：

-.25397

-1.16889

.05819

1.44700

.12060

-.49107

-1.39795

-.30307

-.49794

.02193

1.30680

1.05195

-1.31517

-1.52355

.95243

-.48859

1.51486

.47216

-1.19843

.43584

.41044

.76970

.07674

落在（-1，1）区间的概率为14/23=0.61与0.68很接近

落在（-1.5，1.5）区间的概率为21/23=0.91与0.87很接近

落在（-2，2）区间的概率为23/23=1.0与0.95很接近

认为正态性假设是合理的。

（8）对自变量一组新的观测值（48,50,2.2）T，给出

的预报值的99%的置信区间；

解：

置信区间为：

（43.72601，66.25573）。

二、各地区居民消费水平（20XX年）数据见附录中数据文件xfsp.sav中，设对应于全体居民、农村居民、城镇居民的数据变量分别记为

，（本大题共40分，每小题5分）

（1）从样本协方差矩阵出发，求出样本

的第一和第二主成分，计算各样本主成分的贡献率；将第一样本主成分

从小到大排序，并分析排序的实际含义。

解释的总方差

成份

初始特征值a

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

原始

30588315.942

98.549

30588315.942

98.549

335962.375

1.082

99.631

335962.375

1.082

99.631

114484.513

.369

100.000

114484.513

.369

100.000

重新标度

30588315.942

98.549

2.939

97.964

335962.375

1.082

99.631

.032

1.070

99.034

114484.513

.369

100.000

.029

.966

100.000

提取方法：

主成份分析。

a.分析协方差矩阵时，初始特征值在整个原始解和重标刻度解中均相同。

表一

成份矩阵a

原始

重新标度

成份

qtjm

3927.371

319.851

-147.964

.996

.081

-.038

ncjm

1798.050

170.375

304.126

.982

.093

.166

czjm

3454.141

-452.360

9.923

.992

-.130

.003

提取方法:

主成份。

a.已提取了3个成份。

表二

解：

表一的第二列表示相关系数矩阵的特征值，第三列表示样本主成分的贡献率，第四列表示样本的累积贡献率。

可见到第一个主成分，累积贡献率已经超过98%以上。

根据表二的数据可以很快算出样本的主成分，每一列分别对应除以

得出对应的特征向量。

第一主成分的系数向量为：

（3927.371,1798.050,3454.141）/

=（0.71,0.33,0.62）所以第一主成分为：

Y1=0.71*x1+0.33*x2+0.62*x3

从而计算数据在第一主成分上的得分为：

西藏7206.00

贵州8296.53

青海8343.05

甘肃8404.29

新疆8528.76

广西8787.97

江西8819.13

安徽8884.00

云南8920.08

海南9050.48

黑龙江9086.47

陕西9146.91

四川9193.57

山西9253.16

河南9682.78

宁夏9834.55

河北9995.16

吉林10096.79

重庆10218.44

湖北10468.41

内蒙古10653.94

湖南10794.94

辽宁11862.07

山东13094.62

福建14232.36

江苏14664.97

天津16858.35

广东18322.30

浙江19847.38

北京25907.81

上海32037.40

从得分的结果来看，作为发达城市的上海，北京，浙江，广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多，这个是符合实际情况的。

（2）从样本的相关系数矩阵出发，求出样本

的第一和第二主成分，计算各样本主成分的贡献率，将第一样本主成分

从小到大排序，并分析排序的实际含义。

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

2.945

98.175

2.945

98.175

.038

1.276

99.450

.038

1.276

99.450

.016

.550

100.000

.016

.550

100.000

提取方法：

主成份分析。

表一

成份矩阵a

成份

qtjm

.994

-.009

-.104

ncjm

.989

-.133

.058

czjm

.989

.143

.047

提取方法:

主成份。

a.已提取了3个成份。

表二

解：

表一的第二列表示相关系数矩阵的特征值，第三列表示样本主成分的贡献率，第四列表示样本的累积贡献率。

可见到第一个主成分，累积贡献率已经超过98%以上。

根据表二的数据可以很快算出样本的主成分，每一列分别对应除以

得出对应的特征向量。

第一主成分的系数向量为：

（0.994,0.989,0.989）/

=（0.579,0.576,0.576）所以第一主成分为：

Y1=0.579*x1+0.576*x2+0.576*x3

从而计算数据在第一主成分上的得分为：

西藏6951.85

贵州7864.83

青海7983.37

甘肃8008.04

新疆8123.27

广西8484.22

云南8536.45

安徽8554.25

江西8613.93

黑龙江8714.75

陕西8770.57

海南8778.62

山西8865.35

四川8871.23

河南9340.49

宁夏9381.10

河北9621.36

重庆9687.29

吉林9719.85

湖北10042.46

内蒙古10188.98

湖南10413.29

辽宁11393.33

山东12551.96

福建13747.25

江苏14279.18

天津16095.76

广东17281.96

浙江19236.75

北京24779.72

上海30806.26

（3）比较两种结果有何差异，试说明哪种结果更好？

并说明你的理由。

两种结果差异不大，使用哪种方法都可以，因为原始数据的量纲相差不大，几乎都在同一数量级，所以使用协方差和使用相关系数都差不多。

（4）本题数据是否适合进行因子分析？

理由是什么？

KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.765

Bartlett的球形度检验

近似卡方

177.109

Sig.

.000