数据分析期末试题卷与答案解析.docx

上传人:b****6 文档编号:6159060 上传时间:2023-01-04 格式:DOCX 页数:24 大小:141.29KB
下载 相关 举报
数据分析期末试题卷与答案解析.docx_第1页
第1页 / 共24页
数据分析期末试题卷与答案解析.docx_第2页
第2页 / 共24页
数据分析期末试题卷与答案解析.docx_第3页
第3页 / 共24页
数据分析期末试题卷与答案解析.docx_第4页
第4页 / 共24页
数据分析期末试题卷与答案解析.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

数据分析期末试题卷与答案解析.docx

《数据分析期末试题卷与答案解析.docx》由会员分享,可在线阅读,更多相关《数据分析期末试题卷与答案解析.docx(24页珍藏版)》请在冰豆网上搜索。

数据分析期末试题卷与答案解析.docx

数据分析期末试题卷与答案解析

数据分析期末试题及答案

1、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。

(25分)

解:

1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系

上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。

尝试多种模型后采用曲线估计,得出

表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。

上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系

上图是以疫苗接种率(x3)的三次方(

)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间呈正线性关系

所以可以采用如下的线性回归方法分析。

2.线性回归

先用强行进入的方式建立如下线性方程

设Y=β0+β1*(Xi1)+β2*Xi2+β3*

+εii=1.2……24

其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差

模型汇总b

模型

R

R方

调整R方

标准估计的误差

1

.952a

.907

.891

3.332

a.预测变量:

(常量),x3,x1,x2。

b.因变量:

y

上表是线性回归模型下的拟合优度结果,由上表知,R值为0.952,大于0.8,表示两变量间有较强的线性关系。

且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。

建立总体性的假设检验

提出假设检验H0:

β1=β2=β3=0,H1,:

其中至少有一个非零

得如下方差分析表

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

1937.704

3

645.901

58.190

.000a

残差

199.796

18

11.100

总计

2137.500

21

a.预测变量:

(常量),x3,x1,x2。

b.因变量:

y

上表是方差分析SAS输出结果。

由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

做独立性的假设检验得出参数估计表

系数a

模型

非标准化系数

标准系数

t

Sig.

B

标准误差

试用版

1

(常量)

33.014

3.137

10.523

.000

x1

.072

.015

.404

4.865

.000

x2

.169

.040

.431

4.245

.000

x3

.178

.049

.339

3.654

.002

a.因变量:

y

上表是有关参数估计的信息,同样是上面的检验假设,H0:

β1=β2=β3=0:

H1:

β1、β2、β3不全为零

由表知,

β1=33.014,β1=0.072,β2=0.169,β3=0.178,以β1=0.072为例,表示当成人识字率(x2),一岁儿童疫苗接种率(x3)不变时,,人均GDP(x1)每增加一个单位,平均寿命(y)就增加0.072个单位。

基于以上结果得出年平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有显著性的线性关系有回归方程

Y=33.014+0.072*X1+0.169*X2+0.178*X3

β1、β2、β3对应得p值分别为0.000,0.000,0.002,对应的概率p值都小于0.05,表示它们的单独性的假设检验没通过,即该模型是最优的,所以不用采用逐步回归的方式分析。

对原始数据进行残差分析

未标准化的残差RES_1

-7.53964

-3.57019

-3.42221

-2.89835

-2.30455

-2.17263

-2.05862

-1.37142

-1.17048

-.43890

-.17260

-.03190

.94655

1.42896

1.61252

1.61590

2.10139

3.01856

3.02571

3.49808

4.60737

5.29645

以X1为横轴,RES_1为纵轴画出如下散点图

由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。

同理可以得出RES_1与X2、X3的散点图,

由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。

由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。

误差项的正态性检验

数据(RES_1)标准化残差ZRES_1

由图可以看出,散点图近似的在一条直线附近,则可以认为数据来自正太分布总体

 

二、诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。

下表列出了66家公司的部分运营财务比率,其中33家在2年后破产Y=0,另外33家在同期保持偿付能力(Y=1)。

请用变量X1(未分配利润/总资产),X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic回归模型,并根据模型给出实际意义的分析,数据见财务比率.sav(25分)。

解:

整体性的假设检验

提出假设性检验

H0:

回归系数

=0(i=1,2,3),H1:

不都为0

建立logistic模型:

=

分类表a,b

已观测

已预测

Y

百分比校正

0

1

步骤0

Y

0

0

33

.0

1

0

33

100.0

总计百分比

50.0

a.模型中包括常量。

b.切割值为.500

上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型均预测为错误,正确率为0%,另外33家在同期保持偿付能力(Y=1),正确率为100%,所以模型总的预测正确率为50%。

不在方程中的变量

得分

df

Sig.

步骤0

变量

X1

31.621

1

.000

X2

19.358

1

.000

X3

2.809

1

.094

总统计量

37.623

3

.000

由上表得知,如果变量X1(未分配利润/总资产),X2(税前利润/总资产)进入方程,概率p值都为0.000,小于显著性水平0.05,本应该是拒绝原假设,X1,X2是可以进入方程的。

而X3(销售额/总资产)进入方程,概率p值为0.094,大于显著性水平0.05,本应该是接受原假设,X3(销售额/总资产)是不能进入方程的,但这里的解释变量的筛选策略为enter,是强行进入方程的。

用强行全部进入

模型汇总

步骤

-2对数似然值

Cox&SnellR方

NagelkerkeR方

1

5.791a

.727

.969

a.因为参数估计的更改范围小于.001,所以估计在迭代次数13处终止。

-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是5.791,比较小,表示模型的拟合优度还可以,而且NagelkerkeR方为0.969,与0相比还是比较大的,所以拟合度比较高

分类表a

已观测

已预测

Y

百分比校正

0

1

步骤1

Y

0

32

1

97.0

1

1

32

97.0

总计百分比

97.0

a.切割值为.500

上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型预测出了32家,正确率为97%,另外33家在同期保持偿付能力(Y=1),模型预测出了32家,正确率为97%,所以模型总的预测正确率为97%,较之前的有很大的提高。

 

方程中的变量

B

S.E,

Wals

df

Sig.

Exp(B)

步骤1a

X1

.336

.309

1.178

1

.278

1.399

X2

.180

.107

2.852

1

.091

1.198

X3

5.160

5.200

.985

1

.321

174.235

常量

-10.334

11.147

.859

1

.354

.000

a.在步骤1中输入的变量:

X1,X2,X3.

上表给出了方程中变量的系数。

由表得出

为例,表示控制变量X2(税前利润/总资产)和X3(销售额/总资产)不变,X1(未分配利润/总资产)每增加一个单位,

增加0.336分单位

模型方程:

=

Logistic回归方程:

P{Y=0}=

由表得知,X1到X3对应的概率p值都大于0.05,接受原假设,表示X1到X3对Y都没有显著性影响。

所以用下述方法改进。

用向前步进(wald)

 

模型汇总

步骤

-2对数似然值

Cox&SnellR方

NagelkerkeR方

1

15.803a

.682

.910

2

9.472b

.711

.949

a.因为参数估计的更改范围小于.001,所以估计在迭代次数9处终止。

b.因为参数估计的更改范围小于.001,所以估计在迭代次数10处终止。

-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是9.472,比之前的5.791要大,表示拟合优度降低,表示用向前的方法并没有比进入的方法好

分类表a

已观测

已预测

Y

百分比校正

0

1

步骤1

Y

0

31

2

93.9

1

1

32

97.0

总计百分比

95.5

步骤2

Y

0

32

1

97.0

1

1

32

97.0

总计百分比

97.0

a.切割值为.500

而且从上表知道总的预测百分比为97%,没有变化,所以这一步较之前的强行进入的方法没什么优化,也就是没什么必要用向前的方法做。

所以有最优的一个Logistic回归模型为

模型方程:

=

Logistic回归方程:

P{Y=0}=

 

三、为了研究几个省市的科技创新力问题,现在取了2005年8个省得15个科技指标数据,试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因素的影响。

数据见8个省市的科技指标数据.sav,其中各个指标的解释如下:

(25分)

X1:

每百万人科技活动人员数(人/万人)

X2:

从事科技活动人员中科学技术、工程师所占比重(%)

X3:

R&D人员占科技胡哦哦的呢人员的比重(%)

X4:

大专以上学历人口数占总人口数的比例(%)

X5:

地方财政科技拨款占地方财政支出的比重(%)

X6:

R&D经费占GDP比重(%)

X7:

R&D经费中挤出研究所占比例(%)

X8:

人均GDP(元/人)

X9:

高科技产品出口额占商品出口额的比重(%)

X10:

规模以上产业增加值中高技术产业份额(%)

X11:

万名科技人员被国际三大检索工具收录的论文数(篇/百万人)

X12:

每百万人口发明专利的授权量(件/百万人)

X13:

发明专利申请授权量占专利申请授权量的比重(%)

X14:

万人技术市场成交合同金额(万元/万人)

X15:

财政性教育经费支出占GDP比重(%)

解:

解释的总方差

成份

初始特征值a

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

原始

1

1.427E8

99.636

99.636

1.427E8

99.636

99.636

2

517846.046

.362

99.997

3

3265.489

.002

100.000

4

201.762

.000

100.000

5

121.066

8.453E-5

100.000

6

34.078

2.379E-5

100.000

7

8.179

5.711E-6

100.000

8

3.101E-11

2.165E-17

100.000

9

1.520E-12

1.061E-18

100.000

10

1.033E-14

7.210E-21

100.000

11

8.393E-16

5.860E-22

100.000

12

-6.843E-17

-4.778E-23

100.000

13

-7.700E-15

-5.377E-21

100.000

14

-1.363E-13

-9.514E-20

100.000

15

-6.538E-12

-4.565E-18

100.000

重新标度

1

1.427E8

99.636

99.636

8.388

55.921

55.921

2

517846.046

.362

99.997

3

3265.489

.002

100.000

4

201.762

.000

100.000

5

121.066

8.453E-5

100.000

6

34.078

2.379E-5

100.000

7

8.179

5.711E-6

100.000

8

3.101E-11

2.165E-17

100.000

9

1.520E-12

1.061E-18

100.000

10

1.033E-14

7.210E-21

100.000

11

8.393E-16

5.860E-22

100.000

12

-6.843E-17

-4.778E-23

100.000

13

-7.700E-15

-5.377E-21

100.000

14

-1.363E-13

-9.514E-20

100.000

15

-6.538E-12

-4.565E-18

100.000

提取方法:

主成份分析。

a.分析协方差矩阵时,初始特征值在整个原始解和重标刻度解中均相同。

上表是用协方差矩阵分析法分析出的总方差的结果,由上表知道,初始特征值间所占的比例相差很大,取值范围差异大,所以不大适合做协方差的矩阵分析。

所以应该采用相关矩阵的方法分析如下:

相关矩阵a

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

X11

X12

X13

X14

X15

相关

X1

1.000

.857

.893

.943

.373

.988

.988

.756

.172

.520

.914

.989

.883

.984

.806

X2

.857

1.000

.863

.882

.573

.841

.844

.776

.209

.586

.839

.912

.722

.905

.769

X3

.893

.863

1.000

.830

.191

.930

.922

.525

.210

.613

.720

.888

.834

.907

.629

X4

.943

.882

.830

1.000

.441

.911

.948

.874

.318

.563

.976

.971

.903

.934

.883

X5

.373

.573

.191

.441

1.000

.278

.300

.713

.245

.397

.545

.440

.081

.392

.592

X6

.988

.841

.930

.911

.278

1.000

.985

.665

.125

.480

.867

.969

.881

.983

.759

X7

.988

.844

.922

.948

.300

.985

1.000

.737

.275

.590

.895

.978

.905

.972

.767

X8

.756

.776

.525

.874

.713

.665

.737

1.000

.458

.574

.916

.818

.626

.752

.802

X9

.172

.209

.210

.318

.245

.125

.275

.458

1.000

.811

.256

.213

.141

.160

.069

X10

.520

.586

.613

.563

.397

.480

.590

.574

.811

1.000

.454

.548

.432

.498

.312

X11

.914

.839

.720

.976

.545

.867

.895

.916

.256

.454

1.000

.943

.830

.905

.925

X12

.989

.912

.888

.971

.440

.969

.978

.818

.213

.548

.943

1.000

.876

.988

.834

X13

.883

.722

.834

.903

.081

.881

.905

.626

.141

.432

.830

.876

1.000

.838

.781

X14

.984

.905

.907

.934

.392

.983

.972

.752

.160

.498

.905

.988

.838

1.000

.778

X15

.806

.769

.629

.883

.592

.759

.767

.802

.069

.312

.925

.834

.781

.778

1.000

a.此矩阵不是正定矩阵。

上表是15个变量间的相关系数矩阵,可以看出相关系数都比较高,比如X1(每百万人科技活动人员数(人/万人))和X2(从事科技活动人员中科学技术、工程师所占比重(%))的相关系数0.859,接近1,呈较强的的线性相关性,所以能够从中提取公因子,适合做因子分析

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

1

11.136

74.237

74.237

11.136

74.237

74.237

2

1.706

11.371

85.608

1.706

11.371

85.608

3

1.247

8.316

93.924

1.247

8.316

93.924

4

.508

3.386

97.310

5

.205

1.365

98.675

6

.125

.832

99.507

7

.074

.493

100.000

8

3.059E-16

2.040E-15

100.000

9

1.532E-16

1.021E-15

100.000

10

1.188E-16

7.923E-16

100.000

11

4.537E-17

3.025E-16

100.000

12

-2.301E-16

-1.534E-15

100.000

13

-3.671E-16

-2.448E-15

100.000

14

-4.891E-16

-3.261E-15

100.000

15

-8.277E-16

-5.518E-15

100.000

提取方法:

主成份分析。

由表可知,前两个因子的特征根值很高,累积方差贡献率为分别为85.608(>=80%即可),对解释原有变量的贡献很大,第3个以后的因子特征根值都很小,对解释原有变量的贡献很校,可以忽略,因此提取第一和第二个因子比较合适,基本能表达所有信息。

有特征值

=11.136

=1.706

成份矩阵a

成份

1

2

X1

.973

-.158

X2

.919

.036

X3

.883

-.161

X4

.985

-.004

X5

.482

.497

X6

.947

-.242

X7

.972

-.108

X8

.849

.340

X9

.300

.834

X10

.611

.637

X11

.955

-.001

X12

.992

-.091

X13

.876

-.282

X14

.968

-.156

X15

.859

-.092

提取方法:

主成份。

a.已提取了2个成份。

上表是因子载荷矩阵A

以X1,X5,X10为例,有因子分析模型

=0.973

-0.158

+

=0.482

+0.497

+

=0.611

+0.637

+

因为

,和

,变量在

上都有较大的相差不大的载荷,几乎都受它们的共同影响,因子间的差异性没有表示出来,不方便进行因子命名,所以要进行正交旋转(拉大因子间的差异性)

成份转换矩阵

成份

1

2

1

.926

.379

2

-.379

.926

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

对A做方差最大的正交旋转,得到正交旋转矩阵

旋转成份矩阵a

成份

1

2

X1

.960

.223

X2

.837

.381

X3

.878

.185

X4

.913

.370

X5

.258

.642

X6

.968

.135

X7

.940

.268

X8

.657

.63

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 教育学心理学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1