数据分析期末试题及答案.docx
《数据分析期末试题及答案.docx》由会员分享,可在线阅读,更多相关《数据分析期末试题及答案.docx(26页珍藏版)》请在冰豆网上搜索。
数据分析期末试题及答案
数据分析期末试题及答案
一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)成人识字率(x2),—岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。
(25分)
解:
1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系
上图是以人均GDP(x1为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。
尝试多种模型后采用曲线估计,得出
表示地区平均寿命(y)与人均GDP(x1的对数有线性关系
上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。
上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系
00200003.@0趣10086000X00
KKJtS
上图是以疫苗接种率(x3)的三次方(X;)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间呈正线性关系
所以可以采用如下的线性回归方法分析。
2•线性回归
先用强行进入的方式建立如下线性方程
设Y=B0+B1*(Xi1)+B2*Xi2+B3*Xi3+£ii=1.2……24
其中&i(i=1.2……22)相互独立,都服从正态分布N(0,cA2)且假设其等于方差
模型汇总b
模型
R
R方
调整R方
标准估计的误
差
1
a
.952
.907
.891
3.332
a.预测变量:
(常量),x3,x1,x2o
b.因变量:
y
上表是线性回归模型下的拟合优度结果,由上表知,R值为0.952,大于0.8,表示两变量间有较强的线性关系。
且表示平均寿命(y)的95.2%的信息能由人均
GDP(x1)成人识字率(x2),—岁儿童疫苗接种率(x3)—起表示出来。
建立总体性的假设检验
提出假设检验H0:
B仁B2=B3=0,H1,:
其中至少有一个非零
得如下方差分析表
Anova5
模型
平方和
df
均方
F
Sig.
1
回归
1937.704
3
645.901
58.190
.000a
残差
199.796
18
11.100
总计
2137.500
21
a.预测变量:
(常量),x3,x1,x2o
b.因变量:
y
上表是方差分析SAS俞出结果。
由表知,采用的是F分布,F=58.佃0对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)成人识字率(x2),—岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。
做独立性的假设检验得出参数估计表
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
33.014
3.137
10.523
.000
x1
.072
.015
.404
4.865
.000
x2
.169
.040
.431
4.245
.000
x3
.178
.049
.339
3.654
.002
a.因变量:
y
上表是有关参数估计的信息,同样是上面的检验假设,HO:
B仁B2=B3=o:
H1:
B1、B2、B3不全为零
由表知,
B1=33.014,B1=0.072,B2=0.169,B3=0.178,以B1=0.072为例,表示当成人识字率(x2),—岁儿童疫苗接种率(x3)不变时,,人均GDP(x1每增加一个单位,平均寿命(y)就增加0.072个单位。
基于以上结果得出年平均寿命(y)与人均GDP(x1)成人识字率(x2),一岁儿童疫苗接种率(x3)之间有显著性的线性关系有回归方程
Y=33.014+0.072*X1+0.169*X2+0.仃8*X3
B1、B2、B3对应得p值分别为0.000,0.000,0.002,对应的概率p值都小于0.05,表示它们的单独性的假设检验没通过,即该模型是最优的,所以不用采用逐步回归的方式分析。
对原始数据进行残差分析
未标准化的残差RES_1
-7.53964
-3.57019
-3.42221
-2.89835
-2.30455
-2.17263
-2.05862
-1.37142-1.17048
-.43890
-.17260
-.03190
.94655
1.42896
1.61252
1.61590
2.10139
3.01856
3.02571
3.49808
4.60737
5.29645
以X1为横轴,RES_1为纵轴画出如下散点图
_250X0
3
®.WBCCr-
D
-SODOCO-
由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。
同理可以得出RES_1与X2、X3的散点图,
■Brip-AetlpdFzlip」le-pu2u!
Lln
4MM»-
V
由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。
2DMB0-
DQOOO-
-293000-
D
^SWK-
x3
由上图可以看出,
该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归
模型比较合理。
误差项的正态性检验
数据(RES_1)标准化残差ZRES_1
由图可以看出,散点图近似的在一条直线附近,则可以认为数据来自正太分布总体
二、诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类
失败会导致灾难性的后果。
下表列出了66家公司的部分运营财务比率,其中33
家在2年后破产丫=0,另外33家在同期保持偿付能力(丫=1。
请用变量X1(未分配利润/总资产),X2税前利润/总资产)和X3销售额/总资产)拟合一个Logistic回归模型,并根据模型给出实际意义的分析,数据见财务比率.sav(25分)。
解:
整体性的假设检验
提出假设性检验
H0:
回归系数Pi=0(i=1,2,3),H1:
不都为0
建立logisti(模型:
mg
=0」X12X23X3
分类表a,b
已观测
已预测
丫
百分比校正
0
1
步骤0
丫
0
0
33
.0
1
0
33
100.0
总计百分比
50.0
a.模型中包括常量。
b.切割值为.500
上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型均预测为错误,正确率为0%,另外33家在同期保持偿付能力(丫=1),正确率为100%,所以模型总的预测正确率为50%。
不在方程中的变量
得分
df
Sig.
步骤0
变量
X1
31.621
1
.000
X2
19.358
1
.000
X3
2.809
1
.094
总统计量
37.623
3
.000
由上表得知,如果变量X1未分配利润/总资产),X2税前利润/总资产)进入方程,概率p值都为0.000,小于显著性水平0.05,本应该是拒绝原假设,X1,X2是可以进入方程的。
而X3(销售额/总资产)进入方程,概率p值为0.094,大于显著性水平0.05,本应该是接受原假设,X3(销售额/总资产)是不能进入方程的,但这里的解释变量的筛选策略为enter,是强行进入方程的。
用强行全部进入
模型汇总
步骤
-2对数似然值
Cox&SnellR方
NagelkerkeR方
1
5.791a
.727
.969
a.因为参数估计的更改范围小于.001,所以估计在迭代次数
13处终止。
-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是5.791,比较小,表示模型的拟合优度还可以,而且NagelkerkeR方为0.969,与0相比还是比较大的,所以拟合度比较高
分类表a
已观测
已预测
Y
百分比校正
0
1
步骤1
Y
0
32
1
97.0
1
1
32
97.0
总计百分比
97.0
a.切割值为.500
上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型预测出了32家,正确率为97%,另外33家在同期保持偿付能力(丫=1)模型预测出了32家,正确率为97%,所以模型总的预测正确率为97%,较之前的有很大的提高。
方程中的变量
B
S.E,
Wals
df
Sig.
Exp(B)
步骤1a
X1
.336
.309
1.178
1
.278
1.399
X2
.180
.107
2.852
1
.091
1.198
X3
5.160
5.200
.985
1
.321
174.235
常量
-10.334
11.147
.859
1
.354
.000
a.在步骤1中输入的变量:
X1,X2,X3.
上表给出了方程中变量的系数。
由表得出
Bo=T0.334,氏=0.336,^2=0.180*3,=5.160
:
1为例,表示控制变量X2(税前利润/总资产)和X3销售额/总资产)不变,X1未分配利润/总资产)每增加一个单位,ln(P{^乩)增加0.336分单位
1—p{Y=0}
模型方程:
0L)=-10.334-0.336X10.180X24.160X3
1-p{Y=0}
Logistic回归方程:
exp(-10.334-0.336X10.180X24.160X3)
P{Y=0}=-1+exp(-10.334-0.336X1+0.180X2+4.160X3)
由表得知,X1到X3对应的概率p值都大于0.05,接受原假设,表示X1到X3对Y
都没有显著性影响。
所以用下述方法改进。
用向前步进(wald)
模型汇总
步骤
-2对数似然值
Cox&SnellR方
NagelkerkeR方
1
15.803a
.682
.910
2
b
9.472
.711
.949
a.因为参数估计的更改范围小于.001,所以估计在迭代次数9
处终止。
b.因为参数估计的更改范围小于.001,所以估计在迭代次数
10处终止。
-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是9.472,比之前的5.791要大,表示拟合优度降低,表示用向前的方法并没有比进入的方法好
分类表a
已观测
已预测
Y
百分比校正
0
1
步骤1
Y
0
31