1、数据分析期末试题及答案数据分析期末试题及答案一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分)解:1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出表示
2、地区平均寿命(y)与人均GDP(x1)的对数有线性关系上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。上图是以疫苗接种率(x3)的三次方()为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间呈正线性关系所以可以采用如下的线性回归方法分析。2.线性回归先用强行进入的方式建立如下线性方程设Y=0+1*(Xi1)+2*Xi2+3*+i i=1.224其中i(i=1.222)相互独立,都服从正态分布N(0,2)且假设其等于方差模型汇总b
3、模型RR 方调整 R 方标准 估计的误差1.952a.907.8913.332a. 预测变量: (常量), x3, x1, x2。b. 因变量: y上表是线性回归模型下的拟合优度结果,由上表知,R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。建立总体性的假设检验提出假设检验H0:1=2=3=0,H1,:其中至少有一个非零得如下方差分析表Anovab模型平方和df均方FSig.1回归1937.7043645.90158.190.000a残差199.7961811.
4、100总计2137.50021a. 预测变量: (常量), x3, x1, x2。b. 因变量: y上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。做独立性的假设检验得出参数估计表系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)33.0143.13710.523.000x1.072.015.4044.865.000x2.169.040.4314
5、.245.000x3.178.049.3393.654.002a. 因变量: y上表是有关参数估计的信息,同样是上面的检验假设,H0:1=2=3=0: H1:1、2、3不全为零由表知,1=33.014,1=0.072,2=0.169,3=0.178,以1=0.072为例,表示当成人识字率(x2),一岁儿童疫苗接种率(x3)不变时,人均GDP(x1)每增加一个单位,平均寿命(y)就增加0.072个单位。基于以上结果得出年平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有显著性的线性关系有回归方程Y=33.014+0.072*X1+ 0.169*X2+ 0.1
6、78*X31、2、3对应得p值分别为0.000,0.000,0.002,对应的概率p值都小于0.05,表示它们的单独性的假设检验没通过,即该模型是最优的,所以不用采用逐步回归的方式分析。对原始数据进行残差分析未标准化的残差RES_1-7.53964-3.57019-3.42221-2.89835-2.30455-2.17263-2.05862-1.37142-1.17048-.43890-.17260-.03190.946551.428961.612521.615902.101393.018563.025713.498084.607375.29645以X1为横轴,RES_1为纵轴画出如下散点图
7、由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。同理可以得出RES_1与X2、X3的散点图,由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。误差项的正态性检验数据(RES_1)标准化残差ZRES_1由图可以看出,散点图近似的在一条直线附近,则可以认为数据来自正太分布总体二、诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。下表列出了66家公司的部分运营财务比率,其中33家在2年
8、后破产Y=0,另外33家在同期保持偿付能力(Y=1)。请用变量X1(未分配利润/总资产),X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic回归模型,并根据模型给出实际意义的分析,数据见财务比率.sav(25分)。解:整体性的假设检验提出假设性检验H0:回归系数=0(i=1,2,3),H1:不都为0建立logistic模型:=分类表a,b已观测已预测Y百分比校正01步骤 0Y0033.01033100.0总计百分比50.0a. 模型中包括常量。b. 切割值为 .500上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但
9、模型均预测为错误,正确率为0%,另外33家在同期保持偿付能力(Y=1),正确率为100%,所以模型总的预测正确率为50%。不在方程中的变量得分dfSig.步骤 0变量X131.6211.000X219.3581.000X32.8091.094总统计量37.6233.000由上表得知,如果变量X1(未分配利润/总资产),X2(税前利润/总资产)进入方程,概率p值都为0.000,小于显著性水平0.05,本应该是拒绝原假设,X1,X2是可以进入方程的。而X3(销售额/总资产)进入方程,概率p值为0.094,大于显著性水平0.05,本应该是接受原假设,X3(销售额/总资产)是不能进入方程的,但这里的解
10、释变量的筛选策略为enter,是强行进入方程的。用强行全部进入模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方15.791a.727.969a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 13 处终止。-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是5.791,比较小,表示模型的拟合优度还可以,而且Nagelkerke R 方为0.969,与0相比还是比较大的,所以拟合度比较高分类表a已观测已预测Y百分比校正01步骤 1Y032197.0113297.0总计百分比97.0a. 切割值为 .500上表显示了logistic分析的初
11、始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型预测出了32家,正确率为97%,另外33家在同期保持偿付能力(Y=1),模型预测出了32家,正确率为97%,所以模型总的预测正确率为97%,较之前的有很大的提高。方程中的变量BS.E,WalsdfSig.Exp (B)步骤 1aX1.336.3091.1781.2781.399X2.180.1072.8521.0911.198X35.1605.200.9851.321174.235常量-10.33411.147.8591.354.000a. 在步骤 1 中输入的变量: X1, X2, X3.上表给出了方程中变量的系数。
12、由表得出以为例,表示控制变量X2(税前利润/总资产)和X3(销售额/总资产)不变,X1(未分配利润/总资产)每增加一个单位,增加0.336分单位模型方程:=Logistic回归方程:PY=0=由表得知,X1到X3对应的概率p值都大于0.05,接受原假设,表示X1到X3对Y都没有显著性影响。所以用下述方法改进。用向前步进(wald)模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方115.803a.682.91029.472b.711.949a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 9 处终止。b. 因为参数估计的更改范围小于 .001,
13、所以估计在迭代次数 10 处终止。-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是9.472,比之前的5.791要大,表示拟合优度降低,表示用向前的方法并没有比进入的方法好分类表a已观测已预测Y百分比校正01步骤 1Y031293.9113297.0总计百分比95.5步骤 2Y032197.0113297.0总计百分比97.0a. 切割值为 .500而且从上表知道总的预测百分比为97%,没有变化,所以这一步较之前的强行进入的方法没什么优化,也就是没什么必要用向前的方法做。所以有最优的一个Logistic回归模型为模型方程:=Logistic回归方程:PY=0=三、为了研究几个省市的科技创新力问题,现在取了2005年8个省得15个科技指标数据,试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因素的影响。数据见8个省市的科技指标数据.sav,其中各个指标的解释如下:(25分)X1:每百万人科技活动人员数(人/万人)X2: 从事科技活动人员中科学技术、工程师所占比重(%)X3 :R&D人员占科技胡哦哦的呢人员的比重(%)X4:大专以上学历人口数占总人口数的比例(%)X5 :地方财政科技拨款占地方财政支出的比重(%)X6:R&
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1