1、数据分析红河学院2016-2017学年春季学期数据分析课程期末考查试卷院 系: 数学学院 专 业: 信息与计算科学 年 级: 2014级 学生姓名: 王继禹 学 号: 201401050335 授课教师: 赵金娥 2017年6月 1、(33分)现有两个SPSS数据文件,分别名为“学生成绩一.sav”和“学生成绩二.sav”,存放了关于学生学号、性别和若干门课程成绩的数据。(1) 将所给的两个SPSS数据文件“学生成绩一.sav”和“学生成绩二.sav”进行合并,形成一个完整的数据文件并保存为“学生成绩.sav”。(2) 对所建立的数据文件“学生成绩.sav”进行以下处理:计算男生和女生语文成绩
2、的基本描述统计量,并比较男女生语文成绩的差异;答:由上表可知,男女生语文成绩有较大差异。首先,男女生语文成绩均值分别为77.43分和85.75分,女生高于男生;其次,男生成绩呈右偏平峰分布,女生成绩也呈右偏平峰分布;另外,标准差表明,男生成绩的离散程度大于女生。按照性别对平均成绩排秩;选择平均成绩为75分及以上的学生样本,并按性别的降序及平均成绩的升序进行排序;计算每位女生课程成绩80分的课程数;把英语成绩划分为优、良、中、不合格四个等级,划分规则为“英语90”为“优”、 “75英语90”为“良” 、“60英语75”为“中”、“英语60”为“不合格”; 按照等级输出频数分布表,并绘制不同等级语
3、文平均成绩的条形图。统计量语文等级N有效30缺失0语文等级频率百分比有效百分比累积百分比有效良1860.060.060.0优620.020.080.0中620.020.0100.0合计30100.0100.0(3) 对所建立的数据文件“学生成绩.sav”进行以下分析: 分析数学平均成绩与60.00是否存在显著差异;分析:设原假设为数学平均成绩与60.00是无显著差异的,备择假设为数学平均成绩与60.00是有显著差异的,由图1-1可知,被调查者共计30人,数学平均值为66.6000分,标准差为14.64723;由图1-2可知,t检验的概率p-值为0.020,小于=0.05,拒绝原假设,接受备择假
4、设,即数学平均成绩与60.00有明显差异。 男生和女生的语文平均课程是否存在显著差异;分析:设原假设为男生和女生的语文平均课程存在显著差异,备择假设为男生和女生的语文平均课程不存在显著差异。由组统计量表可以看出男女生语文样本均值有一定的差异,从独立样本检验表可以看出:该检验的F统计量的观测值为4.794,对应的P值为0.037,如果显著性水平为0.05,由于概率p值小于0.05,可以认为两总体方差存在显著差异,故拒接原假设,即男生和女生的语文平均课程不存在显著差异。该班级的物理成绩与化学成绩是否存在显著差异。分析:设立原假设为物理成绩与化学成绩没有存在显著差异,备择假设为物理成绩与化学成绩存在
5、显著差异。从成对样本统计量表中可以看出,物理与化学成绩的平均值由较大的差异;成对样本相关系数表表明在显著水平为=0.05时,对应的概率p-值为0.000接近于0,小于,所以拒绝原假设,即物理成绩与化学成绩存在显著差异。2、(15分)“居民储蓄调查数据.xls”是一份关于居民储蓄调查的模拟数据,该数据的第一行是变量名,该份数据的具体含义见Excel文件的后半部分。(1) 将该份数据转换成SPSS数据文件,并在SPSS中定义数据结构(包括变量名、变量类型、变量名标签、变量值标签等),并保存为“居民储蓄调查数据.sav”;(2) 该问卷中的多选项问题是按照哪种方式分解的?答:该问卷中的多选项问题是按
6、照多选项分类法分解的,因为其中的选项不止只有两个,存在多个。(3) 有多大比例的居民认为今年的收入比去年增加了?有多大比例的居民认为今年的收入比去年减少了?并给出理由。收入比去年增加了还是减少了频率百分比有效百分比累积百分比有效基本不变4817.017.017.0减少18063.863.880.9增加5419.119.1100.0合计282100.0100.0答:通过分析可知,该表中有282个被调查者,并无缺失值,认为今年收入比去年增加的有54人,占总数的19.1%。而认为今年收入比去年减少的有180人,占总数的63.8%,可知今年收入比去年减少了。(4) 居民存款的最主要目的是什么?并给出理
7、由。答:通过两表分析可知,共有282人参与调查,缺失3人,存款目的应答次数837次,可以看出这一选项是多选。其中,买房或建房的选择有178人选择,占总选项数的21.3%;其次是得利息,有119人选择,占14.2%,由此可知居民存款的最主要目的是为了买房或建房,其次是得利息。3、(13分)为了解文化程度对职称的影响,对20名职工进行了调查并进行了列联分析,结果如下表所示:职称* 文化程度 交叉制表文化程度合计1.002.003.004.00职称1计数20226期望的计数1.51.22.11.26.0职称 中的 %33.3%033.3%33.3%100%文化程度 中的 %40.0%028.6%50
8、.0%30.0%总数的 %10.0%010.0%10.0%30.0%2计数22217期望的计数1.751.42.451.47.0职称 中的 %28.6%28.6%28.6%14.3%100.0%文化程度 中的 %40.0%50.0%28.6%25.0%35.0%总数的 %10.0%10.0%10.0%5.0%35.0%3计数12317期望的计数1.751.42.451.47.0职称 中的 %14.3%28.6%42.9%14.3%100.0%文化程度 中的 %20.0%50.0%42.9%25.0%35.0%总数的 %5.0%10.0%15.0%5.0%35.0%合计计数547420期望的计数
9、5.04.07.04.020.0职称 中的 %25.0%20.0%35.0%20.0%100.0%文化程度 中的 %100.0%100.0%100.0%100.0%100.0%总数的 %25.0%20.0%35.0%20.0%100.0%卡方检验值df渐进 Sig. (双侧)Pearson 卡方3.2116.782似然比4.3256.633线性和线性组合.0161.900有效案例中的 N20(1) 补充表中空缺的计算结果(结果保留1位小数);(2) 分析文化程度对职称是否有影响。答:通过分析表一和表二,我们可以先建立原假设:文化程度对职称没有影响 ;再建立备择假设:文化程度对职称有影响。从卡方
10、检验表中可以看出,设显著水平=0.05,由于卡方检验的概率p-值都大于0.05,所以接受原假设,即文化程度对职称没有影响。从交叉制表中也可以看出,文化程度为4而职称为3的占总数的14.3%,而文化程度为1职称为3的同样占总数的14.3%,可知文化程度对职称没有影响。4、(29分)数据文件“广告地区与销售额.sav”,是某企业在制订某商品的广告策略时,收集的该商品在不同地区采用不同广告形式促销后的销售额数据。请完成以下问题:主体间因子(表4-1)值标签N广告形式1.00报纸362.00广播363.00宣传品364.00体验36地区1.00122.00123.00124.00125.00126.0
11、0127.00128.00129.001210.001211.001212.0012主体间效应的检验(饱和模型)(表4-2)因变量:销售额源III 型平方和df均方FSig.校正模型(12064.639)(47)(256.695)1.764.010截距647756.6941(647756.694)4451.724.000x15189.361(3)(1729.787)(11.888).000x22660.306(11)(241.846)(1.662).094x1 * x24214.972(33)(127.726)(0.878).657误差(13968.667)96(145.507)总计(6737
12、90)(144)校正的总计26033.306(143)主体间效应的检验(非饱和) (表4-3)因变量:销售额源III 型平方和df均方FSig.校正模型(7849.667)(14)(560.691)3.978.000截距(647756.694)(1)(647756.694)4595.374.000x1(5189.361)(3)(1729.787)(12.272).000x2(2660.306)(11)(241.846)(1.716).077误差(18183.639)(129)(140.959)总计(673790)(144)校正的总计(26033.306)(143)误差方差等同性的Levene检
13、验(表4-4)因变量:销售额Fdf1df2Sig.8844796.675对比结果(K 矩阵) (表4-5)广告形式 简单对比a因变量销售额级别 1 和级别 4对比估算值-13.861假设值0差分(估计 - 假设)-13.861标准 误差2.798Sig.000差分的 95% 置信区间下限-19.398上限-8.324级别 2 和级别 4对比估算值-4.417假设值0差分(估计 - 假设)-4.417标准 误差2.798Sig.117差分的 95% 置信区间下限-9.953上限1.120级别 3 和级别 4对比估算值1.556假设值0差分(估计 - 假设)1.556标准 误差2.798Sig.5
14、79差分的 95% 置信区间下限-3.981上限7.092a. 参考类别 = 4多个比较(表4-6)销售额LSD(I) 广告形式(J) 广告形式均值差值 (I-J)标准 误差Sig.95% 置信区间下限上限报纸广播-9.4444*2.79840.001-14.9811-3.9077宣传品-15.4167*2.79840.000-20.9534-9.8800体验-13.8611*2.79840.000-19.3978-8.3244广播报纸9.4444*2.79840.0013.907714.9811宣传品-5.9722*2.79840.035-11.5089-.4355体验-4.41672.79
15、840.117-9.95341.1200宣传品报纸15.4167*2.79840.0009.880020.9534广播5.9722*2.79840.035.435511.5089体验1.55562.79840.579-3.98117.0923体验报纸13.8611*2.79840.0008.324419.3978广播4.41672.79840.117-1.12009.9534宣传品-1.55562.79840.579-7.09233.9811*均值差的显著性水平为0.05(1) 请填写表4-2和表4-3中空缺部分的数据结果(结果保留3位小数);(2) 请根据表格数据说明以上分析是否满足方差分析
16、的前提,并说明理由;答:通过课本知识,我们可知方差分析是通过推断控制变量各水平下观测变量的总体分布是否有显著差异来实现分析目标的。故我们可以设立原假设原假设:不同地区的销售的总体方差没有显著差异;再设立备择假设:不同地区的销售的总体方差有显著差异。从4-4Levene检验表中可以看出,不同广告形式下销售额的方差齐性检验的检验统计量的观测值为0.884,概率P-值为0.675。如果显著性水平a为0.05,小于概率P-值,因此不拒绝原假设,认为不同地区的销售额的总体方差没有显著差异,满足方差分析的前提。(3) 分析广告形式、地区以及广告形式和地区的交互作用是否对商品销售额产生影响;答:本题以多因素
17、方差分析进行研究,其中以广告形式,地区为控制变量,销售额为观测变量。我们可以设立原假设为:不同广告形式没有对销售额产生显著影响;不同地区的销售额没有显著影响;广告形式和地区对销售额没有产生显著的交互影响。(x1:广告形式;x2:地区;x1*x2:广告形式和地区) 从表4-2中可以看出:第一列是对观测变量总方差分析说明,第二列是观测变量变差分析结果,第三列是自由度,第四列是方差,第五列是F检验统计量的观测值,第六列是检验统计量的概率p-值。x1,x2,x1*x2的F检验统计量的值分别为11.888,1.662,0.878,对应的概率p值分别为0,0.094,0.657。如果显著性水平为0.05,
18、而 x1的概率p-值小于,所以拒绝原假设,认为不同广告形式对销售额有影响;而x2,x1*x2分别对应的概率p-值大于,不应拒绝原假设,认为不同地区对销售额没有显著影响,广告形式和地区对销售额没有产生交互作用。(4) 分析表4-5(对比结果);答:表4-5分别显示了广告形式前三个水平下销售额的均值检验结果。第一种广告形式下的销售额的均值与检验值得差为-13.861,标准误为2.798,t检验统计量的概率p-值为0.000(近似为0),差值的95%置信区间的下限和上限分别为-19.398和-8.324,如果显著水平=0.05,则概率p-值小于,所以第一种广告形式下的销售额的均值与检验值间存在显著差
19、异,明显低于总体水平。同理,按照第一种方式分析可知,第二种广告形式下的销售额也明显低于总体水平,而第三种广告形式下的销售额的明显高于总体水平。三种广告形式产生的效果有着显著差异。(5) 分析表4-6(多个比较),并说明哪种广告形式能获得理想的销售业绩.答:表4-6分别显示了两两广告形式下销售额均值检验的结果,且采用的是LSD检验方法。如果显著水平为0.05,在LSD方法中,报纸广告与广播广告,宣传品广告和体验广告的效果均有显著差异,概率p-值分别为0.001,0.000,0.000(皆接近0)。再分析其他的对比可以发现,宣传品广告和体验广告的效果没有显著差异,概率P-值为0.579。由以上分析
20、可知,如果要获得理想的销售业绩,不宜采用宣传品的形式,可以从报纸、广播和体验中选择一种低成本或操作性强的广告。5、(10分)为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集1999年31个省市自治区部分高校有关社科研究方面的数据,见数据文件“高校科研研究.sav”。(1) 绘制投入的具有高级职称的人数与立项课题数、获奖数之间的散点图,并分析它们之间的线性关系。答:由该简单3D散点图可以看出,具有高级职称的人数与立项课题数、获奖数之间的点大多数都分布在一条直线上,故可以认为三者之间存在线性关系。(2) 由于立项课题数和获奖数都会受到投入的具有高级职称的人数的影响,试分析立项课题数和获奖数的相关关系。分析:建立原假设为课题数和获奖数不相关,备择假设为课题数和获奖数相关。从上表中可以看出,课题总数与获奖数的简单相关系数为0.661,说明两者之间存在正的强相关性。其相关系数检验的概率p-值为0.000近似为0,因此说明当显著性水平=0.05或0.01时,应拒绝原假设,即课题数和获奖数存在相关关系。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1