《spss数据分析与应用》期末试卷&参考答案.docx
《《spss数据分析与应用》期末试卷&参考答案.docx》由会员分享,可在线阅读,更多相关《《spss数据分析与应用》期末试卷&参考答案.docx(10页珍藏版)》请在冰豆网上搜索。
《SPSS数据分析与应用》期末试卷&答案解析
《SPSS数据分析与应用》期末试卷
一、单项选择题(本大题共15小题,每小题2分,共30分)
1、下列用来描述一组数据的平均水平的是[]
A.均值B.标准差C.偏度D.峰度
2、下列用来描述数据的波动程度的是[]
A.中位数B.均值C.方差D.偏度
3、在SPSS中双定性变量适合绘制下面那种图形[]
A.堆积百分比图B.箱线图C.直方图D.散点图
4、在SPSS中双定量变量适合绘制下面那种图形[]
A.堆积百分比图B.箱线图C.直方图D.散点图
5、在SPSS中一个定性变量、一个定量变量适合绘制下面那种图形[]
A.堆积百分比图B.箱线图C.直方图D.散点图
6、下列属于定性变量的是[]
A.年龄B.驾龄C.性别D.销量
7、以下不属于定量变量的是[]
A.婚姻B.收入C.工龄D.体重
8、以下哪个变量适合做线性回归的因变量[]
A.是否购买B.是否出险C.是否恋爱D.房价
9、以下哪个变量适合做逻辑回归的因变量[]
A.客户是否流失B.酒店价格C.二手房价D.以上都不正确
10、因子分析的作用是[]
A.分类B.降维C.回归D.以上都不正确
11、关于聚类分析,下列说法错误的是[]
A.聚类就是把“类似”的对象聚到一起
B.聚类分析首先要确定特征指标
C.聚类分析中刻画相似度方法只有欧式距离
D.层次聚类法是聚类分析的一种
12“物以类聚,人以群分”与下列哪个模型特征相似[]
A.线性回归B.逻辑回归
C.聚类分析D.因子分析
13、以下哪个因变量可以用线性回归模型进行分析[]
A.大学生薪资影响因素分析 B.信用卡是否逾期
C.某用户是否患胃病的预测 D.明天是否降雨的预测
14、线性回归模型的整体评价,不包括以下哪一项[]
A.F检验的结果B.调整的R方
C.AUC值D.R方的大小
15、关于聚类分析的要点,错误的是[]
A.根据不同的特征指标聚出的类是不同的
B.定义什么是“相似的研究对象”
C.层次聚类就是k均值聚类
D.如何归类
二、多项选择题(本大题共5小题,每小题4分,共20分)在每小题列出的五个备用选项中至少有两个是符合题目要求的,请将其代码填写在题后的括号内。
错选、多选、少选或未选均无分。
16、SPSS可以实现以下哪些分析?
[]
A.频率分析
B.线性回归分析
C.因子分析
D.聚类分析
E.逻辑回归分析
17、关于线性回归模型,描述正确的是[]
A.模型简单
B.可解读性较高
C.在实际数据分析中很常用
D.因变量是定性数据
E.解决的是分类问题
18、以下关于直方图,描述正确的是[]
A.一般用于定性数据
B.反映数据的分布情况
C.显示数据的对称性
D.纵轴可表示频数
E.一般用于定量数据
F.明确要研究的问题,指出可能的商业价值
19、以下属于线性回归基本假设的有[]
A.误差项ε的期望为0
B.误差项ε的方差相等
C.误差项ε相互独立
D.误差项ε服从正态分布
E.以上都不对
20、以下场景可以利用逻辑回归的有[]
A.NBA球员薪资影响因素
B.顾客是否购买某产品
C.火锅团购订单数分析
D.学生对本课程是否满意
E.判断信用卡用户是否逾期
三、判断题(本大题共5小题,每小题2分,共10分)请在每小题的对应的括号内填写,正确的涂写T,错误的涂写F。
21、当变量较多,且相关性较强时比较适合使用因子分析。
[]
22、中位数是排序后位于中间的一位数或两位数的平均值。
[]
23、K均值聚类法就是一层一层地聚。
[]
24、二分类问题一般可以使用逻辑回归分析。
[]
25、逻辑回归预测出来的是Y=0的概率。
[]
四、简答题(本大题共2小题,每小题5分,共10分)
26、茶及茶文化是大众生活中不可缺少的重要内容,但在电商平台上不同的茶叶销量差异很大,现想对影响茶叶销量的影响因素进行分析。
以某电商在售茶叶数据为例(见表1),请根据茶叶数据回答以下问题。
表1:
茶叶数据样例
标题
价格
销售量
好评率
品牌
产品毛重
商品产地
2017新茶云雾绿茶4盒共500克一杯香茶叶明前春茶毛尖
86
96000
100%
一杯香
125
云南省
乐品乐茶2017新茶茶叶
绿茶雀舌茶
59
32000
97%
乐品乐茶
210
安徽省
买2件送精美西施砂壶
印象堂茶叶
39.8
40000
97%
印象堂
100
云南省
立顿(Lipton)茶叶红茶
黄牌精选红茶100包200g(新老包装随机发货)
39.9
82000
97%
立顿
280
安徽省
乐品乐茶2017新茶茶叶
绿茶
99
26000
97%
乐品乐茶
450
安徽省
【首件26元买2送1再送杯】安溪铁观音茶叶散装
40
20000
95%
蓝翼
250
福建省
……
……
……
……
……
……
……
(1)请围绕问题说明数据中的因变量和自变量。
(2)请说明数据中的定量变量和定性变量。
27、收集了北京二手房数据,并对影响房价的影响因素进行分析,请根据北京二手房房价的描述分析图回答以下问题:
(1)对北京二手房价的直方图进行解读,房价单位:
元/平米。
频率
房价
图1:
二手房价直方图
(2)对箱线图进行解读。
房价
城区
图2:
城区与单位房价的箱线图
五、案例分析(本大题共3小题,每小题10分,共30分)
28、北京市房地产市场是我国最为发达、最具代表性的房地产市场之一。
因此以北京二手房为研究对象,通过线性回归分析探究了学区、地铁、房屋面积等相关因素对二手房价(单位:
万元/平米)的影响作用,建立了线性回归模型,得到模型结果见表2。
表2:
线性回归模型结果
变量
回归系数
p值
备注
截距项
3.315
<0.001
城区-丰台
0.131
0.002
基准组:
石景山区
城区-朝阳
0.875
<.001
城区-东城
2.443
<.001
城区-海淀
2.191
<.001
城区-西城
3.705
<.001
学区房
1.183
<.001
基准组:
无学区
地铁房
0.672
0.003
基准组:
不邻近地铁
楼层-中层
0.152
<.001
基准组:
高层
楼层-低层
0.198
<.001
客厅-有
0.163
<.001
基准组:
无客厅
卧室数
0.111
0.611
房间面积
-0.002
<.001
F检验
p值<0.0001
调整的R2
0.7901
请根据以上建模结果回答如下问题。
(1)在5%的显著性水平下,对模型整体显著性和模型拟合效果进行解读。
(2)在5%的显著性水平下,哪些自变量对因变量是有显著影响的,并说明原因。
(3)在5%的显著性水平下,分别对学区房、楼层、房间面积这3个变量的回归系数进行解读。
29、伴随着信用卡的普及,持卡人的消费、还款等信用卡使用行为已经成为个人征信的重要依据。
本案例以是否逾期为因变量建立了逻辑回归模型,模型结果见表3。
表3:
逻辑回归模型结果
变量
回归系数
P值
备注
截距项
-0.137
<0.001
性别-女性
-0.268
<0.001
基准组:
男性
信用卡使用率
0.544
<0.001
信用卡额度
-0.477
<0.001
房贷-有贷款
-0.430
<0.001
基准组:
无房贷
历史逾期行为-有逾期
1.624
<0.001
基准组:
无历史逾期
开户行为-有开户
0.015
0.058
基准组:
无开户行为
全模型似然比检验
p值<0.001
同时,绘制了模型的ROC曲线,并计算AUC值为:
0.755。
基于逻辑回归模型的结果,得到如下混淆矩阵,见表4。
表4:
混淆矩阵
预测值
真实值
未逾期
逾期
总计
未逾期
2491
727
3218
逾期
1845
3308
5153
总计
4336
4035
8371
请根据上面案例分析结果回答如下问题。
(1)在5%的显著性水平下,模型整体是否显著,说明原因。
(2)在5%的显著性水平下,哪些变量对逾期有显著影响。
(3)在5%的显著性水平下,对有显著影响的变量系数进行解读。
(4)根据混淆矩阵的结果,计算整体错判率、TPR、FPR。
30、当前有8个裁判对300名选手打分,最低分为1分,最高分为10分;希望对8个裁判进行聚类,以识别出裁判的风格类型。
得到聚类树状图见图3。
图3:
聚类树状图
根据图中数据回答以下问题:
(1)请写出如何将图1的裁判聚类树状图按照编号划分为3类;
(2)请根据
(1)中的类别,分别写出这三类裁判的编号。
参考答案
一、单项选择题(本大题共15小题,每小题2分,共30分)
1-5:
ACADB
6-10:
CADAB
11-15:
CCACC
二、多项选择题(本大题共5小题,每小题4分,共20分)
16:
ABCDE
17:
ABC
18:
BCDE
19:
ABCD
20:
BDE
三、判断题(本大题共5小题,每小题2分,共10分)请在每小题的对应的括号内填写,正确的涂写T,错误的涂写F。
21-25:
TTTTF
四、简答题(本大题共2小题,每小题5分,共10分)
26解答:
(1)因变量:
销售量;自变量:
价格、好评率、品牌、产品毛重、商品产地。
(2)定量变量:
销售量、价格、好评率、产品毛重。
定性变量。
品牌、商品产地。
27解答:
(1)图中横坐标表示房价分布,纵左边表示频数。
北京二手房价主要集中在40000-50000元/平米之间,平均房价为61151元/平米,分布呈现右偏分布,即存在少量的高价房。
(2)图中横坐标表示城区,纵左边表示了房价。
从箱线图可以看出不同城区的平均房价有明显差异,西城区的平均房价最高、丰台区的平均房价最低。
五、案例分析(本大题共3小题,每小题10分,共30分)
28解答:
(1)整体检验:
F检验p<0.05模型整体显著
拟合效果:
调整后的R2为0.7901,拟合效果较好,表示解释变量能解释因变量变异程度的79.01%。
(2)显著的变量:
城区、学区房、地铁房、楼层、客厅、房间面积。
或者写:
除去卧室数其他变量都显著。
因为这些自变量所对应的P值小于0.05。
(3)在控制其他因素不变的情况下,
学区房:
学区房比无学区的房价贵,平均每平米贵1.183万元。
楼层:
高层的房价最低,底层的房价贵高。
中层的房子平均每平米比高层贵0.152万元,低层的房子平均每平米比高层贵0.198万元。
房间面积:
房屋面积越大,房价越低。
房屋面积每增加1平米,房价平均降0.002万元。
29解答:
(1)整体检验:
似然比检验p<0.05模型整体显著。
(2)有显著影响的变量:
性别、信用卡使用率、信用卡额度、房贷、历史逾期行为。
(3)在5%的显著性水平下,控制其他因素不变:
性别:
女性逾期可能性比男性低。
信用卡使用率:
信用卡使用率越高逾期可能性越大。
信用卡额度:
信用卡额度越大,逾期可能性越小。
房贷:
有贷款的比没有贷款的逾期可能性小。
历史逾期行为:
有逾期行为的比没有历史逾期行为的逾期可能性大。
(4)错分率:
(727+1847)/8371=30.72%
TPR:
3308/5153=64.19%;
FPR:
727/3218=22.59%。
30解答:
(1)在横坐标等于0.2处用垂直的一条线与谱系聚类图相交,总共有3个交点,可将数据分为3类;
(2)第一类:
8
第二类:
5、3、7
第三类:
1、6、2、4
10/10