《spss数据分析与应用》期末试卷&参考答案.docx

上传人:zf 文档编号:11908975 上传时间:2023-04-10 格式:DOCX 页数:10 大小:118.67KB
下载 相关 举报
《spss数据分析与应用》期末试卷&参考答案.docx_第1页
第1页 / 共10页
《spss数据分析与应用》期末试卷&参考答案.docx_第2页
第2页 / 共10页
《spss数据分析与应用》期末试卷&参考答案.docx_第3页
第3页 / 共10页
《spss数据分析与应用》期末试卷&参考答案.docx_第4页
第4页 / 共10页
《spss数据分析与应用》期末试卷&参考答案.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

《spss数据分析与应用》期末试卷&参考答案.docx

《《spss数据分析与应用》期末试卷&参考答案.docx》由会员分享,可在线阅读,更多相关《《spss数据分析与应用》期末试卷&参考答案.docx(10页珍藏版)》请在冰豆网上搜索。

《spss数据分析与应用》期末试卷&参考答案.docx

《SPSS数据分析与应用》期末试卷&答案解析

《SPSS数据分析与应用》期末试卷

一、单项选择题(本大题共15小题,每小题2分,共30分)

1、下列用来描述一组数据的平均水平的是[]

A.均值B.标准差C.偏度D.峰度

2、下列用来描述数据的波动程度的是[]

A.中位数B.均值C.方差D.偏度

3、在SPSS中双定性变量适合绘制下面那种图形[]

A.堆积百分比图B.箱线图C.直方图D.散点图

4、在SPSS中双定量变量适合绘制下面那种图形[]

A.堆积百分比图B.箱线图C.直方图D.散点图

5、在SPSS中一个定性变量、一个定量变量适合绘制下面那种图形[]

A.堆积百分比图B.箱线图C.直方图D.散点图

6、下列属于定性变量的是[]

A.年龄B.驾龄C.性别D.销量

7、以下不属于定量变量的是[]

A.婚姻B.收入C.工龄D.体重

8、以下哪个变量适合做线性回归的因变量[]

A.是否购买B.是否出险C.是否恋爱D.房价

9、以下哪个变量适合做逻辑回归的因变量[]

A.客户是否流失B.酒店价格C.二手房价D.以上都不正确

10、因子分析的作用是[]

A.分类B.降维C.回归D.以上都不正确

11、关于聚类分析,下列说法错误的是[]

A.聚类就是把“类似”的对象聚到一起

B.聚类分析首先要确定特征指标

C.聚类分析中刻画相似度方法只有欧式距离

D.层次聚类法是聚类分析的一种

12“物以类聚,人以群分”与下列哪个模型特征相似[]

A.线性回归B.逻辑回归

C.聚类分析D.因子分析

13、以下哪个因变量可以用线性回归模型进行分析[]

A.大学生薪资影响因素分析 B.信用卡是否逾期

C.某用户是否患胃病的预测 D.明天是否降雨的预测

14、线性回归模型的整体评价,不包括以下哪一项[]

A.F检验的结果B.调整的R方

C.AUC值D.R方的大小

15、关于聚类分析的要点,错误的是[]

A.根据不同的特征指标聚出的类是不同的

B.定义什么是“相似的研究对象”

C.层次聚类就是k均值聚类

D.如何归类

二、多项选择题(本大题共5小题,每小题4分,共20分)在每小题列出的五个备用选项中至少有两个是符合题目要求的,请将其代码填写在题后的括号内。

错选、多选、少选或未选均无分。

16、SPSS可以实现以下哪些分析?

[]

A.频率分析

B.线性回归分析

C.因子分析

D.聚类分析

E.逻辑回归分析

17、关于线性回归模型,描述正确的是[]

A.模型简单

B.可解读性较高

C.在实际数据分析中很常用

D.因变量是定性数据

E.解决的是分类问题

18、以下关于直方图,描述正确的是[]

A.一般用于定性数据

B.反映数据的分布情况

C.显示数据的对称性

D.纵轴可表示频数

E.一般用于定量数据

F.明确要研究的问题,指出可能的商业价值

19、以下属于线性回归基本假设的有[]

A.误差项ε的期望为0

B.误差项ε的方差相等

C.误差项ε相互独立

D.误差项ε服从正态分布

E.以上都不对

20、以下场景可以利用逻辑回归的有[]

A.NBA球员薪资影响因素

B.顾客是否购买某产品

C.火锅团购订单数分析

D.学生对本课程是否满意

E.判断信用卡用户是否逾期

三、判断题(本大题共5小题,每小题2分,共10分)请在每小题的对应的括号内填写,正确的涂写T,错误的涂写F。

21、当变量较多,且相关性较强时比较适合使用因子分析。

[]

22、中位数是排序后位于中间的一位数或两位数的平均值。

[]

23、K均值聚类法就是一层一层地聚。

[]

24、二分类问题一般可以使用逻辑回归分析。

[]

25、逻辑回归预测出来的是Y=0的概率。

[]

四、简答题(本大题共2小题,每小题5分,共10分)

26、茶及茶文化是大众生活中不可缺少的重要内容,但在电商平台上不同的茶叶销量差异很大,现想对影响茶叶销量的影响因素进行分析。

以某电商在售茶叶数据为例(见表1),请根据茶叶数据回答以下问题。

表1:

茶叶数据样例

标题

价格

销售量

好评率

品牌

产品毛重

商品产地

2017新茶云雾绿茶4盒共500克一杯香茶叶明前春茶毛尖

86

96000

100%

一杯香

125

云南省

乐品乐茶2017新茶茶叶

绿茶雀舌茶

59

32000

97%

乐品乐茶

210

安徽省

买2件送精美西施砂壶

印象堂茶叶

39.8

40000

97%

印象堂

100

云南省

立顿(Lipton)茶叶红茶

黄牌精选红茶100包200g(新老包装随机发货)

39.9

82000

97%

立顿

280

安徽省

乐品乐茶2017新茶茶叶

绿茶

99

26000

97%

乐品乐茶

450

安徽省

【首件26元买2送1再送杯】安溪铁观音茶叶散装

40

20000

95%

蓝翼

250

福建省

……

……

……

……

……

……

……

(1)请围绕问题说明数据中的因变量和自变量。

(2)请说明数据中的定量变量和定性变量。

27、收集了北京二手房数据,并对影响房价的影响因素进行分析,请根据北京二手房房价的描述分析图回答以下问题:

(1)对北京二手房价的直方图进行解读,房价单位:

元/平米。

频率

房价

图1:

二手房价直方图

(2)对箱线图进行解读。

房价

城区

图2:

城区与单位房价的箱线图

五、案例分析(本大题共3小题,每小题10分,共30分)

28、北京市房地产市场是我国最为发达、最具代表性的房地产市场之一。

因此以北京二手房为研究对象,通过线性回归分析探究了学区、地铁、房屋面积等相关因素对二手房价(单位:

万元/平米)的影响作用,建立了线性回归模型,得到模型结果见表2。

表2:

线性回归模型结果

变量

回归系数

p值

备注

截距项

3.315

<0.001

城区-丰台

0.131

0.002

基准组:

石景山区

城区-朝阳

0.875

<.001

城区-东城

2.443

<.001

城区-海淀

2.191

<.001

城区-西城

3.705

<.001

学区房

1.183

<.001

基准组:

无学区

地铁房

0.672

0.003

基准组:

不邻近地铁

楼层-中层

0.152

<.001

基准组:

高层

楼层-低层

0.198

<.001

客厅-有

0.163

<.001

基准组:

无客厅

卧室数

0.111

0.611

房间面积

-0.002

<.001

F检验

p值<0.0001

调整的R2

0.7901

请根据以上建模结果回答如下问题。

(1)在5%的显著性水平下,对模型整体显著性和模型拟合效果进行解读。

(2)在5%的显著性水平下,哪些自变量对因变量是有显著影响的,并说明原因。

(3)在5%的显著性水平下,分别对学区房、楼层、房间面积这3个变量的回归系数进行解读。

29、伴随着信用卡的普及,持卡人的消费、还款等信用卡使用行为已经成为个人征信的重要依据。

本案例以是否逾期为因变量建立了逻辑回归模型,模型结果见表3。

表3:

逻辑回归模型结果

变量

回归系数

P值

备注

截距项

-0.137

<0.001

性别-女性

-0.268

<0.001

基准组:

男性

信用卡使用率

0.544

<0.001

信用卡额度

-0.477

<0.001

房贷-有贷款

-0.430

<0.001

基准组:

无房贷

历史逾期行为-有逾期

1.624

<0.001

基准组:

无历史逾期

开户行为-有开户

0.015

0.058

基准组:

无开户行为

全模型似然比检验

p值<0.001

同时,绘制了模型的ROC曲线,并计算AUC值为:

0.755。

基于逻辑回归模型的结果,得到如下混淆矩阵,见表4。

表4:

混淆矩阵

预测值

真实值

未逾期

逾期

总计

未逾期

2491

727

3218

逾期

1845

3308

5153

总计

4336

4035

8371

请根据上面案例分析结果回答如下问题。

(1)在5%的显著性水平下,模型整体是否显著,说明原因。

(2)在5%的显著性水平下,哪些变量对逾期有显著影响。

(3)在5%的显著性水平下,对有显著影响的变量系数进行解读。

(4)根据混淆矩阵的结果,计算整体错判率、TPR、FPR。

30、当前有8个裁判对300名选手打分,最低分为1分,最高分为10分;希望对8个裁判进行聚类,以识别出裁判的风格类型。

得到聚类树状图见图3。

图3:

聚类树状图

根据图中数据回答以下问题:

(1)请写出如何将图1的裁判聚类树状图按照编号划分为3类;

(2)请根据

(1)中的类别,分别写出这三类裁判的编号。

参考答案

一、单项选择题(本大题共15小题,每小题2分,共30分)

1-5:

ACADB

6-10:

CADAB

11-15:

CCACC

二、多项选择题(本大题共5小题,每小题4分,共20分)

16:

ABCDE

17:

ABC

18:

BCDE

19:

ABCD

20:

BDE

三、判断题(本大题共5小题,每小题2分,共10分)请在每小题的对应的括号内填写,正确的涂写T,错误的涂写F。

21-25:

TTTTF

四、简答题(本大题共2小题,每小题5分,共10分)

26解答:

(1)因变量:

销售量;自变量:

价格、好评率、品牌、产品毛重、商品产地。

(2)定量变量:

销售量、价格、好评率、产品毛重。

定性变量。

品牌、商品产地。

27解答:

(1)图中横坐标表示房价分布,纵左边表示频数。

北京二手房价主要集中在40000-50000元/平米之间,平均房价为61151元/平米,分布呈现右偏分布,即存在少量的高价房。

(2)图中横坐标表示城区,纵左边表示了房价。

从箱线图可以看出不同城区的平均房价有明显差异,西城区的平均房价最高、丰台区的平均房价最低。

五、案例分析(本大题共3小题,每小题10分,共30分)

28解答:

(1)整体检验:

F检验p<0.05模型整体显著

拟合效果:

调整后的R2为0.7901,拟合效果较好,表示解释变量能解释因变量变异程度的79.01%。

(2)显著的变量:

城区、学区房、地铁房、楼层、客厅、房间面积。

或者写:

除去卧室数其他变量都显著。

因为这些自变量所对应的P值小于0.05。

(3)在控制其他因素不变的情况下,

学区房:

学区房比无学区的房价贵,平均每平米贵1.183万元。

楼层:

高层的房价最低,底层的房价贵高。

中层的房子平均每平米比高层贵0.152万元,低层的房子平均每平米比高层贵0.198万元。

房间面积:

房屋面积越大,房价越低。

房屋面积每增加1平米,房价平均降0.002万元。

29解答:

(1)整体检验:

似然比检验p<0.05模型整体显著。

(2)有显著影响的变量:

性别、信用卡使用率、信用卡额度、房贷、历史逾期行为。

(3)在5%的显著性水平下,控制其他因素不变:

性别:

女性逾期可能性比男性低。

信用卡使用率:

信用卡使用率越高逾期可能性越大。

信用卡额度:

信用卡额度越大,逾期可能性越小。

房贷:

有贷款的比没有贷款的逾期可能性小。

历史逾期行为:

有逾期行为的比没有历史逾期行为的逾期可能性大。

(4)错分率:

(727+1847)/8371=30.72%

TPR:

3308/5153=64.19%;

FPR:

727/3218=22.59%。

30解答:

(1)在横坐标等于0.2处用垂直的一条线与谱系聚类图相交,总共有3个交点,可将数据分为3类;

(2)第一类:

8

第二类:

5、3、7

第三类:

1、6、2、4

10/10

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机软件及应用

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1