SPSS数据分析与应用微课版课后习题答案.docx
《SPSS数据分析与应用微课版课后习题答案.docx》由会员分享,可在线阅读,更多相关《SPSS数据分析与应用微课版课后习题答案.docx(16页珍藏版)》请在冰豆网上搜索。
![SPSS数据分析与应用微课版课后习题答案.docx](https://file1.bdocx.com/fileroot1/2023-2/5/dabe4b2a-dc3e-49d8-bb84-f465bb87e684/dabe4b2a-dc3e-49d8-bb84-f465bb87e6841.gif)
SPSS数据分析与应用微课版课后习题答案
《SPSS数据分析与应用》课后习题答案
第一章
一、单项选择题
1-5ADBAA
二、判断题
1-5TTFTT
三、综合题
SPSS有哪两个主要窗口数据编辑器窗口、结果查看器窗口。
数据编辑器窗口的主要功能是对变量进行定义、录入、文件管理、数据分析。
结果查看器窗口的主要功能是结果查看与管理。
第二章
一、单项选择题
1-5ADCDD
二、判断题
1-5FTFTT
三、综合题
字母VAR开头,后面补足5位数字;可通过添加变量名标签、变量值标签增加分析的可读性。
第三章
一、单项选择题
1-8DBDCBCBC
二、判断题
1-5TFFFF
三、思考题
1.将大学生恋爱数据按照年级(升序)、每周娱乐时间(升序)、每周睡觉时间(降序)
进行多重排序。
SPSS操作过程如下:
(1)选择菜单里的数据-排序个案:
将排序变量依次输入得到:
(2)点击确定得到最终结果;
2.利用大学生恋爱数据,对其进行数据去重,筛选条件为全部变量。
SPSS操作结果如下:
本题中筛选条件为全部变量时,无重复个案。
3.利用学生成绩数据,按物理成绩对其进行降序排列。
SPSS操作结果如下所示:
(1)将物理单科的变量作为排序依据,并点击降序排列。
(2)点击确定得到排序结果;
4.利用学生成绩数据求出6门课成绩的平均分,并将平均分重新编码,划分为3个等
级:
60~69、70~79、80~89。
SPSS操作结果如下:
(1)首先求出平均分;
(2)对平均分进行重新编码;
首先重新命名为平均分等级,如下图所示。
其次在变量视图中将平均分这列变量的两位小数变成整数列。
最后进行重新编码,如下图所示结果。
5.利用大学生恋爱数据,采用随机选取中的近似选取方法进行抽样(抽取60%)。
SPSS操作结果如下:
选择数据-选择个案-随即个案样本,填入相应抽取的个案比例。
点击继续-确定,结果如下所示。
6.利用SPSS的变量计算功能,生成服从标准正态分布的100个随机数。
从excel表格自动填充一个1到100的序列,然后粘贴至SPSS第一列,变量命名为“序号”。
在菜单栏中依次点击转换-随机数发生器:
勾选“设置起点”,并在下方选择“随机”,也就是要求软件使用一个随机种子,而不是固定种子(随机数可重复)。
如下图所示:
然后,在菜单栏中依次点击“转换”“计算变量”菜单,调出“计算变量”对话框。
左侧目标变量框中,为即将新增的随机变量命名,比如“随机数”,右侧数字表达式框中输入具体的随机数函数。
本题要求软件自动生成100个均值为0,标准差为1的正态分布随机数。
在函数组中找到随机数函数,软件自动列出多种分布可供选择,本题选择函数RV.NORMAL(MEAN,STDDEV),只需点击函数名,其会自动出现在数字表达式框中,只需修改0和1两个参数即可。
最后点击“确定”按钮,软件执行生成随机数,结果如下所示。
我们看到原序号变量右侧新增新的一列变量随机数,并存储了100个随机数。
第四章
一、单项选择题
1-8ACCAADBA
二、判断题
1-5TTTTT
三、综合题
1.可以从集中趋势、离散程度、分布形态三方面进行描述。
2.众数是总体中出现次数最多的标志值。
是一种由位置决定的平均数。
可以没有众数也可有两个。
众数是一种位置代表值,它的应用场合比较有限。
中位数是将总体中各数据排序后,位于中点位置的。
中位数也反映标志值的集中趋势,也是由位置决定的平均数。
均值集算术平均数,是数据集中趋势的最主要测度值。
它反映了一组数据中心点或代表值,是数据误差互相抵消后客观事物必然性数量特征的反映。
众数最容易计算,但不是永远存在,同时作为集中趋势代表值应用的场合较少;中位数很容易理解、很直观,它不受极端值的影响,这既是它有价值的方面,也是它数据信息利用不够充分的地方;均值是对所有数据平均后计算的一般水平代表值,数据信息提取的最充分。
特别是当要用样本信息对总体进行推断时,均值就更显示出它的各种优良特征。
3.定性变量比如性别,省份。
定量变量比如年龄、体重。
4.柱形图一般用于描述离散型定性数据的对比,每根柱子宽度固定,柱子之间会有间距,横轴变量可以任意排序。
直方图一般用于描述连续型数据的分布关系,每根柱子宽度可以不一样,且一般没有间距,横轴变量有一定顺序规则。
5.散点图用于双连续型定量变量,
分组箱线图用于一个定性变量与一个定量变量的展示。
6.
(1)酒店房价主要集中在1000-2000元之间,存在少量的高价房数据呈右偏分布。
(2)房价类型对酒店房价有明显的影响,豪华套间的房价均价最高,其次是商务间,最后是标准间。
第五章
一、单项选择题
1-5AADCD
二、判断题
1-5FTTTF
三、综合题
1.因子分析的基本步骤为:
(1)确定因子分析的前提条件;
(2)构造因子变量;(3)使因子变量更具可解释性;(4)计算每个样本的因子得分
2.从相关系数矩阵发现有些变量的相关系数很高,如潜在能力POT和理解能力GSP的相关系数达到0.88,理解能力GSP和洞察力LC的相关系数也达到0.88,事业心AMB和自信心SC的相关系数达到0.84,说明变量间有较强的相关性。
同时KMO检验和巴特利特球形度检验发现,15个变量的KMO=0.784;巴特利特球形度检验的显著性<0.05,说明原有的15个变量之间存在较强的相关性,满足因子分析的前提条件。
3.从表5.20可以看出,公共因子1和2的特征值大于1,累计方差贡献率为82.484%,即前两个公因子就能解释所有变量所含信息的82.48%。
所以,这里只需提取前两个公共因子,其他因子可以舍去。
从表5.21可以看出,公共因子1在前3个变量上的载荷较大,在后3个变量的载荷小,故称此因子为“牙膏的传统功能因子“;公共因子2在前3个变量上的载荷较小,在后3个变量的载荷大,故称此因子为“牙膏的额外功能因子“
第六章
一、单项选择题
1-5ABBDD
二、判断题
1-5FFFFT
三、综合题
1.K-means聚类算法的具体过程如下:
第一步:
指定聚类数目k。
既要考虑最终的聚类效果,又要满足研究问题的实际需要。
聚类数目太大或太小都将失去聚类的意义。
第二步:
确定k个类的初始类中心。
常用方法有经验选择法、随机选择法和最小最大法。
第三步:
根据最近原则进行聚类。
依次计算每个观测点到k个类中心的距离,并按照距k个类中心最近的原则,将所有样本分派到最近的类中,形成k个类。
第四步:
重新确定k个类中心。
中心的确定原则是依次计算各类中所有观测点变量的均值,并以均值点作为k个类的中心。
第五步:
判断是否已经满足终止聚类算法的条件,如果未满足,则返回到第三步,不断重复上述过程,直到满足迭代终止条件。
终止聚类算法的条件通常有两个:
第一,目前的迭代次数等于指定的迭代次数;第二,新确定的类中心距上次类中心的最大偏移量小于指定值。
满足上述两个条件中的任意一个便可终止聚类算法。
2.从系统聚类的谱系图中可以看出,
注:
上图为采用组间链接、平方欧式距离产生的谱系图,选择的方法、测量的标准不同,结果亦不相同。
(1)分成三类,第一类为啤酒P和S,第二类为啤酒E、O、D和N,剩余啤酒为第三类。
(2)分成四类,第一类为啤酒P和S,第二类为啤酒E、O、D和N,第三类为啤酒I、T、J、L和M,剩余啤酒为第四类。
3.使用K-means聚类算法将学生分成3类的结果如下:
聚类类别
每类数量
学生编号
含义
1
25
学生1、2、3、4、6、8、10、14、17、18、19、20、26、27、30、33、37、39、40、42、43、45、46、47、50
每次测试成绩都不错的学生
2
17
学生5、9、11、12、15、16、21、22、23、24、25、31、34、36、38、44、49
每次测试成绩都不太好的学生
3
8
学生7、13、28、29、32、35、41、48
成绩不太稳定的学生
注:
若是分类数不同,结果亦不同。
上述结果仅供参考。
第七章
一、单项选择题
1-6DBBABA
二、判断题
1-5FFTTF
三、综合题
1.答:
(1)确定研究的是否是相关关系;
(2)根据业务实际问题确定因变量;
(3)挑选与因变量相关的自变量;
(4)生成模型,通过自变量来预测因变量;
(5)根据模型,通过因变量,来控制自变量。
2.答:
因变量:
单价(元/平方米)
自变量:
城区、房龄、卧室数、厅数、卫生间、总面积(平方米)、朝向、楼层、楼高、装修。
3.答:
(1)如表7.13所示,F检验的p值小于显著性水平(0.05),因此模型整体是显著的,至少有一个自变量对于手机价格有显著影响。
调整后的R方为0.7623,说明自变量能够解释因变量手机价格的76.23%。
(2)就运行内存来说,显著性水平在5%以下,控制其他变量保持不变的情况下,对比2GB,2GB以下的手机价格低11.6%,3GB的手机价格高6.5%,4GB的手机价格高16.8%,6GB的手机价格高34.8%,8GB的手机价格高19.5%。
就机身内存来说,显著性水平在5%以下,控制其他变量保持不变的情况下,对比≤8GB,16GB的手机价格高6.2%,32GB的手机价格高20.0%,64GB的手机价格高32.9%,128GB的手机价格高48.3%,256GB的手机价格高79.1%,支持内存卡的手机价格高14.9%。
第八章
一、单项选择题
1-6AADDDC
二、判断题
1-5FTTFF
三、综合题
1.答:
(1)逻辑回归分析的因变量是“0-1”型数据,如邮件是否为垃圾邮件;线性回归分析的因变量是连续变量,如房价、薪资。
(2)逻辑回归分析和线性回归分析的自变量均可为定性或者定量变量。
2.答:
整体错判率=1-(TP+TN)/(TP+TN+FP+FN)=0.3719
TPR=TP/(TP+FN)=0.5949
FPR=FP/(FP+TN)=0.3595
4.答:
对模型中的工龄的解读:
工龄越长,贷款违约的可能性越小.
对模型中的负债率的解读:
负债率越高,贷款违约的可能性越大.
对模型中的信用卡负债的解读:
信用卡负债越高,贷款违约的可能性越大.