SPSS数据分析与应用微课版课后习题答案.docx

资源描述

SPSS数据分析与应用微课版课后习题答案.docx

《SPSS数据分析与应用微课版课后习题答案.docx》由会员分享，可在线阅读，更多相关《SPSS数据分析与应用微课版课后习题答案.docx（16页珍藏版）》请在冰豆网上搜索。

SPSS数据分析与应用微课版课后习题答案.docx

SPSS数据分析与应用微课版课后习题答案

《SPSS数据分析与应用》课后习题答案

第一章

一、单项选择题

1-5ADBAA

二、判断题

1-5TTFTT

三、综合题

SPSS有哪两个主要窗口数据编辑器窗口、结果查看器窗口。

数据编辑器窗口的主要功能是对变量进行定义、录入、文件管理、数据分析。

结果查看器窗口的主要功能是结果查看与管理。

第二章

一、单项选择题

1-5ADCDD

二、判断题

1-5FTFTT

三、综合题

字母VAR开头，后面补足5位数字；可通过添加变量名标签、变量值标签增加分析的可读性。

第三章

一、单项选择题

1-8DBDCBCBC

二、判断题

1-5TFFFF

三、思考题

1.将大学生恋爱数据按照年级（升序）、每周娱乐时间（升序）、每周睡觉时间（降序）

进行多重排序。

SPSS操作过程如下：

（1）选择菜单里的数据-排序个案：

将排序变量依次输入得到：

（2）点击确定得到最终结果；

2.利用大学生恋爱数据，对其进行数据去重，筛选条件为全部变量。

SPSS操作结果如下：

本题中筛选条件为全部变量时，无重复个案。

3.利用学生成绩数据，按物理成绩对其进行降序排列。

SPSS操作结果如下所示：

（1）将物理单科的变量作为排序依据，并点击降序排列。

（2）点击确定得到排序结果；

4．利用学生成绩数据求出6门课成绩的平均分，并将平均分重新编码，划分为3个等

级：

60～69、70～79、80～89。

SPSS操作结果如下：

（1）首先求出平均分；

（2）对平均分进行重新编码；

首先重新命名为平均分等级，如下图所示。

其次在变量视图中将平均分这列变量的两位小数变成整数列。

最后进行重新编码，如下图所示结果。

5.利用大学生恋爱数据，采用随机选取中的近似选取方法进行抽样（抽取60%）。

SPSS操作结果如下：

选择数据-选择个案-随即个案样本，填入相应抽取的个案比例。

点击继续-确定，结果如下所示。

6．利用SPSS的变量计算功能，生成服从标准正态分布的100个随机数。

从excel表格自动填充一个1到100的序列，然后粘贴至SPSS第一列，变量命名为“序号”。

在菜单栏中依次点击转换-随机数发生器：

勾选“设置起点”，并在下方选择“随机”，也就是要求软件使用一个随机种子，而不是固定种子（随机数可重复）。

如下图所示：

然后，在菜单栏中依次点击“转换”“计算变量”菜单，调出“计算变量”对话框。

左侧目标变量框中，为即将新增的随机变量命名，比如“随机数”，右侧数字表达式框中输入具体的随机数函数。

本题要求软件自动生成100个均值为0，标准差为1的正态分布随机数。

在函数组中找到随机数函数，软件自动列出多种分布可供选择，本题选择函数RV.NORMAL（MEAN,STDDEV），只需点击函数名，其会自动出现在数字表达式框中，只需修改0和1两个参数即可。

最后点击“确定”按钮，软件执行生成随机数，结果如下所示。

我们看到原序号变量右侧新增新的一列变量随机数，并存储了100个随机数。

第四章

一、单项选择题

1-8ACCAADBA

二、判断题

1-5TTTTT

三、综合题

1.可以从集中趋势、离散程度、分布形态三方面进行描述。

2.众数是总体中出现次数最多的标志值。

是一种由位置决定的平均数。

可以没有众数也可有两个。

众数是一种位置代表值，它的应用场合比较有限。

中位数是将总体中各数据排序后，位于中点位置的。

中位数也反映标志值的集中趋势，也是由位置决定的平均数。

均值集算术平均数，是数据集中趋势的最主要测度值。

它反映了一组数据中心点或代表值，是数据误差互相抵消后客观事物必然性数量特征的反映。

众数最容易计算，但不是永远存在，同时作为集中趋势代表值应用的场合较少；中位数很容易理解、很直观，它不受极端值的影响，这既是它有价值的方面，也是它数据信息利用不够充分的地方；均值是对所有数据平均后计算的一般水平代表值，数据信息提取的最充分。

特别是当要用样本信息对总体进行推断时，均值就更显示出它的各种优良特征。

3.定性变量比如性别，省份。

定量变量比如年龄、体重。

4.柱形图一般用于描述离散型定性数据的对比，每根柱子宽度固定，柱子之间会有间距，横轴变量可以任意排序。

直方图一般用于描述连续型数据的分布关系，每根柱子宽度可以不一样，且一般没有间距，横轴变量有一定顺序规则。

5.散点图用于双连续型定量变量，

分组箱线图用于一个定性变量与一个定量变量的展示。

（1）酒店房价主要集中在1000-2000元之间，存在少量的高价房数据呈右偏分布。

（2）房价类型对酒店房价有明显的影响，豪华套间的房价均价最高，其次是商务间，最后是标准间。

第五章

一、单项选择题

1-5AADCD

二、判断题

1-5FTTTF

三、综合题

1.因子分析的基本步骤为：

（1）确定因子分析的前提条件；

（2）构造因子变量；（3）使因子变量更具可解释性；（4）计算每个样本的因子得分

2.从相关系数矩阵发现有些变量的相关系数很高，如潜在能力POT和理解能力GSP的相关系数达到0.88，理解能力GSP和洞察力LC的相关系数也达到0.88，事业心AMB和自信心SC的相关系数达到0.84，说明变量间有较强的相关性。

同时KMO检验和巴特利特球形度检验发现，15个变量的KMO=0.784;巴特利特球形度检验的显著性<0.05，说明原有的15个变量之间存在较强的相关性，满足因子分析的前提条件。

3.从表5.20可以看出，公共因子1和2的特征值大于1，累计方差贡献率为82.484%，即前两个公因子就能解释所有变量所含信息的82.48%。

所以，这里只需提取前两个公共因子，其他因子可以舍去。

从表5.21可以看出，公共因子1在前3个变量上的载荷较大，在后3个变量的载荷小，故称此因子为“牙膏的传统功能因子“；公共因子2在前3个变量上的载荷较小，在后3个变量的载荷大，故称此因子为“牙膏的额外功能因子“

第六章

一、单项选择题

1-5ABBDD

二、判断题

1-5FFFFT

三、综合题

1.K-means聚类算法的具体过程如下：

第一步：

指定聚类数目k。

既要考虑最终的聚类效果，又要满足研究问题的实际需要。

聚类数目太大或太小都将失去聚类的意义。

第二步：

确定k个类的初始类中心。

常用方法有经验选择法、随机选择法和最小最大法。

第三步：

根据最近原则进行聚类。

依次计算每个观测点到k个类中心的距离，并按照距k个类中心最近的原则，将所有样本分派到最近的类中，形成k个类。

第四步：

重新确定k个类中心。

中心的确定原则是依次计算各类中所有观测点变量的均值，并以均值点作为k个类的中心。

第五步：

判断是否已经满足终止聚类算法的条件，如果未满足，则返回到第三步，不断重复上述过程，直到满足迭代终止条件。

终止聚类算法的条件通常有两个:

第一，目前的迭代次数等于指定的迭代次数;第二，新确定的类中心距上次类中心的最大偏移量小于指定值。

满足上述两个条件中的任意一个便可终止聚类算法。

2.从系统聚类的谱系图中可以看出，

注：

上图为采用组间链接、平方欧式距离产生的谱系图，选择的方法、测量的标准不同，结果亦不相同。

（1）分成三类，第一类为啤酒P和S，第二类为啤酒E、O、D和N,剩余啤酒为第三类。

（2）分成四类，第一类为啤酒P和S，第二类为啤酒E、O、D和N，第三类为啤酒I、T、J、L和M,剩余啤酒为第四类。

3.使用K-means聚类算法将学生分成3类的结果如下：

聚类类别

每类数量

学生编号

含义

学生1、2、3、4、6、8、10、14、17、18、19、20、26、27、30、33、37、39、40、42、43、45、46、47、50

每次测试成绩都不错的学生

学生5、9、11、12、15、16、21、22、23、24、25、31、34、36、38、44、49

每次测试成绩都不太好的学生

学生7、13、28、29、32、35、41、48

成绩不太稳定的学生

注：

若是分类数不同，结果亦不同。

上述结果仅供参考。

第七章

一、单项选择题

1-6DBBABA

二、判断题

1-5FFTTF

三、综合题

1.答：

（1）确定研究的是否是相关关系；

（2）根据业务实际问题确定因变量；

（3）挑选与因变量相关的自变量；

（4）生成模型，通过自变量来预测因变量；

（5）根据模型，通过因变量，来控制自变量。

2.答：

因变量：

单价（元/平方米）

自变量：

城区、房龄、卧室数、厅数、卫生间、总面积（平方米）、朝向、楼层、楼高、装修。

3.答：

（1）如表7.13所示，F检验的p值小于显著性水平（0.05），因此模型整体是显著的，至少有一个自变量对于手机价格有显著影响。

调整后的R方为0.7623，说明自变量能够解释因变量手机价格的76.23%。

（2）就运行内存来说，显著性水平在5%以下，控制其他变量保持不变的情况下，对比2GB，2GB以下的手机价格低11.6%，3GB的手机价格高6.5%，4GB的手机价格高16.8%，6GB的手机价格高34.8%，8GB的手机价格高19.5%。

就机身内存来说，显著性水平在5%以下，控制其他变量保持不变的情况下，对比≤8GB，16GB的手机价格高6.2%，32GB的手机价格高20.0%，64GB的手机价格高32.9%，128GB的手机价格高48.3%，256GB的手机价格高79.1%，支持内存卡的手机价格高14.9%。

第八章

一、单项选择题

1-6AADDDC

二、判断题

1-5FTTFF

三、综合题

1.答：

（1）逻辑回归分析的因变量是“0-1”型数据，如邮件是否为垃圾邮件；线性回归分析的因变量是连续变量，如房价、薪资。

（2）逻辑回归分析和线性回归分析的自变量均可为定性或者定量变量。

2.答：

整体错判率=1-（TP+TN）/（TP+TN+FP+FN）=0.3719

TPR=TP/（TP+FN）=0.5949

FPR=FP/（FP+TN）=0.3595

4.答：

对模型中的工龄的解读：

工龄越长，贷款违约的可能性越小.

对模型中的负债率的解读：

负债率越高，贷款违约的可能性越大.

对模型中的信用卡负债的解读：

信用卡负债越高，贷款违约的可能性越大.

展开阅读全文