spss复习题.docx
《spss复习题.docx》由会员分享,可在线阅读,更多相关《spss复习题.docx(32页珍藏版)》请在冰豆网上搜索。
spss复习题
SPSS复习资料
一、选择题
1、SPSS数据文件的扩展名是()。
.sav
2、SPSS软件的三种运行管理方式:
()、()和()。
完全窗口菜单运行管理方式程序运行管理方式混合运行管理方式
输出窗口的主要功能:
()。
显示和管理SPSS统计分析结果、报表和图形。
3、统计学依据数据的度量尺度将数据划分为三大类,()、()和()。
定距型数据定类型数据定序型数据
4、SPSS有两个基本窗口:
()和()。
数据编辑窗口和结果输出窗口。
5、SPSS数据的组织方式有两种:
()和()。
原始数据的组织方式和计数数据的组织方式
5、常见的基本描述统计量有三大类:
()、()和()。
刻画集中趋势的统计量刻画离中趋势的统计量刻画分布形态的统计量
6、数据编辑窗口的主要功能:
()、()和()。
定义SPSS数据的结构录入编辑管理待分析的数据。
7、填写下面的方差分析表ANOVA()
Model
SumofSquares
df
MeanSquare
F
Sig
1
Regression
1252
1
41.856
0.000
Residual
---
---
Total
1774
19
---
---
---
12525221829
8、SPSS对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有()、()和()。
Pearson简单相关系数、Spearman等级相关系数和Kendallτ相关系数等。
9、利用样本相关系数r进行变量间线性关系的分析,一般()表示两变量有较强的线性关系;()表示两变量之间的线性关系较弱。
|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较弱
10、利用样本相关系数r进行变量间线性关系的分析,r=()表示两变量存在完全正相关;r=()表示两变量存在完全负相关;r=()表示两变量不相关。
r=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表示两变量不相关
11、样本相关系数r的取值范围是()。
在-1~+1之间
12、对回归方程的检验主要包括()、()、()和()。
回归方程的拟合优度检验回归方程的显著性检验回归系数的显著性检验残差分析
13、层次聚类有两种类型,分别是()和()。
Q型聚类和R型聚类;层次聚类的聚类方式又有两种,分别是()和()。
凝聚方式聚类和分解方式聚类。
14、根据控制变量的个数可将方差分析分为()和()。
单因素方差分析、多因素方差分析;根据观测变量的个数可将方差分析分为()和()。
一元方差分析(单因变量方差分析)和多元方差分析(多因变量方差分析)。
5、方差分析的适用条件、和
。
6、spss进行数据的行列互换时,选择菜单下的命令。
二、简答题
1、简述SPSS数据文件的特点
答:
SPSS数据文件的特点:
SPSS是一个有别于其他文件的特殊格式的文件,SPSS数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,其中的数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。
基于上述特点,建立SPSS数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。
2、简述数据排序的作用
答:
数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;
通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;
通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。
3、简述频数分析的目的和基本任务
答:
目的:
基本统计分析往往从频数分析开始。
通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。
基本任务:
(1)频数分析的第一个基本任务是编制频数分布表。
(2)频数分析的第二个任务是绘制统计图
4、简述回归分析的一般步骤
答:
(1)确定回归方程中的解释变量(自变量)和被解释变量(因变量)
(2)确定回归方程;
(3)对回归方程进行各种检验;
(4)利用回归方程进行预测。
5、什么是回归分析?
答:
回归分析是一种应用极为广泛的数量分析方法。
它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为预测提供科学依据。
6、什么是聚类分析?
答:
聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度(各变量取值上的总体差异程度)在没有先验知识(没有事先指定的分类标准)的情况下进行自动分类,产生多个分类结果。
类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。
7、简述聚类分析中凝聚方式聚类过程
答:
其过程是,首先,每个个体自成一类;然后,按照某种方法度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密的个体或小类再聚到一类;重复上述过程,直到所有个体聚成一个大类为止。
可见,这种聚类方式对n个个体通过n-1步可凝聚成一大类。
8、简述聚类分析中分解方式聚类过程
答:
其过程是,首先,所有个体都属一大类;然后,按照某种方法度量所有个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去,形成两类;接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;重复上述过程,不断进行类分解,直到所有个体自成一类为止。
可见,这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。
9、假设检验的基本思想。
答:
假设检验的基本思路是首先对总体参数提出假设,然后再利用样本告知的信息去验证先前提出的假设是否成立。
如果样本数据不能够充分证明和支持假设,则在一定的概率条件下,应拒绝假设;相反,如果不能够充分证明和支持假设是不成立的,则不能推翻假设成立的合理性和真实性。
上述假设检验推断过程所依据的原理是小概率原理。
10、简述假设检验的步骤
答:
提出原假设(零假设)H0;
确定适当的检验统计量;
计算检验统计量的值发生的概率(P值);
给定显著性水平;
作出统计决策。
11、多选项分析有两种方法:
(1)多选项二分法;
(2)多选项分类法。
三、分析题(共50分)
1、根据保险公司人员构成情况数据,分析全国性保险公司与外资和合资保险公司中具有高等教育水平员工比例的均值有无显著差异?
为什么?
分析全国性保险公司与外资和合资保险公司中年轻人比例的均值有无显著差异?
为什么?
(显著性水平α=0.05)
GroupStatistics
公司类别
N
Mean
Std.Deviation
Std.ErrorMean
年轻人比例
全国性公司
8
.5923
.11386
.04026
外资和中外合资
16
.7940
.11018
.02755
受高等教育比例
全国性公司
8
.6657
.16957
.05995
外资和中外合资
10
.8257
.13178
.04167
IndependentSamplesTest
年轻人比例
受高等教育比例
Equalvariancesassumed
Equalvariancesnotassumed
Equalvariancesassumed
Equalvariancesnotassumed
Levene'sTestforEqualityofVariances
F
.181
.912
Sig.
.675
.354
t-testforEqualityofMeans
t
-4.183
-4.135
-2.256
-2.191
df
22
13.689
16
13.032
Sig.(2-tailed)
.000
.001
.038
.047
MeanDifference
-.20169
-.20169
-.16000
-.16000
Std.ErrorDifference
.04822
.04878
.07091
.07301
95%ConfidenceIntervaloftheDifference
Lower
-.30170
-.30653
-.31033
-.31770
Upper
-.10168
-.09685
-.00968
-.00231
答:
上述问题的两个原假设分别为:
两类公司中具有高等教育水平员工比例均值无显著差异。
H0:
μ1-μ2=0
两类公司中年轻人比例均值无显著差异。
H0:
μ1-μ2=0
由上表可知:
全国性公司、外资和中外合资公司中,外资和中外合资公司具有高等教育水平员工比例均值要高于全国性公司。
通过检验应推断这种差异是由于抽样误差造成的还是系统性的。
分析结论应通过两步完成:
第一步,两总体方差是否相等的F检验。
该检验的F统计量的观察值为0.912,对应的概率P-值为0.354.显著性水平α=0.05,由于概率P-值大于0.05,可以认为两总体方差无显著性差异。
第二步,两总体均值的检验。
在第一步中,由于两总体方差无显著性差异,因此应看第一列t检验结果。
T统计量的观测值为-2.256,对应的双尾概率P-值为0.038,显著性水平α=0.05,由于概率P-值小于0.05,可以认为两总体的均值存在显著性差异,即国性保险公司与外资和合资保险公司中具有高等教育水平员工比例的均值有显著差异。
同时两总体均值差的95%置信区间没有跨零,也从另一角度证实了这一结论。
由上表可知:
全国性公司、外资和中外合资公司中,外资和中外合资公司年轻人比例均值要高于全国性公司。
通过检验应推断这种差异是由于抽样误差造成的还是系统性的。
分析结论应通过两步完成:
第一步,两总体方差是否相等的F检验。
该检验的F统计量的观察值为0.181,对应的概率P-值为0.657.显著性水平α=0.05,由于概率P-值大于0.05,可以认为两总体方差无显著性差异。
第二步,两总体均值的检验。
在第一步中,由于两总体方差无显著性差异,因此应看第一列t检验结果。
T统计量的观测值为-4.183,对应的双尾概率P-值为0.000,显著性水平α=0.05,由于概率P-值小于0.05,可以认为两总体的均值存在显著性差异,即国性保险公司与外资和合资保险公司中年轻人比例的均值有显著差异。
同时两总体均值差的95%置信区间没有跨零,也从另一角度证实了这一结论。
1、根据保险公司人员构成情况数据,分析全国性保险公司与区域性公司中具有高等教育水平员工比例的均值有无显著差异?
为什么?
分析全国性保险公司与区域性公司中年轻人比例的均值有无显著差异?
为什么?
(显著性水平α=0.05)
GroupStatistics
公司类别
N
Mean
Std.Deviation
Std.ErrorMean
年轻人比例
全国性公司
8
.5923
.11386
.04026
区域性公司
2
.5593
.16133
.11408
受高等教育比例
全国性公司
8
.6657
.16957
.05995
区域性公司
1
.5689
.
.
IndependentSamplesTest
年轻人比例
受高等教育比例
Equalvariancesassumed
Equalvariancesnotassumed
Equalvariancesassumed
Equalvariancesnotassumed
Levene'sTestforEqualityofVariances
F
.254
.213
Sig.
.628
.656.
t-testforEqualityofMeans
t
.346
.273
.538
.
df
8
1.262
7
.
Sig.(2-tailed)
.738
.823
.607
.
MeanDifference
.03305
.03305
.09684
.09684
.09552
.12097
.17986
.
95%ConfidenceIntervaloftheDifference
Lower
-.18721
-.92222
-.32845
.
Upper
.25331
.98832
.52214
.
答:
由上表可知:
全国性公司、区域性公司中,全国性公司年轻人比例均值要高于全国性公司。
通过检验应推断这种差异是由于抽样误差造成的还是系统性的。
分析结论应通过两步完成:
第一步,两总体方差是否相等的F检验。
该检验的F统计量的观察值为0.254,对应的概率P-值为0.628.显著性水平α=0.05,由于概率P-值大于0.05,可以认为两总体方差无显著性差异。
第二步,两总体均值的检验。
在第一步中,由于两总体方差无显著性差异,因此应看第一列t检验结果。
T统计量的观测值为0.346,对应的双尾概率P-值为0.738,显著性水平α=0.05,由于概率P-值大于0.05,可以认为两总体的均值不存在显著性差异,即国性保险公司与外资和区域性公司中年轻人比例的均值无显著差异。
同时两总体均值差的95%置信区间跨零,也从另一角度证实了这一结论。
由上表可知:
全国性公司、区域性公司中,全国性公司具有高等教育水平员工比例均值要高于全国性公司。
通过检验应推断这种差异是由于抽样误差造成的还是系统性的。
分析结论应通过两步完成:
第一步,两总体方差是否相等的F检验。
该检验的F统计量的观察值为0.213,对应的概率P-值为0.656.显著性水平α=0.05,由于概率P-值大于0.05,可以认为两总体方差无显著性差异。
第二步,两总体均值的检验。
在第一步中,由于两总体方差无显著性差异,因此应看第一列t检验结果。
T统计量的观测值为0.538,对应的双尾概率P-值为0.607,显著性水平α=0.05,由于概率P-值大于0.05,可以认为两总体的均值不存在显著性差异,即国性保险公司与外资和区域性公司中具有高等教育水平员工比例的均值无显著差异。
同时两总体均值差的95%置信区间跨零,也从另一角度证实了这一结论。
3、一家产品销售公司在30个地区设有销售分公司。
为了研究产品销售量(y)与该公司产品的销售价格(x1)、各地区的年人均收入(x2)、广告费用(x3)之间的关系,搜集到30个地区的有关数据。
进行多元线性回归分析所得的部分分析结果如下:
ANOVA
Model
SumofSquares
df
MeanSquare
F
Sig
1
Regression
4008924.7
0.000
Residual
------
----
-----
Total
13458586.7
29
------
----
-----
Cofficients(a)
Model
Unstandardized
Coefficients
t
Sig.
1
B
Std.Error
Constant
7589.1025
2445.0213
3.1039
0.002
X1
-117.8861
31.8974
-3.6958
0.001
X2
80.6107
14.7676
5.4586
0.002
X3
0.5012
0.1259
3.9814
0.206
(1)将第一张表中的所缺数值补齐。
(2)写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。
(3)检验回归方程的线性关系是否显著?
(4)检验各回归系数是否显著?
(5)计算调整的判定系数,并解释它的实际意义。
(6)计算回归方程的估计标准误差,并解释它的实际意义。
答:
(1)SSA=12026774.1、p=3、SSE=1431812.6、n-p-1=26、55069.7、F=72.797
(2)y=-117.8861*x1+80.6107*x2+0.5012*x3+7589.1025
x1的系数的含义是,当其他解释变量不变的前提下,销售价格每提高一个单位,产品销售量减少117.8861单位。
X2的系数的含义是,当其他解释变量不变的前提下,各地区的年人均收入每提高一个单位,产品销售量增加80.6107单位。
X3的系数的含义是,当其他解释变量不变的前提下,广告费用每提高一个单位,产品销售量增加0.5012单位。
(3)原假设为:
各个偏回归系数同时与0无显著性差异。
由表ANOVA知,F检验统计量的观测值为72.797,对应概率P-值为0.000,显著性水平α=0.05,由于概率P-值小于显著性水平α,应拒绝回归方程显著性检验的原假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系式显著地,可建立线性模型。
(4)回归系数显著性检验的原假设是:
βi=0,即第i个偏回归系数与0无显著性差异。
由表可知,在显著性水平α=0.05下,x1与x2的概率P-值分别为0.001、0.002,都小于显著性水平α,因此拒绝原假设,认为解释变量x1与x2与被解释变量y的之间的线性关系显著,解释变量x3所对应的概率P-值为0.206,大于显著性水平α,因此不应拒绝原假设,认为解释变量x3与被解释变量y的之间的线性关系不显著。
(5)调整的判定系数=1-
。
由于调整的判定系数接近于1,因此认为拟合优度较高,被解释变量可以被模型解释的部分较多,不能解释的部分较少。
1、下面是72名学生身高的茎叶图,请分析它的频次分布及极值。
学生身高(cm)Sstem-andPlot
FrequencyStem&Leaf
3.008.448
4.009.2366
14.0010.00000224445668
14.0011.00000002446888
20.0012.00000000224446668888
6.0013.000244
6.0014.000246
2.0015.06
3.00Extremes(>=176)
Stemwidth:
10
Eachleaf:
1case(s)
SPSS有两个基本窗口:
数据编辑窗口和结果输出窗口。
数据编辑窗口的主要功能:
定义SPSS数据的结构、录入编辑、管理待分析的数据。
数据编辑区是显示和管理SPSS数据结构和数据内容的区域。
数据编辑区有两个视图:
dataview和variableview。
dataview:
录入显示和编辑管理SPSS的数据。
variableview:
定义和修改SPSS数据的结构。
每条数据都有一个顺序编号显示在编辑区的最左边。
数据编辑区中的表格可以通过view菜单下的gridlines选项设置成显示或不显示状态。
•SPSS结果输出窗口(窗口标题为Viewer)是SPSS的另一个主要窗口。
•输出窗口的主要功能:
显示和管理SPSS统计分析结果、报表和图形。
SPSS统计分析的所有输出结果都显示在该窗口中。
输出窗口内容以.spv存于磁盘上
•SPSS软件的三种运行管理方式:
1、完全窗口菜单运行管理方式程序运行管理方式
混合运行管理方式
简述利用SPSS进行数据分析的基本步骤
答:
1、明确数据分析目标;
2、正确收集能够说明分析目的的数据;
3、数据的加工整理;
4、弄清统计概念和统计含义,知道各种统计方法的统计思想和使用范围,无需记忆公式;
5、选择一种或几种统计分析方法探索性的分析统计数据;
6、读懂统计分析结果,发现规律,得出结论
简述SPSS数据文件的特点
答:
SPSS数据文件的特点:
SPSS是一个有别于其他文件的特殊格式的文件,SPSS数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,其中的数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,数据的内容才是那些待分析的具体数据。
基于上述特点,建立SPSS数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。
SPSS数据的组织方式有两种:
原始数据的组织方式和计数数据的组织方式
SPSS数据的结构是对SPSS每列变量及其相关属性的描述,主要包括变量名、数据类型、变量宽度、变量名标签、变量值标签、显示宽度、缺失值、对齐方式、度量尺度等信息。
变量名是变量访问和分析的唯一标志。
在定义SPSS数据结构时应首先给出每列变量的变量名。
变量的命名规则如下:
1.首字符应以英文字母开头,后面可以跟除了!
、?
、*之外的字母或数字。
下划线、圆点不能为变量名的最后一个字符。
SPSS允许用汉字作为变量名。
2.变量名的字符个数最好不多于8个;变量名不区分大小写字母。
3.SPSS有默认的变量名,以字母“VAR”开头,后面补足5位数字,如VAR00001,VAR00012等。
变量名不能与SPSS内部特有的具有特定含义的保留字同名,如ALL,BY,AND,NOT,OR等。
4.变量名最好与其代表的数据含义相对应,每个变量名必须具有唯一性。
数据类型是指每个变量取值的类型。
SPSS中有三种基本数据类型:
数值型、字符型和日期型。
数据中存在明显错误或明显不合理的数据或漏填数据项时统计学上称为不完全数据或缺失数据。
用户缺失值与系统缺失值
统计学依据数据的度量尺度将数据划分为三大类,即定距型数据(Scale),如身高、体重;定序型数据(Ordinal),如职称、职务、对某事物的赞同程度;定类型数据(Nominal),如民族、宗教信仰、性别、党派。
定距型数据通常指连续型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以用数值或字符表示;定类型数据没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。
插入一个个案,即在数据编辑窗口的某个个案前插入一个新个案:
将当前数据单元确定在一个个案上,选择菜单Data+InsertCase
SPSS支持的数据格式:
1、SPSS文件格式,扩展名为.sav
2、Excel格式文件,扩展名为.xls
3、dbf格式文件,扩展名为.dbf
4、文本格式文件,扩展名为.dat
SPSS支持的数据合并的方式有两种:
纵向合并和横向合并。
•从外部数据文件增加变量到当前数据文件,称为横向合并,横向合并文件时要注意以下三个问题:
1、相互合并的数据文件必须至少有一个名称相同的变量,该变量是两文件横向合作的依据,称为关键变量;
2、两个数据文件都必须先按关键变量进行升序排列;
3、不同数据文件中数据含义不相同的数据项变量名不应相同。
简述数据排序的作用
1、数据排序便于数据的浏览,有助于了