SPSS软件课程复习资料.docx

资源描述

SPSS软件课程复习资料.docx

《SPSS软件课程复习资料.docx》由会员分享，可在线阅读，更多相关《SPSS软件课程复习资料.docx（15页珍藏版）》请在冰豆网上搜索。

SPSS软件课程复习资料.docx

SPSS软件课程复习资料

SPSS软件课程

考试题型：

一、填空10分（每题1分，共10分）

二、判断10分（每题1分，共10分）

三、名词20分（每题2分，共20分）

四、简答30分（每题5分，共6分，其中两个分析表格或图形）

五、分析表格（每题15分，共30分）

蓝色：

为考点

黄色：

为表格题（简答和数据分析）

重要名词：

1、5%修正均数

剔除5%的最大与最小观测量后计算的均值。

2、四分位间距

为了避免全距受两极端数值影响的缺点，按照一定顺序排列的一组数据中间部分50%的频数的差异作为反映数据的差异程度的指标，即四分位距，用QD表示。

3、三种T检验的分别得英文名称、

One-SamplesTTestIndependent-SamplesTTestPaired-SamplesTTest

4、交互作用

当一个因素的主效应随另一个因素的变化而变化时，称两个因素间存在交互效应。

5、边际均值

在多因素方差分析中，每种因素水平组合的因变量均值称为单元均值。

一个因素水平的因变量均值称为边际均值（MarginalMeans）

6、重复测量方差分析

组内变异的主要的原因是实验对象之间的个体差异。

由于个体差异存在，即使实验对象受到相同的处理，他们的因变量值也可能相当不同。

重复测量设计的方差分析也是像协方差分析一样，是在研究中减少个体差异带来的误差方差的一种有效方法，而且由于对相同个体进行重复测量，在一定程度上降低了人力、物力、财力的消耗。

7、因素

因素是影响因变量变化的客观条件

8、处理、

是影响因变量变化的人为条件。

也可通称为因素

9、主效应

因变量在一个因素各水平间的平均差异。

10、协方差分析

利用线性回归方法消除混杂因素的影响过后进行的方差分析。

11、偏相关

计算两个变量间在控制其他变量的影响下的相关系数。

12、距离相关

对变量或观测量进行相似性或不相似性测度。

13、偏回归系数

简称回归系数，表示其他自变量不变，xi每改变一个单位时，预测的y的平均变化量。

假设在其他所有自变量不变的情况下，某一个自变量变化引起因变量变化的比率。

14、多元线性回归

根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。

15、部分相关

在排除了其他自变量对xi的影响后，当一个自变量进入回归方程模型后，复相关系数的平方的增加量。

16、线性回归的方差齐性

就自变量的任何一个线性组合，应变量y的方差均相同，实质上就是要求残差得方差齐。

17、线性回归的独立性假设

应变量y的取值相互独立，它们之间没有联系，反应在模型中要求残差间相互独立，不存在自相关。

18、backward

向后法，筛选步骤和逐步法类似，但只出不进，即对已纳入方程的变量按对y的贡献大小由小到大依次剔除，每剔除一个变量，则重新计算各自变量对y的贡献。

直到方程中所有变量均符合选入标准，没有自变量可被剔除为止。

19、分布位置检验方法

用于检验样本所在总体的分布位置（形状）是否相同。

包括成组资料分布位置检验和配对资料分布位置检验。

20、Chi-Square

是检验分类数据样本所在总体分布（各类别所占比例）是否与已知总体分布相同，是一个单一样本检验。

21、应答次数百分比

在做出的所有选择中，选择该项的次数占总次数（总反应数）的比例。

22、主成分分析

设法将原来指标重新组成一组新的互相无关的几个综合指标来代替原来指标，同时根据实际需要从中可取几个较少的综合指标尽可能多地反映指标的统计方法叫做主成分分析或称主分量分析。

重要简答：

1、多重共线性的策略

（1）增大样本量

（2）采用多种自变量筛选方法相结合的方式，建立一个最优的逐步回归方程。

（3）进行主成分分析，用提取出来的因子代替原变量进行回归分析

（4）从有共线性问题的自变量中剔除不重要的自变量。

（5）重新抽取样本数据。

2、多重共线性的确认

（1）考察自变量间的相关系数，超过0.90的变量在分析时将会存在共线性问题。

（2）容忍度：

tolerance，1-决定系数，该指标越小，则说明自变量被其余自变量预测的越精确，共线性越严重，如果某个自变量的容忍度小于0.1，则可能共线性问题严重。

（3）方差膨胀因子：

VIF，是容忍度的倒数，VIF越大，说明共线性可能越严重。

（4）特征根值：

Eigenvalue，特征根约等于0，则可能存在比较严重的共线性。

（5）条件指数：

ConditionIndex，当某个维度的该指标数值大于30时，则可能存在共线性。

（6）方差比例：

同一序号的特征值对应的变量的方差比例。

比例越大，其共线性越大。

3、回归方差的步骤

（1）做散点图

（2）考察数据的分布，进行必要的预处理

（3）进行直线回归分析

（4）残差分析

A、残差是否独立：

B、残差分布是否正态：

（5）强影响点的诊断及多重共线性问题的判断

4、卡方检验的适用条件

（1）当n≥40且所有T≥5时，用普通的卡方检验，

（2）当n≥40但有1≤T≤5时，用校正的卡方检验

（3）当n＜40或有T＜1时，不能用卡方检验，改用确切概率法。

5、如何判断Kappa指标的优劣

（1）Kappa≥0.75时，表明两者一致性较好；

（2）0.75>Kappa≥0.4时，表明一致性一般；

（3）Kappa<0.4时，表明两者一致性较差。

6、stepwise含义

逐步法，有进有出，首先分别计算各自变量对y的贡献大小，按由大到小挑选贡献最大的一个先进入方程，随后重新计算各自变量对Y的贡献，并考察已在方程中的变量是否由于新变量的引入而不再有统计意义，如果有，则将它剔除，并重新计算各自变量对y的贡献，如仍由低于入选标准，则继续考虑剔除，直到方程没有变量可被剔除，方程外没有变量可被引进为止。

7、如何确定主成分的数量

（1）主成分的累积贡献率：

达到80%-85%以上就比较满意了。

（2）特征根值：

特征根大于1作为纳入标准。

8、主成分分析的标准分析步骤

（1）根据具体问题，判断是否需要进行主成分分析，采用KMO检验及球形检验来判断数据是否符合分析要求。

（2）进行分析，按一定标准确定提取的主成分数目。

（3）将主成分存为新变量用于继续分析。

提出的主成分能包含主要信息即可，不一定非要有准确的实际含义。

9、茎叶图的优缺点及公式

优点：

一是从统计图上没有原始数据信息的损失，所有数据信息都可以从茎叶图中得到；

二是茎叶图中的数据可以随时记录，随时添加，方便记录与表示。

缺点：

茎叶图只便于表示两位有效数字的数据，而且茎叶图只方便记录两组的数据，两个以上的数据虽然能够记录，但是没有表示两个记录那么直观、清晰。

茎叶图计算公式：

近似值=（茎值+叶值×0.1）×茎宽

10、explore探索分析的目的：

（1）检查数据是否有误：

异常值，影响点、输入错误的数据。

找到、分析原因、考虑是否剔除。

（2）检查数据分布特征

11、方差分析表格

12、T检验表格分析

SPSS复习资料

1、SPSS软件五个窗口文件的扩展名

窗口切换：

windows-minimizeallwindows

数据文件：

扩展名为“.sav”

Data

结果文件：

扩展名为“.spo”

Output

语句命令文件：

扩展名为“.sps”

Syntax

图形文件：

扩展名为“.cht”

Draftoutput

程序编辑文件：

“sbs”

Script

2、帮助菜单help

3、SPSS中科学记数如何表示?

科学记数法，常用于表示特别大或特别小的数字，例如1.23D3、2.56E-2、3.86-2，分别表示1230、0.0256、0.0386。

其中D3、E-2、-2表示10的3、-2、-2次幂。

指数部分可以不用字母D或E，只用符号表示。

123：

1.23E2、1.23E+2、1.23+2、1.23D2、1.23D+2

4、SPSS变量命名应遵循以下原则

1）SPSS变量的变量名由不多于8个字符组成；

2）首字符是字母、中文或特殊符号@，但不能是空格；

3）变量名不能与SPSS保留字相同以免引起混乱；

4）系统不区分变量名中的大小写字符。

5、SPSS的基本运算共有三种：

数学运算、关系运算、逻辑运算

6、变量名不能使用的字符：

LT\GT\LE\GE\EQ\NT\AND\OR\NOT

7、SPSS能够打开的文件类型

SPSS（*.sav），Excel（*.xls），dBASE（*.dbf），ASCII（*.dat），Text（*.txt）

8、Centraltendency：

用于定义描述集中趋势的一组指标：

（1）Mean：

均数

（2）Median：

中位数；

（3）Mode：

众数

（4）Sum：

总和

9、 Dispersion：

定义描述离散趋势的一组指标

（1）Std.deviation：

标准差

（2）Variance：

方差

（3）Range：

全距

（4）Minimum：

最小值

（5）Maximum：

最大值

（6）S.E.mean：

标准误

10、用于定义描述分布特征的两个指标：

（1）Skewness：

偏度系数，此值为0，数据为对称分布，此值为正数，左偏，数据具有一个较长的右尾；此值为负数，右偏，数据具有一个较长的左尾。

此值大于其标准误的两倍，说明数据分布不是对称的，也就不是正态的。

（2）Kurtosis：

峰度系数。

=0，数据属于标准正态分布；大于0，比正态分布的峰高；小于0，比正态分布的峰低。

11、explor探索分析的目的：

（1）检查数据是否有误：

异常值，影响点、输入错误的数据。

找到、分析原因、考虑是否剔除。

（2）检查数据分布特征

12、5%修正均数：

剔除5%的最大与最小观测量后计算的均值。

13、四分位间距：

14、概念

①本体值：

除异常值和极值以外的变量值。

②触须线：

中间纵向直线

③上中下三条线：

第75、50、25百分位数。

④异常值：

“○”表示。

上方，大于（第75百分位加第75百分位与第25百分位差值）的1.5倍。

下方，小于第25百分位减第75百分位与第25百分位差值的1.5倍。

⑤极值：

“*”表示。

上方，大于第75百分位加第75百分位与第25百分位差值的3倍。

下方，小于第25百分位减第75百分位与第25百分位差值的3倍。

15、Stem-and-leaf：

茎叶图

16、茎叶图的优缺点

优点：

一是从统计图上没有原始数据信息的损失，所有数据信息都可以从茎叶图中得到；

二是茎叶图中的数据可以随时记录，随时添加，方便记录与表示。

缺点：

茎叶图只便于表示两位有效数字的数据，而且茎叶图只方便记录两组的数据，两个以上的数据虽然能够记录，但是没有表示两个记录那么直观、清晰。

17、近似值=（茎值+叶值×0.1）×茎宽

18、Kappa又称一致性检验，如何判断Kappa指标的优劣

（1）Kappa≥0.75时，表明两者一致性较好；

（2）0.75>Kappa≥0.4时，表明一致性一般；

（3）Kappa<0.4时，表明两者一致性较差。

19、卡方检验的适用条件

（1）当n≥40且所有T≥5时，用普通的卡方检验，

（2）当n≥40但有1≤T≤5时，用校正的卡方检验

（3）当n＜40或有T＜1时，不能用卡方检验，改用确切概率法。

20、SPSS中画图功能：

人口金字塔

横轴：

表示性别

纵轴：

人口数

21、参数检验、非参数检验、原假设、备择假设、假设检验的两类错误

22、One-SamplesTTest

Independent-SamplesTTest

中文名称、英文名称、三种方法适用条件、对结果进行解读

23、方差分析：

是检验多组样本均值间的差异是否具有统计意义的一种方法。

24、因素、处理、水平、主效应、交互作用、协方差分析、单元均值、边际均值、

重复测量方差分析

25、One-WayANOVA过程要求

（1）因变量属于正态分布总体。

（2）对被观测对象的实验是随机分组的。

（3）各样本独立性、正态性、方差齐

26、对One-WayANOVA和UNIANOVA结果进行解读

27、线性相关关系分为三种形式

（1）正相关，即两个变量的变化方向一致。

（2）负相关，即两个变量的变化方向相反。

（3）无相关，即两个变量的变化趋势没有明显的依存关系。

28、相关种类

（1）Bivariate：

按指定项显示变量的描述统计量；

（2）Partial：

计算两个变量间在控制其他变量的影响下的相关系数。

（3）Distance：

对变量或观测量进行相似性或不相似性测度。

29、对Bivariate（两两相关）和Partial（偏相关）结果进行解释

30、a：

是截距

bi：

称为偏回归系数，简称回归系数，表示其他自变量不变，xi每改变一个单位时，预测的y的平均变化量。

假设在其他所有自变量不变的情况下，某一个自变量变化引起因变量变化的比率。

31、多元线性回归概念

根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。

32、多元线性回归分析中的统计指标

（1）零阶相关系数（zeroorder）：

表示各自变量与因变量之间的简单相关系数。

（2）部分相关（partcorrelation）：

在排除了其他自变量对xi的影响后，当一个自变量进入回归方程模型后，复相关系数的平方的增加量。

33、线性回归的基本假设

（1）线性关系假设：

即X与Y在总体上具有线性关系，这是一条最基本的假设，也就是说回归分析一定要建立在变量之间存在线性关系的基础上。

（2）正态性假设：

即回归分析中的Y服从正态分布。

就自变量的任何一个线性组合，应变量y均服从正态分布，反应模型中就是ei服从正态分布。

（3）独立性假设：

应变量y的取值相互独立，它们之间没有联系，反应在模型中要求残差间相互独立，不存在自相关。

（4）方差齐性：

就自变量的任何一个线性组合，应变量y的方差均相同，实质上就是要求残差得方差齐。

34、线性回归结果能解读

35、回归方差的步骤

（1）做散点图

（2）考察数据的分布，进行必要的预处理

（3）进行直线回归分析

（4）残差分析

A、残差是否独立：

B、残差分布是否正态：

（5）强影响点的诊断及多重共线性问题的判断

36、多重共线性的确认：

（1）考察自变量间的相关系数，超过0.90的变量在分析时将会存在共线性问题。

（2）容忍度：

（3）方差膨胀因子：

VIF，是容忍度的倒数，VIF越大，说明共线性可能越严重。

（4）特征根值：

Eigenvalue，特征根约等于0，则可能存在比较严重的共线性。

（5）条件指数：

ConditionIndex，当某个维度的该指标数值大于30时，则可能存在共线性。

（6）方差比例：

同一序号的特征值对应的变量的方差比例。

比例越大，其共线性越大。

37、多重共线性的策略

（1）增大样本量

（2）采用多种自变量筛选方法相结合的方式，建立一个最优的逐步回归方程。

（3）进行主成分分析，用提取出来的因子代替原变量进行回归分析

（4）从有共线性问题的自变量中剔除不重要的自变量。

（5）重新抽取样本数据。

38、自变量选入方法

（1）enter：

强行进入法，只进不出，候选变量全部纳入模型，不做任何筛选。

（2）stepwise：

（3）remove：

强制剔除法，只出不进，它的筛选是以block为单位，即按照移除标准将同一个block内的变量一次全部剔除。

（4）backward：

直到方程中所有变量均符合选入标准，没有自变量可被剔除为止。

（5）forward：

向前法，筛选步骤和逐步法类似，但只进不出，即对已纳入方程的变量不再考察其显著性，直到方程外变量均达不到入选标准，没有自变量可被引入方程为止。

39、Logistic回归（逻辑斯蒂回归）

要求建立模型必须保证因变量的取值0和1。

40、分布类型检验方法：

又称拟合优度检验，即检验样本所在总体是否服从已知的理论分布。

41、分布位置检验方法：

用于检验样本所在总体的分布位置（形状）是否相同。

包括成组资料分布位置检验和配对资料分布位置检验。

42、Chi-Square：

是检验分类数据样本所在总体分布（各类别所占比例）是否与已知总体分布相同，是一个单一样本检验。

43、二项分布检验：

BinomialTest是一种用来检验给定的落入二项式中第一项概率值的前提下数据来自二项分布的无效假设的分布。

44、RunsTest游程检验：

根据游程数所作的两分变量的随机性检验。

45、计算游程数、解读结果

46、应答人数百分比（percentofcases）：

选该项的人占总人数的比例。

47、应答次数百分比（percentofresponses）：

在做出的所有选择中，选择该项的次数占总次数（总反应数）的比例。

48、主成分分析：

（知晓英文名称）

49、KMO统计量优劣指标

（1）大于0.9效果最佳

（2）0.7以上尚可

（3）0.6效果很差

（4）0.5以下不适合做主成分分析

50、Bartlett’s球形检验：

用于检验相关阵是否是单位阵，即各变量是否各自独立，如果结论为不拒绝该假设，则说明这些变量可能各自独立提供一些信息，之间恐怕没什么联系。

51、主成分数量的确定（能对因子分析的结果解读，能写出主成分公式）

（1）主成分的累积贡献率：

达到80%-85%以上就比较满意了。

（2）特征根值：

特征根大于1作为纳入标准。

52、主成分分析的标准分析步骤

（1）根据具体问题，判断是否需要进行主成分分析，采用KMO检验及球形检验来判断数据是否符合分析要求。

（2）进行分析，按一定标准确定提取的主成分数目。

（3）将主成分存为新变量用于继续分析。

提出的主成分能包含主要信息即可，不一定非要有准确的实际含义。

展开阅读全文