SPSS指导书.docx

资源描述

SPSS指导书.docx

《SPSS指导书.docx》由会员分享，可在线阅读，更多相关《SPSS指导书.docx（34页珍藏版）》请在冰豆网上搜索。

SPSS指导书.docx

SPSS指导书

（一）因子分析

（二）聚类分析

（三）回归分析

（四）判别分析

实验一：

因子分析

一、实验目的：

运用因子分析方法分析数据

二、内容：

1.SPSS操作

2.因子分析

三、案例背景：

现有24名同学身高、体重、坐高、胸围、肩宽、盆骨宽此6项数据，有没有可能用更少的数据说明每位同学的身体状况？

实验步骤：

步骤一：

导入数据

步骤二：

确定数据类型（VariableView）

步骤三：

输入数据（dataview）并确定分析方法

Variables列表框：

用箭头按钮从左边列表框中选择想要分析的变量名移动到右边，准备分析。

Descriptive按钮：

单击该按钮，打开对话框，并在其中设置描述统计量（在需要得到的统计量前的括号打钩）。

Univariatedescriptive:

计算单变量描述信息，包括个变量有效值的个数，均值和标准差。

Initialsolution:

计算初始解。

包括变量的初始共同度，因子特征值，各特征值占特征值之和的百分数及累计百分数。

Coefficients:

生成相关系数矩阵。

Significancelevels:

生成相关系数矩阵中的单侧显著性水平

Determinant:

生成相关系数矩阵的行列式。

Kmoandbartlett’stestofsphericity：

进行kmo和bartlett检验。

Inverse:

生成相关系数矩阵的逆矩阵

Reproduced:

生成再生相关矩阵，并给出原相关矩阵与再生相关矩阵数据的差

Anti-image:

生成反映像相关矩阵

选择完毕后，单击continue

Extraction按钮:

单击该按钮打开对话框，进行因子设置。

Method:

选择提取因子方法。

（本次选择principlecomponents）

Correlationmatrix:

生成相关矩阵

Covariancematrix:

生成协方差矩阵

Unrotatedfactorsolution:

显示没有旋转的因子载荷、公共因子和特征值

Screeplot:

显示碎石图

Eigenvaluesover:

在后面的窗口输入数值，确定提取特征值大于该数值的因子

Numberoffactors:

人为确定因子个数

Maximumiterationsfor:

确定最大迭代次数

选择完毕后，单击continue

Rotation按钮:

进行矩阵旋转设置。

None:

不旋转

Loadingplot:

显示前3个因子的三维因子载荷图；对于两因子求解，输出二维图

选择完毕后，单击continue

Scores按钮:

进行因子得分选项设置。

Saveasvariables:

将因子得分保存为新变量

Method:

Regression:

用回归的方法计算因子得分（此例选择此项）

Displayfactorscorecoefficientmatrix:

计算因子得分系数矩阵

选择完毕后，单击continue

Option按钮:

设置缺失值的处理方式（本例中无缺失值）和系数显示格式

Sortedbysize:

按大小排序

Suppressabsolutevalueslee:

在后面窗口输入一个正数，确定系数的绝对值不得大于该数值。

步骤四：

表格分析

相关系数矩阵表（correlationmatrix）:

表中行的第一部分为相关系数矩阵，第二部分为原假设为相关系数为零的单侧显著性检验概率矩阵

总方差解释表（totalvarianceexplained）：

Component:

因子序号

Total:

特征值的大小

%ofvariance:

特征根占方差的百分比

Cumulative:

特征根占方差的累计百分比

因子载荷矩阵（componentmatrix）:

表中对应各变量的两个因子的载荷值

再生相关矩阵表（reproducedcorrelations）:

再生相关矩阵表，表中行的第一部分为再生相关系数矩阵，矩阵中对角线元素为再生共同度。

表中行的第二部分为残差矩阵。

旋转后因子载荷表（rotatedcomponentmatrix）:

旋转坐标轴后的因子载荷

因子得分系数矩阵（componentscorecoefficientmatrix）

四、练习

下表资料为25名健康人的7项生化检验结果，7项生化检验指标依次命名为X1至X7，请对该资料进行因子分析。

3.76

8.59

6.22

7.57

9.03

5.51

3.27

8.74

9.64

9.73

8.59

7.12

4.69

5.51

1.66

5.90

9.84

8.39

4.94

7.23

9.46

9.55

4.94

8.21

9.41

3.66

4.99

6.14

7.28

7.08

3.98

0.62

7.00

9.49

1.33

2.98

5.49

3.01

1.34

1.61

5.76

9.27

4.92

4.38

2.30

7.31

5.35

4.52

3.08

6.44

0.54

1.34

4.52

7.07

2.59

1.30

0.44

3.31

1.03

1.00

1.17

3.68

2.17

1.27

1.57

1.55

1.51

2.54

1.03

1.77

1.04

4.25

4.50

2.42

5.11

5.28

10.02

9.84

12.66

11.76

6.92

3.36

11.68

13.57

9.87

9.17

9.72

5.98

5.81

2.80

8.84

13.60

10.05

6.68

7.79

12.00

11.74

8.07

9.10

12.50

9.77

7.50

2.17

1.79

4.54

5.33

7.63

3.53

13.13

9.87

7.85

2.64

2.76

4.57

1.78

5.40

9.02

3.96

6.49

4.39

11.58

2.77

1.79

3.75

2.45

13.74

10.16

2.73

2.10

6.22

7.30

8.84

4.76

18.52

11.06

9.91

3.43

3.55

5.38

2.09

7.50

12.67

5.24

9.06

5.37

16.18

3.51

2.10

4.66

3.10

4.78

2.13

1.09

0.82

1.28

2.40

8.39

1.12

2.35

3.70

2.62

1.19

2.01

3.43

3.72

1.97

1.75

1.43

2.81

2.27

2.42

1.05

1.29

1.72

0.91

四、实验小结：

实验中遇到的问题及解决办法、心得体会等等...

实验二：

聚类分析

一、实验目的：

运用聚类分析方法分析数据

二、内容：

1SPSS操作

2聚类分析

三、案例背景：

现有5名同学学科背景（1为文科，2为理科），抽象能力，形象能力，创新能力的资料，用聚类分析将其分类。

实验步骤：

步骤一：

导入数据

步骤二：

确定数据类型及标准化

上图为选择需要标准化的参数

上图表示选择完毕后要将标准化后变量值保存，单击“ok”

步骤三：

确定分析方法

Variable:

从左边列表框中选择作为聚类分析对象的变量

Lablecases:

在该窗口输入变量名，对应变量值作为个案的标注

Cluster:

Cases:

对个案聚类

Variables:

对变量聚类

Display:

Statistics:

输出分析统计量

Plots:

输出分析得到的图形

Statistics按钮：

Agglomerationschedule:

生成聚结表

Proximitymatrix：

生成组间距矩阵

Clustermembership:

设置有关变量与聚类步骤之间的关系（此例选择none）

Plots按钮：

Dendrogram:

生成树形图

Icicle:

设置冰柱图有关参数

Method按钮：

Save按钮：

none:

不保存新变量

singlesolution:

输入整数n,生成一个新变量，用该变量保存聚为n类时个案所对应的类

rangeofsolution:

输入一小一大两个数值，分别保存参数聚为这两个数之间类数时，各个案对应的类

步骤四：

表格分析

上图为“聚结表”：

Stage:

聚类步骤号

Clustercombined:

在某步中合并的个案。

如在第一步中，个案3、4合并

Coefficients:

距离或相似系数。

距离最小或相似系数最接近1的最先合并

Stageclusterfirstappears:

如果合并中，有哪一个是新生成的类（即由两个或两个以上个案合并成的类），则在对应列显示该新类是在哪一步中第一次生成的。

Nextstage:

表示新类将在第几步中与其他个案或类合并

VerticalIcicle

Numberofclusters

Case

case5

case4

case3

case2

case1

上图为垂直冰挂图，第一列为聚类步骤号，第一行为个案号。

如果个案或类在第n步中合并，则在第n步以上合并项之间的列用“x”填充。

所以，冰挂图应从下往上读解。

如图所示，3，4先合并；然后1、2合并；然后5与3、4合并得到的新类合并；最后1、2合并的类跟3、4、5合并的类做最后合并。

******HIERARCHICALCLUSTERANALYSIS******

DendrogramusingAverageLinkage（BetweenGroups）

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

case33

case44

case55

case11

case22

上图为树状图，分析类似“冰挂图”

四、练习

29名儿童的血红蛋白（g/100ml）与微量元素（μg/100ml）测定结果如下表。

由于微量元素的测定成本高、耗时长，故希望通过聚类分析（即R型指标聚类）筛选代表性指标，以便更经济快捷地评价儿童的营养状态。

编号

N0.

钙

镁

铁

锰

铜

血红蛋白

54.89

72.49

53.81

64.74

58.80

43.67

54.89

86.12

60.35

54.04

61.23

60.17

69.69

72.28

55.13

70.08

63.05

48.75

52.28

52.21

49.71

61.02

53.68

50.22

65.34

56.39

66.12

73.89

47.31

30.86

42.61

52.86

39.18

37.67

26.18

30.86

43.79

38.20

34.23

37.35

33.67

40.01

40.12

33.02

36.81

35.07

30.53

27.14

36.18

25.43

29.27

28.79

29.17

29.99

29.29

31.93

32.94

28.55

448.70

467.30

425.61

469.80

456.55

395.78

448.70

440.13

394.40

405.60

446.00

383.20

416.70

430.80

445.80

409.80

384.10

342.90

326.29

388.54

331.10

258.94

292.80

292.60

312.80

283.00

344.20

312.50

294.70

0.012

0.008

0.004

0.005

0.012

0.001

0.012

0.017

0.001

0.008

0.022

0.001

0.012

0.000

0.012

0.000

0.018

0.004

0.024

0.012

0.016

0.048

0.006

0.016

0.000

0.064

0.005

1.010

1.640

1.220

1.010

0.594

1.010

1.770

1.140

1.300

1.380

0.914

1.350

1.200

0.918

1.190

0.853

0.924

0.817

1.020

0.897

1.190

1.320

1.040

1.030

1.350

0.689

1.150

0.838

13.50

13.00

13.75

14.00

14.25

12.75

12.50

12.25

12.00

11.75

11.50

11.25

11.00

10.75

10.50

10.25

10.00

9.75

9.50

9.25

9.00

8.75

8.50

8.25

8.00

7.80

7.50

7.25

7.00

五、实验小结：

实验中遇到的问题及解决办法、心得体会等等...

实验三：

回归分析

一、实验目的：

运用一元线性回归与多元线性回归进行预测

二、内容：

1spss操作

2一元线形回归

3多元线性回归

三、实验背景：

已知某工厂14年间的产值，用回归分析法预测未来产值。

实验步骤：

步骤一：

先看散点图：

拖曳图标选择横纵坐标含义：

观察直观图形，确定是否存在线性关系：

确定线性回归：

确定自变量和应变量：

点击“plots”绘制图形：

DEPENDNT:

因变量；ZPRED:

标准化预测值；ZRESID:

标准化残差等等。

SCATTER：

从左侧候选变量框中选择变量X,Y轴变量，定义需要绘制的回归分析诊断图或预测图。

STANDARDIZEDRESIDUALPLOTS：

选择绘制标准化残差图的类型，包括直方图HISTOGRAM,标准正态图NORMALPROBABILITYPLOT。

PRODUCESALLPARTIALPLOTS:

选择是否绘制每一个自变量与因变量残差的散点图。

点击“ok”观察所生成图表：

表示变量进入、推出模型的基本情况

上表表示回归模型的拟合程度。

第一列表示选择的回归方法种类，第二列表示复相关系数，其含义类似相关系数，反映的是自变量和应变量之间的密切程度。

其值在0到1之间，越大表示相关程度愈好。

第三列表示复相关系数的平方，又称为决定系数。

需要注意的是复相关系数随着自变量个数的增加会不断变大。

所以在多元线性回归模型中复相关系数就不太可靠，这就是需要引入调整后的复相关系数的原因。

第四列表示调整后的复相关系数，该值是在考虑了模型中自变量个数情况下计算的决定系数。

第五列表示标准差。

上表为方差分析表，F值为F检验的统计值，sig表示由统计检验值得到的显著性水平。

上表给出了拟合未标准化和标准化之后的回归系数，并通过t检验方法对拟合结果进行检验。

上表给出了一些与残差有关的统计量，包括预测值，标准化后的预测值，残差，标准化的残差，及其最小值，最大值，平均值，标准差，样本容量。

上图为标准化残差直方图

上图为标准化残差正态p-p图，如果变量值服从正态分布，则绘制的概率图为一条从纵轴零点指向右上角的直线。

案例背景二：

已知某工厂13年的产出及可能与产出相关的4个因素，请用回归分析法预测未来产出情况。

步骤二：

首先选择线性回归

选择自变量和应变量：

选择STATISTICS按钮：

Estimation:

输出回归系数的估计值及其标准误，检验统计量，标准化的回归系数等

Confidenceintervals:

输出每个回归系数95%的置信区间

Covariancematrix:

输出每个变量的相关矩阵、方差、协方差矩阵

Modelfix:

输出回归模型变量的一些检验统计量

Descriptives:

输出描述性统计量

Collinearitydiagnostics:

输出统计量用于判断是否存在多重共线性

Duibin-watson:

输出DW值用以判断是否存在序列相关

现将不同于一元线性回归中图形做如下说明：

上表用以输出参数的均值，标准差，及样本容量

上表用以描述个参数相关系数等统计指标

上表显示x3,x4的显著性水平过大，需调整变量。

上表用于判断是否存在多重共线性。

四、练习

某医师测得10名3岁儿童的身高（cm）、体重（kg）和体表面积（cm2）资料如下。

试用多元回归方法确定以身高、体重为自变量，体表面积为应变量的回归方程。

儿童编号

体表面积（Y）

身高（X1）

体重（X2）

5.382

5.299

5.358

5.292

5.602

6.014

5.830

6.102

6.075

6.411

88.0

87.6

88.5

89.0

87.7

89.5

88.8

90.4

90.6

91.2

11.0

11.8

12.0

12.3

13.1

13.7

14.4

14.9

15.2

16.0

五、实验小结：

实验中遇到的问题及解决办法、心得体会等等...

实验四：

判别分析

一、实验目的：

运用判别分析进行分类预测

二、内容：

1SPSS操作

2聚类分析

三、案例背景：

为研究舒张期血压和血浆胆固醇对冠心病的作用，某医师测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标，结果如下，试作判别分析，建立判别函数以便在临床中用于筛选冠心病人。

编号

冠心病人组

编号

正常人组

舒张压kPa

胆固醇mmol/L

舒张压kPa

胆固醇mmol/L

9.86

13.33

14.66

9.33

12.80

10.66

13.33

12.00

14.66

13.33

12.80

13.33

5.18

3.73

3.89

7.10

5.49

4.09

4.45

3.63

5.96

5.70

6.19

4.01

3.63

5.96

10.66

12.53

13.33

9.33

10.66

9.33

10.66

10.40

9.33

10.66

11.20

9.33

2.07

4.45

3.06

3.94

4.45

4.92

3.68

2.77

3.21

5.02

3.94

4.92

2.69

2.43

3.42

3.63

实验步骤：

1．建立数据文件。

舒张压、胆固醇的变量名分别以x1、x2表示，将冠心病人资料和正常人资料合并，一同输入。

再定义一变量名为result，用于区分冠心病人资料和正常人资料，即冠心病人资料的result值均为1，正常人资料的result值均为2。

2．选择菜单“Analyze→Classify→Discriminant”项，弹出“DiscriminantAnalysis”对话框。

从对话框左侧的变量列表中选择变量result，进入“GroupingVariable”框，并单击“DefineRange”按钮，在弹出的“DiscriminantAnalysis:

DefineRange”对话框中，定义判别原始数据的类别区间，在Minimum处输入1，在Maximum处输入2．

3．从对话框左侧的变量列表中选x1、x2，使之进入“Independents”框，作为判别分析的基础数据变量，如下图。

4．单击“Statistics”按钮，弹出“DiscriminantAnalysis:

Statistics”对话框，在“Descriptive”栏中选“Means”项，对各组的各变量作均数与标准差的描述；在“FunctionCoefficients”栏中选“Unstandardized”项，显示判别方程的非标准化系数。

5．单击“Classify”按钮，弹出“DiscriminantAnalysis:

Classification”对话框，在“Plot”栏选“Combinedgroups”项，作合并的判别结果分布图；在“Display”栏选“Resultsforeachcase”项，对原始资料根据建立的判别方程作逐一回代重判别，同时选“Summarytable”项，对这种回代判别结果进行总结评价。

6．单击“Save”按钮，弹出“DiscriminantAnalysis:

SaveNewVariables”对话框，选择“Predictedgroupmembership”项，将回代判别的结果存入原始数据库中。

7．单击“OK”按钮，得到输出结果。

四、练习（选做）

为研究舒张期血压和血浆胆固醇对冠心病的作用，某医师测定了5

展开阅读全文