SPSS软件中对应分析.docx
《SPSS软件中对应分析.docx》由会员分享,可在线阅读,更多相关《SPSS软件中对应分析.docx(12页珍藏版)》请在冰豆网上搜索。
SPSS软件中对应分析
对应分析
当A与B的取值较少时,把所得的数据放在一张列联表中,就可以很直观的对A与B之间及它们的各种取值之间的相关性作出判断,当Rj较大时,则说明属性变量A的第i状态与B的第j状态之间有较强的依赖关系•但是,当A或者B的取值比较多时,就很难正确的作出判断,此时就需要利用降维的思想简化列联表的结构.
几个基本定义:
我们此处讨论因素A有n个水平,因素B有p个水平。
行剖面:
当变量A的取值固定为i时(i=1,2,…,n),变量B的各个状态相对出现的概率情况,即:
可以方便的把第i行表示成在p维欧氏空间中的一个点,其坐标为:
rPi1Pi2Pip
P厂(—,—,,—)i12
Pi.Pi.Pi.,口,2,…,n,
实际上,该坐标可以看成P维超平面X!
X2Xp二1上的点。
记n个行剖面的集合为n(r)。
由于列联表行与列的地位是对等的,由上面行剖面的定义方法,可以很容易的定义列剖面。
列剖面:
实际上,该坐标可以看成n维超平面X!
x^Xn=1上的
点。
记p个列剖面的集合为p(c)。
定义了行剖面和列剖面之后,我们看到属性变量A的各个取值
情况可以用p维空间的n个点来表示,而B的不同取值情况可以用n维空间上的p个点来表示。
而对应分析就是利用降维思想,把A的各个状态表现在一张二维图上,又把B的各个状态表现
在一张二维图上,且通过后面的分析可以看到,这两张二维图的
坐标有着相同的含义,即可以把A的各个取值与B的各个取值同时在一张二维图上表示出来。
距离:
通过行剖面与列剖面的定义,A的不同取值可以利用P维空间中
的不同点表示,各个点的坐标分别为Pr(i=1,2,…,n)。
而B的不同取值可以用n维空间中的不同点表示,各个点的坐标分别
B的各个状态之间的接近程度。
为Pjc(j=1,2,…,p)。
对此,就可以引入距离概念来分别描述A的各个状态之间与
该距离也可以看做是坐标为:
的任意两点之间的普通欧式距离。
类似的,定义属性变量B的两个状态s,t之间的加权距离为:
总惯量:
根据上面的准备,可以给出行剖面集合n(r)的总惯量的定义:
由
(1)式定义的n个点与其重心的欧式距离之和称为行剖面集合n(r)的总惯量,记为11。
注意:
(1)总惯量类似方差,反映差异信息。
2
(2)经过数学分解,我们可以得知,总惯量与统计量
仅相差一个常数,而由前面列联表的分析我们知道,2统计量
反映了列联表横栏与纵栏的相关关系。
对应分析就是在总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系。
实际上,总惯量的概念
类似于主成分分析或因子分析中方差总和的概念。
在SPSS软件中进行对应分析,系统会给出对总惯量的提取情况。
完全对应的,我们对列进行相应分析,可以得到列剖面集
SPSS中有一个概念:
惯量:
相当于因子分析中的特征根,用于说明对应分析各个维度的结果能够解释列联表中两变量联系的程度。
对应分析基本理论:
经过上述变化后,就可以直接计算属性变量各个状态之间的距离,通过距离大小反映各个状态之间的接近程度,同类型的状态
之间距离应当较短,而不同类型的状态之间距离应当较长,据此可以对各个状态之间进行分类以简化数据结构。
但是,这样做不
能对两个属性变量同时进行分析。
因此,我们不计算距离,代之求协方差矩阵,进行主成分分析,提取主成分,用主成分所定义的坐标轴作为参照系,对两个变量的各个状态进行分析。
计算行剖面的协方差矩阵厂TZ,列剖面的协方差矩阵
二c=ZZ。
具体分解过程可参考《多元统计分析》,何晓群。
由矩阵的知识可知,zZZ,二c二ZZ有相同的非零特征根。
rUjZZUjjUj,对该式两边左乘矩阵Z,有
即二c(ZUj)「j(ZUj)。
该式表明:
对于因素A降维,投影方向为Ui,U2,…,
对于因素B降维,投影方向为ZUi,ZU2,…,这两个直角坐标重合。
这样,因素A和因素B降维后可以在同一个坐标轴中表示出来,只不过对坐标轴有一个拉伸。
注意:
Zr与二c具有相同的非零特征根,而这些特征根正是各
个公因子所解释的方差,或提取的总惯量的份额,即有:
X'i=1I=1Jo那么变量B的第一主成分、第二主成分…….i=1
直到第r个主成分与变量A的相对应的各个主成分在总方差中所
占的百分比完全相同。
这样就可以用相同的坐标轴同时表示两个属性变量的各个状态,把两个变量的各个状态同时反映在具有相同坐标轴的因子平面上,以直观的反映两个属性变量及各个状态之间的相关关系。
一般情况下,我们取两个,这样就可以在一张二维图上同时画出两个变量的各个状态。
对应分析的优点:
结果直观、简单;适用于研究较多分类变量;
对应分析的缺点:
不能进行具体联系的检查,本质是一种统计描述方法;
无法自动判断最佳维度数;
分析结果对极端值敏感。
所以数据量不能太少,样本量越大越好。
例题讲解:
这里以较为经典的头发颜色与眼睛颜色的研究案例说明SPSS中
对应分析的实现方法,该数据由Fisher在1940年首次引用。
研
究者收集了苏格兰北部Caithness郡5387名小学生眼睛与头发颜色的数据。
研究者希望直到头发与眼睛的颜色存在何种关联,即
某种头发颜色的人更倾向于何种颜色?
数据见文件hair&eye。
(1)对数据的初步分析
按照常规方法,采用列联分析,crosstabulation,结论:
存在明显相关关系。
看看从图表方式能否看出具体的关联方式:
graphbar
stacked,然后双击图,options,scalesto100%
利用统计图,做出条图和马赛克图.结果显示:
随着头发颜色有
金色、红色逐渐变为深色、黑色,人群中眼睛颜色为浅色的比例越来越低,而眼睛深色的比例越来越高。
显然,这一信息提示头发颜色和眼睛颜色之间是有关联的。
以上信息是通过对样本直接观察得到的,这种联系是真实存在还
是由抽样误差导致的假象?
这可以通过检验加以证实。
对于两变
量关联问题一般使用2检验来证实。
但是究竟是怎样的联系方
,-2式?
是其中仅某两类中存在联系,还是两两都有联系?
这是检验不能回答的,需要采用更复杂的分析方法才能得到进一步的分析结果,而对应分析就是一个很好的选择。
结果难点讲解:
Summary
Dimension
Singular
Value
Inertia
Chi
Square
Sig.
ProportionofInertia
ConfidenceSingular
Value
Accounted
for
Cumulative
Standard
Deviation
Correlation
2
1
2
3
Total
.446
.173
.029
.199
.030
.001
.230
1240.039
.000a
.866
.131
.004
1.000
.866
.996
1.000
1.000
.012
.013
.274
结果汇总表:
(1)奇异值:
Z矩阵分解过程中产生,他的平方就是inertia.
(2)行变量各类别的分析结果状况
OverviewRowPointsa
头发颜色
Mass
Scorein
Dimension
Inertia
Contribution
1
2
OfPointtoInertiaof
Dimension
OfDimensiontoInertiaof
Point
1
2
1
2
Total
金色红色棕色深色黑色
Active
Total
.270
.053
.397
.258
.022
1.000
-.814
-.349
-.063
.881
1.638
-.417
-.116
.500
-.250
-.688
.088
.004
.018
.092
.028
.230
.401
.014
.004
.449
.132
1.000
.271
.004
.572
.093
.060
1.000
.907
.770
.039
.969
.934
.093
.033
.961
.030
.064
1.000
.803
1.000
1.000
.998
a.Symmetricalnormalization
Mass:
各类别的组成,发色为金色的占总人口的27%
Scoresindimension:
给出各类别在相关维度上的评分。
金色在2
维空间中的坐标值(-0.814,-0.417),依次类推。
然后给出惯量在行变量中的分解情况。
数值越大,说明该类别对惯量的贡献越大。
此处贡献最大的是深色。
Contribution:
首先给出各维度信息量在各类别间的分解情况,本
例中可见第一维度的信息主要被金色、深色和黑色3各类别所携带,意味着,这三个类别在第一维度区分度较好。
同理,在第二维度上金色和棕色区分度较好。
随后给出各类别的信息在各个维度上的分布比例。
如金色的总信息量中90.7%分布在第一维度,
只有9.3%分布在第二维度。
最后一栏是信息量之和
RowandColumnPoints
SymmetricalNormalization
2.0
I
1.旷
F,巨
0.0
Dimension1
(3)图中,红色离原点太近,说明两个维度上对红色的信息提取不够,我们只能说明头发颜色金色和眼睛颜色深色、浅色关系较强。
所以我们选择3个维度进行分析。
林色
益色o
RowandColumnPoints
SymmetricalNormalization
2.0-1
1.5'
1.0-
Hfe
O
0.5-
o.o-
-0.5
-041TTrT
■1.0-050.0051.01.52.0
Dimensian1
从图形可以看出,红色离其它颜色都较远,无法作出合理判断。
说明我们选取两个维度分析就足够了。
实际上对于对应分析而言,所有信息主要反映在图中,因此多数分析报告均只使用图进行描述。
进一步分析:
当参与对应分析的变量其类别间可能存在某种内在的次序关系
时,分析者往往希望在表格中直接观察到这种次序。
对应分析可
以提供这种输出。
由于各个类别在各个维度上已经算出相应的坐标值,因此只需要将各个类别按照坐标值从小到大排列即可。
选项:
statistic,permutations
CorrespondenceTable
头发颜色
眼睛颜色
深色
棕色
蓝色
浅色
ActiveMargin
金色
98
343
326
688
1455
红色
48
84
38
116
286
棕色
403
909
241
584
2137
深色
681
412
110
188
1391
黑色
85
26
3
4
118
ActiveMargin
1315
1774
718
1580
5387
对比
PermutedCorrespondenceTableAccordingtoDimension1
头发颜色
眼睛颜色
浅色
蓝色
棕色
深色
ActiveMargin
金色
688
326
343
98
1455
红色
116
38
84
48
286
棕色
584
241
909
403
2137
深色
188
110
412
681
1391
黑色
4
3
26
85
118
ActiveMargin
1580
718
1774
1315
5387
我们发现:
眼睛颜色和头发颜色都是按照坐标值(降维后)从小到大进行排列。
更为重要的是:
表格中的频数会集中在主对角线上,使得对应关系比原来清楚。
如现在我们可以立刻发现,头发黑色与眼睛深色、棕色有较强关联。
在model模块中,还有很多菜单选项没有给大家讲解。
这些模块主要适用于基于均数的对应分析范围,但个人认为这种方法很不
成熟,效果做出来也不是很理想,所以没有给大家介绍。
有兴趣
的同学可以参考张文彤高级篇。
多重对应分析在前面的分析中,考察的都是一个二维交叉表中行、列变量间各类别的联系情况,我们希望能够同时考察多个分类变量类别取值间的联系。
例如性别、职业、学历等和职务级别之间的关系如何。
显然对应分析也可以解决此类问题,但是简单对应分析只能对两个分类变量进行分析,这里涉及多个分类变量,我们可以进行多重对应分析。
虽然名为多重对应分析,但是这一方法和前述的简单对应分析完全不同。
最突出的部分表现在它的算法和简单对应分析完全不同,它会首先对各个变量进行最优尺度变换,以尽量凸显类别间的差异,然后再按照标准的对应分析算法进行计算。
这使得即使在两变量的情况下,这两个过程的结果也不会完全等价。
不过,主要使用正确,两个结果在解释上是基本一致的。
在SPSS分析菜单下选择降维(DataRedaction擞据消减)后选
择最优尺度算法,该选项下,根据数据集和数据测量尺度不同有三种不同的高级定类分析算法,主要包括:
多重对应分析、分类
(非线性)主成分分析、非线性典型相关分析。
当变量都是多重名义型数据,则自动采用多重对应分析方法;当某些变量不是多重名义型,则自动采用分类(非线性)主成分分析;当变量集合多于一个,则采用非线性典型相关分析。
例题数据mcorres.Sav。
变量全部进入analysisvariables模块;补充变量的含义是如果有哪个变量你并不想作为对应分析的变量,而只是作为附属变量表现在对应图上可以加入。
点击VARIABLES,画图形对应分析练习:
1、请根据以下列联表数据进行对应分析
人数初级(B1)
高级(B2)
中级(B3)
其它职称(B4)
教师(A1)99
34
217
12
科技人员(A2)98
31
149
9
现役军人(A3)49
5
66
48
行政干部(A4)1299
248
2261
2430
其他人员(A5)171
11
238
69
2、SPSS自带数据voter.sav
1992年美国大选时出现了3位候选人,最终是克林顿击败了老布什和佩罗当选总统,那么不同教育程度的选民其倾向性如何?
变量pres92记录受访者选择了哪位候选人,degree则为受访者的文化程度,
A.试用对应分析考察不同文化程度的选民倾向性;
B.试进行多重对应分析