R学习最好的指导书Word文档下载推荐.docx
《R学习最好的指导书Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《R学习最好的指导书Word文档下载推荐.docx(69页珍藏版)》请在冰豆网上搜索。
对应分析广泛应用于列联表数据的研究。
相应分析的基本思想是在一个两变量列联表的基础上提取信息,将变量内部各水平之间的联系以及变量与变量之间的联系同时反映在一张二维或三维的散点图上,并使关系紧密的类别点聚集在一起,而关系疏远的类别点距离较远。
例如,华南区、华东区与豪华型、商务型集中在一起,西南区与节能型聚集在一起,而东北区、西北区与耐用型聚集在一起等。
这样,通过观察这张散点图,就能清楚地知道变量各水平之间的内在联系。
对相应分析的基本步骤
(1)编制二维列联表并计算二维频率矩阵
(2)对频率矩阵进行规格化,得到过渡矩阵Z——
(3)利用协差阵进行因子分析,从而达到降维的目的
(4)根据因子载荷绘制相应分析图
对应分析的逻辑框图
对应分析的优点:
(1)提供了将定性资料进行定量分析的途径,从数量的角度揭示了交叉列表行列间的关系;
(2)对应分析图将不同属性的指标反映在同一坐标系下,有利于研究不同属性指标间的关系。
【实验目的】
本实验目的旨在使学生掌握SPSS软件包中对应分析的基本原理以及CorrespondenceAnalysis操作的有关操作,具体包括以下几个方面:
1.了解对应分析的基本原理与基本操作步骤
2.掌握运用SPSS中的CorrespondenceAnalysis菜单进行对应分析操作
3.能理解在SPSS13.0中进行对应分析的分析结果,并能根据SPSS13.0的输出结果进行分析,解决经济管理中的实际问题,培养实际应用能力。
【实验要求】
1.利用SPSS软件进行对应分析,独立完成实验项目1,并撰写实验报告
2.仿照实验项目1完成练习1.1,并通过教学平台提交电子操作结果
【实验内容】
本实例数据来自SPSS软件自带数据集voter.sav,为1992年美国大选的部分数据。
要求对选民的学历水平(degree)和所支持的总统候选人(pres92)进行相应分析。
其中,选民最高学历有5个水平,分别为lthighschool、highschool、juniorcollege、Bachelor和graduatedegree;
总统候选人有三个:
Bush、Perot、Clinton。
【实验步骤】
1.在SPSS窗口中选择Analyze→DataReduction→Correspondence菜单项,调出Correspondence对话框,如图1。
图1Correspondence对话框
2.从左侧变量列表中选择两个变量作为相应分析的对象。
这里我们选择pres92作为行变量,以degree为列变量。
选择变量pres92后,点击Row左侧的三角箭头就可以看到在Row项下出现了pres92(?
?
),这时用鼠标选中该变量,其下方的DefineRange按钮被激活,点击后出现DefineRowRange子对话框,如图2。
该对话框分为上下两个部分:
Categoryrangeforrowvariable:
pres92和CategoryConstraints。
图2DefineRowRange子对话框
这里要分析所有的三位总统候选人和选民的学历水平的关系,所以在Minimumvalue中填入1,在Maximumvalue中填入3,之后点击Update按钮。
就可以在下方的CategoryConstraints栏中看到,后续分析中的行变量仅包含3个类目,分别是1、2和3。
在CategoryConstraints栏右侧还有三个单选项:
None表示没有任何约束;
Categoriesmustbeequal可用于指定某些类目的得分必须相同,最多可以设置有效类目的个数减1个得分相等的类目,如本例中最多可以设置2个类目得分相等;
Categoryissupplemental表示某些类目不参加相应分析但是会在图形中标示。
这里我们不对分类进行任何约束,点击Continue按钮后回到主对话框。
类似的可以指定degree的有效类目最小值为0,最大值为4。
3.点击Model按钮,打开Model子对话框,如图3,指定相应分析结果的维数。
图3Model子对话框
Dimensionsinsolution输入框用于设置最终提取的因子个数。
为了得到可视化的相应分析图,一般设置成2或者3,最常用的设置是2。
DistanceMeasure选项栏用于选择距离测度的方式。
有卡方距离(Chisquare)和欧氏距离(Euclidean)两种,定性变量应该用Chisquare。
StandardizationMethod选项栏用于设置数据标准化方法。
NormalizationMethod选项栏用于设置正态化方法。
需要比较行列变量的类目差异时选择Symmetrical,需要比较行列变量中任意两个类目的差异时选择Principal,比较行变量的类目差异时选择Rowprincipal,而比较列变量的类目差异时选择Columnprincipal,也可以在Customize中指定[-1,1]之间的任意实数,特别的,如果输入-1则为Columnprincipal,输入1为Rowprincipal,输入0为Symmetrical。
该对话框中的选项一般无需改动。
4.点击Statistics按钮,打开Statistics子对话框,如图4,设定输出的相应分析统计量,各选项含义如下:
图4Statistics子对话框
Correspondencetable:
输出二维列联表;
Overviewofrowpoints:
输出行点总览表,表中包括行分类变量的因子载荷以及方差贡献等;
Overviewofcolumnpoints:
输出列点总览表,表中包括列分类变量的因子载荷以及方差贡献等;
Rowprofiles:
输出行轮廓矩阵(二维列联表);
Columnprofiles:
输出列轮廓矩阵(二维列联表);
Permutationsofthecorrespondencetable:
指定前n个维度的行列得分表,如果该项选中,下方的Maximumdimensionforpermutations被激活,用于指定维度n;
ConfidenceStatistics:
选择计算行点和列点在各维度的标准差以及相关系数。
这里我们选择前5个选项。
5.点击Plots按钮,打开Plots子对话框,如图5,设定输出的统计图。
图5Plots子对话框
Scatterplots选项栏用于指定输出相应分析的各种散点图,默认只输出包含行列变量的双变量因子载荷散点图(Biplot),也就是所谓的相应分析图。
也可指定输出只包含行变量的因子载荷散点图(Rowpoints)和只包含列变量的因子载荷散点图(Columnpoints)。
而IDlabelwidthforScatterplots输入框用于指定散点标签的长度,默认20。
Lineplots选项栏用于指定输出行变量和列变量分别在各个公共因子上载荷的折线图。
这里我们选择子对话框中所有的复选项。
6.在主对话框中单击OK按钮,执行相应分析命令。
【实验结果】
表1给出了总统候选人和选民学历层次之间的二维列联表,从列联表中可以粗略地观察不同学历层次对总统选择的偏好。
ActiveMargin为边际频数,大致可以看出Clinton在各个学历层次都有最高的票数。
表1二维列联表
表2和表3分别给出了行轮廓矩阵和列轮廓矩阵,从中可以读出一些更为详尽的信息。
例如,从表2知道,在所有选择Bush的选民中,学历层次为lthighschool、highschool、juniorcollege、Bachelor和graduatedegree的比例分别是0.083、0.528、0.073、0.221和0.09;
从表3知道,在所有学历为Bachelor的选民中,选择Bush、Perot、Clinton的比例分别是0.378、0.161和0.461。
Mass为边际频率,从表2可以看出,所有选民的学历层次分布情况为lthighschool(0.102)、highschool(0.513)、juniorcollege(0.071)、Bachelor(0.209)和graduatedegree(0.104);
三位总统候选人的支持率分别为Bush(0.358)、Perot(0.151)、Clinton(0.492)。
表2行轮廓矩阵
表3列轮廓矩阵
表4给出一些相应分析的重要结果。
表中从左到右依次是维度编号、奇异值(等于特征根的平方根)、惯量(也就是特征根)、卡方统计量(原假设为行列变量相互独立)、卡方统计量对应的
值、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。
第一个维度惯量0.019,占总惯量的98.7%,第二个维度惯量接近0,仅占总惯量1.3%。
因此可以认为只要用一个维度就可以解释行列变量之间所有的关系,但为了说明分析过程,仍然保留两个维度。
卡方统计量等于35.867,对应的
值接近于0,说明有理由拒绝原假设,应该认为行列变量之间存在显著相关性,相应分析是有意义的。
表4相应分析总览表
表5和表6分别给出行点总览表和列点总览表。
现以表5为例,Mass项表示行变量中每个类目的边际频率。
Scoreindimension项是行点在两个维度的坐标(即行变量在两个公共因子上的载荷),即有坐标点Bush(0.194,-0.156),Perot(0.663,0.198),Clinton(-0.346,0.053)。
Inertia项为惯量,即每个行点与行重心的加权距离的平方。
而总的行惯量为行点与行重心的加权距离平方和,即0.19=0.002+0.009+0.008。
比较表5和表6的总惯量,可以发现总的行惯量与总的列惯量相等,都等于0.19。
Contribution项有两个部分,分别是行变量的每个类目对维度(公共因子)特征根的贡献和每一个维度对每个类目的特征根的贡献。
表5行点总览表
表6列点总览表
图6和
图7分别给出了行变量和列变量在两个公共因子上的载荷的折线图。
其中,图6(a)是行变量pres92在第一因子上的载荷折线图,图6(b)是行变量pres92在第二因子上的载荷折线图,可见候选人Perot在两个公共因子上都有较大载荷。
图7(a)是列变量degree在第一因子上的载荷折线图,
图7(b)是列变量degree在第二因子上的载荷折线图,可见highschool、juniorcollege、bachelor在第一因子上有较大载荷,而lthighschool和juniorcollege在第二因子上有较大载荷。
(a)(b)
图6行变量的因子载荷折线图
图7列变量的因子载荷折线图
图8给出行变量的因子载荷散点图,直观地体现出行变量各水平之间的相似程度,从图中可以看出,三位候选人的选民支持状况比较分散;
图9给出列变量的因子载荷散点图,体现出不同学历水平的选民对候选人偏好的相似程度,从中可以看出,highschool和bachelor两种学历水平的选民具有比较相似的偏好。
图8行变量的因子载荷散点图
图9列变量的因子载荷散点图
图10给出相应分析的重要结果——相应分析图,该图直观地体现了选民的学历背景和对总统的选择之间的对应关系。
从图中可以发现研究生层次的选民(Graduatedegree)倾向于具有实干精神的Clinton,而较Clinton更为激进的Bush更受highschool和Bachelor层次的选民欢迎,Perot仅和juniorcollege层次的选民较近。
图10相应分析图
典型相关分析
1.典型相关分析的基本思想
在一元统计分析中,研究两个随机变量之间的线性相关关系,可用相关系数(称为简单相关系数);
研究一个随机变量与多个随机变量之间的线性相关关系,可用复相关系数(称为全相关系数)。
l936年Hotelling首先将它推广到研究多个随机变量与多个随机变量之间的相关关系的讨论中,提出了典型相关分析。
典型相关分析的基本思想:
首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具行最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止。
有了这样线性组合的最大相关,则讨论两组变量之间的相关.就转化为只研究这些线性组合的最大相关.从而减少研究变量的个数。
典型相关分析从本质上可以看作为多个独立变量与多个依赖变量之间的一种线性回归分析。
典型相关分析应用十分广泛,在经济学中研究一组物品价格与消费量之间的关系;
在市场研究中研究一组消费者特性与消费偏好之间的关系。
例如,猪肉和鸡蛋的价格分别用随机变量
,
来表示,猪肉与鸡蛋的消费量分别用随机变量
来表示,要研究随机变量
与
的关系,即猪肉与鸡蛋的价格和猪肉与鸡蛋的消费量之间的关系。
在对企业创新研究过程中,常常需要研究多个创新投入(人员、研究开发经费、研究开发基础设施)与多个创新产出(专利、科级论文和新产品)指标间相互关系,这时,常令
为
个创新投入指标,
个创新产出指标,研究随机向量
之间的关系。
2.典型相关分析的基本步骤
典型相关分析是一种用于研究分析两组随机变量之间的线性相关结构的多元统计分析方法,其基本原理是分别在两组随机变量上利用线性组合来构造称为典型变量的具有代表意义的综合变量,在保持变差信息总量不变的前提下,将原始随机变量所包含的信息分配到这些典型变量上,通过分析这些典型变量之间的相关关系,来代替对原来两组随机变量之间的相关关系的研究。
典型变量具有正交性和线性不变性等性质,典型变量的具体含义可以通过分析其与原始变量之间的关系得到。
在实际操作中,典型相关分析主要是按照如下的步骤来对实际问题进行分析的:
第一步,确定典型相关分析的目标;
第二步,设计典型相关关系;
第三步,典型相关关系的基本假定;
第四步,推导典型函数、评价整体拟合情况;
第五步,解释典型变量;
第六步,模型的验证与诊断;
3.典型相关分析的语法说明
在SPSS中可以用两种方法来拟合典型相关分析,第一种是采用Manova过程来拟合,第二种是采用专门提供的宏程序来拟合,第二种方法在使用上非常的简单,而输出的结果非常的详细。
因此这里只对第二种方法进行介绍。
此种方法是以syntax命令直接编写的文件。
它的文件名为:
Cancorr.sps。
在进行典型相关分析以前,应该先检查一下它是否存在于SPSSEVAL子目录中(后面我们将假设这个子目录在C盘根目录下)。
此文件的调用方式如下:
上面为需要输入的两个命令,每个命令用英文句点表示结束。
第一句的命令是调用Cancorr.sps命令程序。
第二句命令是开始执行这个命令程序,并定义典型相关分析中的变量组,每个变量名之间以空格分开。
并且不要忽略“/”线,也不要误打为“\”。
由于是直接输入SPSS命令,最好严格按照上述格式输入。
执行程序时,用光标选择这些命令,使其被阴影覆盖,在将光标双点击SYNTAX视窗左上部的RUN键,即可得到所有典型相关的结果。
在完成典型相关分析以后,该命令程序会自动形成两对(4个)新的典型变量,第一对典型变量分别被命名为S1_CV001和S2_CV001,意为第一组(set1)的第一个典型变量和第二组的第一个典型变量。
其他典型变量S1_CV002和S2_CV002也是以同样形式标注分组属性及其序号的。
这些典型变量连同原来的观测变量将被自动存入一个暂时文件cc__tmp1中。
可通过命令打开此文件使用典型变量,并最好将此文件另取文件名存为一个永久性文件,因为在下一次运行Cancorr命令时,又会产生新的暂存文件将此覆盖。
4.典型相关分析相关问题说明
典型相关分析研究两组变量之间的整体线性相关分析,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量。
所研究的两组变量可以是一组变量为自变量,而另一组变量为因变量的情况,两组变量也可以处于同等的位置,但典型相关分析要求两组变量都至少是间隔尺度的。
4.1典型相关分析的适用条件及分析目标
典型相关分析所适用的数据是两组变量,通常一组可以定义为自变量,另一组可以定义为因变量。
典型相关分析可以达到以下目标:
(1)确定两组变量相互独立,或者相反,确定两组变量间存在关系的大小。
(2)为每组变量推导出一组权重,使得每组变量的线性组合达到最大程度相关。
最大化余下的相关关系的其它的线性函数与前面的线性函数独立的。
(3)解释自变量与因变量组中存在的相关关系,通常是通过测量每个变量对典型函数的相对贡献来衡量。
4.2典型相关关系的基本假定
线性假定影响典型相关分析的两个方面。
首先,任意两个变量间的相关系数是基于线性关系的。
如果这个关系不是线性的,一个或者两个变量需要变换。
其次,典型相关是变量间的相关。
如果关系不是线性的,典型相关分析将不能测量到这种关系。
4.3典型变量的解释方法
典型相关分析主要使用以下三种方法来解释典型变量:
(1)典型权重(标准化系数);
(2)典型载荷(结构系数);
(3)典型交叉载荷
4.4模型的验证与诊断
与其它多元分析方法一样,典型相关分析的结果应该验证,以保证结果不是只适合于样本,而是适合于总体。
最直接的方法是构造两个子样本(如果样本量允许),在每个子样本上分别做分析。
这样的结果可以比较典型函数的相似性、典型载荷等。
如果存在显著差别,研究者应深入分析,保证最后结果是总体的代表而不只是单个样本的反应。
另一种方法是测量结果对于剔除一个因变量或自变量的敏感度,保证典型权重和典型载荷的稳定性。
4.5典型相关分析的局限性
典型相关分析在实际应用上具有一定的局限性:
(1)典型相关反映变量组的线性组合所共享的方差,而不是从变量提取的方差;
(2)计算典型函数推导的典型权重有较大的不稳定性;
(3)推导的典型权重是最大化线性组合间的相关关系,而不是提取的方差;
(4)典型变量的解释可能会比较困难,因为它们是用来最大化线性关系的,没有类似于方差分析中变量旋转的有助于解释的工具;
(5)难以识别的自变量和因变量的子集间有意义的关系,只能通过一些不从分的测量,比如载荷和交叉载荷;
本实验目的旨在使学生理解掌握SPSS软件包中典型相关分析的基本原理以及Canonicalcorrelation过程的有关操作,具体包括以下几个方面:
1.了解典型相关分析(Canonicalcorrelation)的基本原理与基本操作步骤
2.掌握运用SPSS程序语言进行典型相关分析的简单编程方法
3.能理解在SPSS13.0中进行典型相关分析的分析结果,并能根据SPSS13.0的输出结果进行分析,解决经济管理中的实际问题,培养实际应用能力。
1.利用SPSS软件进行典型相关分析,独立完成实验项目2,并撰写实验报告。
2.仿照实验项目2完成练习2.1,并通过教学平台提交电子操作结果,
为了研究兄长的头型与弟弟的头型间的关系,研究者随机抽查了25个家庭的两兄弟的头长和头宽,资料见表1,希望求得两组变量的典型变量及典型相关系数。
这里,代表兄长头型的变量为第一组变量,代表弟弟头型的变量为第二组变量,希望求得的是两组变量间的相关性。
表1兄弟头长与头宽的相关资料(单位:
mm)
序号
兄头长
兄头宽
弟头长
弟头宽
1
191.00
155.00
179.00
145.00
2
183.00
153.00
188.00
149.00
3
189.00
150.00
190.00
4
192.00
187.00
151.00
5
174.00
185.00
152.00
6
163.00
137.00
161.00
130.00
7
181.00
182.00
146.00
8
143.00
178.00
147.00
9
10
195.00
201.00
11
176.00
144.00
171.00
142.00
12
197.00
159.00
13
158.00
186.00
148.00
14
157.00
15
16
175.00
140.00
165.00
17
139.00
18
19
208.00
20