1、因此需的。因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就是这样一种降维的方变量中的各类信息。主成分分析与因子分析就是这样一种降维的方法。法。主成分分析与因子分析是将多个实测变量转换为少数几个不相关的主成分分析与因子分析是将多个实测变量转换为少数几个不相
2、关的综合指标的多元统计分析方法综合指标的多元统计分析方法直线综合指标往往是不能直接观测到的,但它更能反映事物的本质。直线综合指标往往是不能直接观测到的,但它更能反映事物的本质。因此在医学、心理学、经济学等科学领域以及社会化生产中得到广因此在医学、心理学、经济学等科学领域以及社会化生产中得到广泛的应用。泛的应用。主成分分析与因子分析的概念(续)由于实测的变量间存在一定的相关关系,由于实测的变量间存在一定的相关关系,因此有可能用较少数的综合指标分别综合因此有可能用较少数的综合指标分别综合存在于各变量中的各类信息,而综合指标存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不之间
3、彼此不相关,即各指标代表的信息不重叠。综合指标称为因子或主成分(提取重叠。综合指标称为因子或主成分(提取几个因子),一般有两种方法:几个因子),一般有两种方法:w特征值特征值1w累计贡献率累计贡献率0.8主成分分析实例P316不旋转使用默认值进行最简单的使用默认值进行最简单的主成分分析主成分分析(默认为主成分分析法默认为主成分分析法:Principal components)例子例子P316:对美国洛杉矶对美国洛杉矶12个人口调查区的个人口调查区的5个经济学变量的数据进行因个经济学变量的数据进行因子分析,子分析,data13-01a,数据见下一张幻灯片数据见下一张幻灯片)菜单:AnalyzeD
4、ataReductionFactornVariables:pop,School,employ,Services,housen其他使用默认值(主成分分析法Principalcomponents,选取特征值1,不旋转)n比较有用的结果:两个主成分比较有用的结果:两个主成分(因子因子)f1,f2及因子载荷矩阵及因子载荷矩阵(Component Matrix),根据该表根据该表可以写出每个原始变量(标准化值)的因子表达式:可以写出每个原始变量(标准化值)的因子表达式:Pop 0.581f1+0.806f2 School 0.767f1-0.545f2 employ 0.672f1+0.726f2 Se
5、rvices 0.932f1-0.104f2 house 0.791f1-0.558f2n每个原始变量都可以是每个原始变量都可以是5个因子的线性组合,提取两个因子个因子的线性组合,提取两个因子f1和和f2,可以概括原始变量所包可以概括原始变量所包含信息的含信息的93.4%。f1和和f2前的前的系数表示该因子对变量的影响程度,也称为变量在因子上的系数表示该因子对变量的影响程度,也称为变量在因子上的载荷。载荷。n但每个因子(主成分)的系数但每个因子(主成分)的系数(载荷载荷)没有很明显的差别,所以不好命名。没有很明显的差别,所以不好命名。因此为了对因子因此为了对因子进行命名,可以进行旋转,使系数向
6、进行命名,可以进行旋转,使系数向0和和1两极分化,这就要使用选择项。两极分化,这就要使用选择项。洛衫矶对洛衫矶对12个人口调查区的数据个人口调查区的数据编号编号 总人口总人口 中等学校平均中等学校平均 总雇员数总雇员数 专业服务专业服务 中等房价中等房价no pop 校龄校龄School employ 项目数项目数Services house15700 12.8 2500 270 25000 21000 10.9 600 10 10000 33400 8.8 1000 10 9000 43800 13.6 1700 140 2500054000 12.8 1600 140 25000 6820
7、0 8.3 2600 6012000 71200 11.4 400 1016000 89100 11.5 3300 6014000 99900 12.5 3400 180 18000109600 13.7 3600 390 25000119600 9.6 3300 80 12000129400 11.4 4000 100 13000因子分析实例322旋转Rotation由于系数没有很明显的差别由于系数没有很明显的差别,所以要进行旋转所以要进行旋转(Rotation:method一般用一般用Varimax方方差最大旋转差最大旋转),使系数向使系数向0和和1两极分化两极分化,例子同上例子同上菜单:
8、菜单:AnalyzeData ReductionFactornVariables:pop,School,employ,Services,housenExtraction:使用默认值(使用默认值(method:Principal components,选取特征值选取特征值1)nRotation:method选选VarimaxnScore:Save as variables 和和Display factor score Coefficient matrixn比较有用的结果:两个主成分(因子因子)f1,f2及旋转后的因子载荷矩阵及旋转后的因子载荷矩阵(Rotated Component Matrix
9、),根据该表可以写出每个原始变量(标准化值)的因子表达式:根据该表可以写出每个原始变量(标准化值)的因子表达式:Pop 0.01602 f1+0.9946f2 School 0.941f1-0.00882f2 employ 0.137f1+0.98f2 Services 0.825f1+0.447f2 house 0.968f1-0.00605f2n第一主因子对中等学校平均校龄第一主因子对中等学校平均校龄,专业服务项目专业服务项目,中等房价有绝对值较大的载荷中等房价有绝对值较大的载荷(代代表一般社会福利表一般社会福利-福利条件因子福利条件因子);而第二主因子对总人口和总雇员数有较大的载而第二主
10、因子对总人口和总雇员数有较大的载荷荷(代表人口代表人口-人口因子人口因子).P326n比较有用的结果比较有用的结果:因子得分因子得分fac1_1,fac2_1。其计算公式:因子得分系数和原始其计算公式:因子得分系数和原始变量的标准化值的乘积之和(变量的标准化值的乘积之和(P326)。然后可以利用因子得分进行聚类然后可以利用因子得分进行聚类p327(Analyze-Classify-Hierarchical Cluster)。)。主成分分析实例P330不旋转市场研究中的顾客偏好分析在市场研究中,常常要求分析顾客的偏好和当前市场的产品与顾客在市场研究中,常常要求分析顾客的偏好和当前市场的产品与顾客
11、偏好之间的差别,从而找出新产品开发的方向。顾客偏好分析时常偏好之间的差别,从而找出新产品开发的方向。顾客偏好分析时常用到主成分分析方法(因子没有旋转)。用到主成分分析方法(因子没有旋转)。例子例子P330:数据来自数据来自SAS公司,公司,1980年一个汽车制造商在竞争对年一个汽车制造商在竞争对手中选择了手中选择了17种车型,访问了种车型,访问了25个顾客,要求他们根据自己的偏个顾客,要求他们根据自己的偏好对好对17种车型打分。打分范围种车型打分。打分范围09.9,9.9表示最高程度的偏好。表示最高程度的偏好。data13-02a(1725:17个个case,25个变量个变量V1-V25)菜单
12、:V1-V25nExtraction:method:PrincipalcomponentsExtract:Numberoffactors:3要三个主成分nScore:Save as variablesn比较有用的结果:比较有用的结果:3个主成分及其个主成分及其因子载荷矩阵因子载荷矩阵(Component Matrix):第一主成第一主成分和第二主成分的载荷图(分和第二主成分的载荷图(Loading plots)n比较有用的结果比较有用的结果:因子得分因子得分fac1_1,fac2_1,fac3_1。然后可以利用因子得分然后可以利用因子得分进行各种分析进行各种分析:做偏好图:用用fac1_1,f
13、ac2_1做散点图(做散点图(Graphs-Scatter:X-fac1_1,Y-fac2_1):第一主成分反映了车的产地,第二主成分反映了第一主成分反映了车的产地,第二主成分反映了车的特性(质量、动力、座位数等)车的特性(质量、动力、座位数等)n具体见具体见P332-334补充:补充:主成分分析和因子分析主成分分析和因子分析以下的讲义是吴喜之教授有关主成分分析和因子分析的讲义,我觉得比书上讲得清楚。主主成成分分分分析析和和因因子子分分析析 汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、
14、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。主成分分析主成分分析每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。成绩数据(成绩数据(student.sav)100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。从本例可能提出的问题从本例可能提出的问题目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。主成分分析主成
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1