多元数据处理因子分析法.doc

资源描述

多元数据处理因子分析法.doc

《多元数据处理因子分析法.doc》由会员分享，可在线阅读，更多相关《多元数据处理因子分析法.doc（17页珍藏版）》请在冰豆网上搜索。

多元数据处理因子分析法.doc

多元数据处理

---因子分析方法

多元数据处理主要包括多元随机变量，协方差分析，趋势面分析，聚类分析，判别分析，主成分分析，因子分析，典型相关分析，回归分析以及各个分析方法的相互结合等等。

本文主要针对其中的因子分析方法展开了论述，并举了一个因子分析法在我国房地产市场绩效评价中的应用实例。

第一章因子分析方法概述

1.1因子分析的涵义

为了更全面和准确的测量和评估对象的特征，在实际的应用中，我们往往尽可能多的选用特征指标进行系统评估，选取的指标越多，就越能全面、客观的反映评价对象的特征。

选取众多指标的同时也带来了统计分析的困难：

一、不同的指标，不同重要程度需要赋予不同的权重，而靠主观的评价避免不了一些失误与错误。

二、收集到的指标之间可能存在较大的相关性，大量收集指标带来了人力、物力和财力的浪费。

而因子分析方法则较好的解决了上述问题。

因子分析[1]是一种多元统计方法，该方法起源于20世纪初KarlPearson和CharlesSpearman等人关于心理测试的统计分析，它的核心是用最少的相互独立的因子反映原有变量的绝大部分信息。

[2]通过分析事物内部的因果关系来找出其主要矛盾，找出事物内在的基本规律。

因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究，找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系，但是，这少数几个随机变量是不可观测的，通常称为因子。

然后根据相关性的大小把变量分组，使得同组内的变量之间相关性较高，使不同组内的变量相关性较低[3]。

对于所研究的问题就可试图用最少个数的所谓因子的线性函数与特殊因子之和来描述原来观测的每一变量[4]。

因子变量的特点：

第一，因子变量的数量远小于原指标的数量，对因子变量的分析能够减少分析的工作量；第二，因子变量不是原有变量的简单取舍，而是对原有变量的重新组构，他们能够反映原有变量的绝大部分信息，不会产生丢失；第三，因子变量之间线性相关性较低；第四，因子变量具有命名解释性[5]。

因子分析可以消除指标间的信息重叠，抽象出事物的本质属性，不仅可以综合评价，还可以综合分析对其产生影响的主要因素。

1.2因子分析统计模型

设p个可以观测的指标为，m个不可观测的因子为，则因子分析模型描述如下：

[6][7]

其中：

是不可测的向量，我们把F称为X的公共因子，其均值向量E（F）=0，协方差矩阵Cov（F）=1，即向量的各分量是相互独立的是特殊因子，与F相互独立，且E（e）=0。

，为因子载荷，数学上可以证明，因子载荷就是第i指标与第j因子的相关系数，载荷越大，说明第j个指标与第i个因子的关系越密切；反之载荷越小，关系越疏远[8]。

1.3因子分析步骤

（1）原始数据的标准化

原始数据的标准化包括指标正向化合和无量纲化处理两方面。

在多指标的评价中，有些指标数值越大，评价越好；有些指标数值越小，评价越好，这种指标称为逆向指标；还有些指标数值越靠近某个具体数值越好，这种指标称为适度指标。

根据不同类型的指标需要将逆向指标、适度指标转化为正向指标，此过程称为指标的正向化。

指标正向化过程既可以在无量纲化前处理也可以在无量纲化时处理。

逆向指标可以选用公式。

其中，、分别为指标的最大与最小值。

适度指标方面，叶宗裕[9]认为正向化可以采用指标值减去适度值的绝对值的相反数。

公式为。

其中为正向后数据，为原始数据，M为适度值。

指标的无量纲化则是通过标准化处理，将不同的指标通过数学变换转化为统一的相对值，消除各个指标不同量纲的影响。

常用的无量纲化包括：

标准化法、均值法和极差正规化法。

本文采用最常见的标准化法进行无量纲化处理，公式处理如下：

（是X的期望值，是X的标准差）

（2）计算相关矩阵R的特征值和特征向量

根据特征方程，计算相关相关矩阵的特征值及对应的特征向量A，的大小描述了各个因子在解释对象所起的作用的大小。

（3）计算因子贡献率及累积贡献率，确定公共因子个数

因子贡献率表示每个因子的变异程度占所有因子变异程度的比率，公式为：

，表示方差贡献率。

当累积贡献率达到85%以上或者特征根不小于1，即确定了公因子的个数。

（4）求解初始因子载荷矩阵

X=AF，因子载荷矩阵A并不唯一，软件则是运用不同的参数估计方法求出相应的估计矩阵，参数估计方法主要包括：

最小平方法、极大似然法、主成分法、主因子法、多元回归法。

（5）因子载荷矩阵的旋转

若因子载荷较为平均，初始的因子载荷矩阵描述的经济含义不太明显，难以判断与各个因子的关系时，就需要进行因子旋转。

通过因子旋转，使使旋转后公共因子的贡献更加分散，并对主因子进行命名，确定经济含义[10]。

因子旋转主要有正交旋转法和斜交旋转法。

（6）计算样本的综合得分

通过因子载荷矩阵，可以得出因子的因子得分系数矩阵B。

然后计算出每个因子的得分F=BZ，最后以各因子的方差贡献率占因子总方差的贡献率的比重作为权重加权汇总，得到应变综合得分

第二章我国房地产市场绩效实证研究

运用构建的房地产市场绩效评价指标体系及因子分析方法实证分析2007、2008、2009三年我国31个省市各房地产市场的绩效水平，利用SPSS软件进行因子分析与评价。

我国房地产业市场绩效指标体系见表2-1。

表2-1我国房地产业市场绩效指标体系

由上面的指标体系可以看出，我国房地产业市场绩效包括三个层次，第一层为为总体层，总体层又称为目标层，它反映了此指标体系的目的。

第二层为状态层，本文分五个方面对目标层进行解释。

2.1数据的采集和整理

根据本文构建的房地产绩效评价指标体系，选取了《房地产统计年鉴》中2007-2009年我国31个省市基础数据（不包括台湾省、香港特别行政区、澳门特别行政区3个地区）。

2.2数据的同向化处理

本文中评价房地产业市场绩效的指标中X16房屋空置面积这个指标是绩效评价的逆向指标，并不是越大越好，为了与其他指标保持同向性，需要将其转化为正向指标，转化公式为。

其中，为评价指标最大值，为评价指标最小值。

2.3数据的标准化处理

由于不同变量之间存在了不同量纲、不同数量级的情况，需要对原指标数据进行标准化处理，把不同指标数据转化成相同量纲的数据，是得各指标数据具有可比性。

标准化处理方法如下：

（是X的期望值，是X的标准查差）

2.4确定是否适合因子分析：

KMO检验和Bartlett球形检验

KMO检验给出抽样充足量的测度，检验变量间的偏相关系数是否过小。

Bartlett球形检验检验相关系数矩阵是否是单位阵，如果是单位阵，则表明不适合采用因子模型。

经SPSS检验结果如下表2-2。

根据Kaiser给出的是否做因子分析的KMO标准为：

KMO>0.9，非常适合；0.9>KMO>0.8，适合；0.8>KMO>0.7，一般；0.7>KMO>0.6，不太适合；KMO<0.5不适合，故KMO检验通过。

同时，相伴概率为0.000，小于显著水平0.05，表明Bartlett球形检验通过，所以本文所选的变量适合做因子分析。

表2-2KMO检验结果和Barlett球形检验结果

2.5指标相关性检验

根据本文构建的房地产业市场绩效指标体系，借助于多元分析软件SPSS，利用我国2007年房地产业基础数据对我国房地产业市场绩效做出分析与评价。

通过SPSS软件进行的相关性分析，得到2007年全国各省市房地产市场绩效评价指标的相关系数矩阵，如表2-3

表2-3CorrelationMatrix（相关系数矩阵）

续上表

通过以上相关系数矩阵的分析可以看出，各个房地产市场绩效指标之间有较大的相关性，如果单纯以一个指标来评价市场绩效指标就会存在不够准确甚至重迭。

为了消除指标间的重迭，简化计算，可以采用因子分析的方法进行降维处理，把原来比较复杂的相关矩阵内部找出几个综合指标，使综合指标为原来变量的线性组合，利用相对较少的因子研究市场绩效。

2.6共同度分析

根据变量共同度的统计意义，它刻画了全部公共因子对于原始变量的总方差所作的贡献，它说明了全部公共因子反映出原变量信息的百分比[11]。

如下表2-4所示的变量共同度可知，除了X13企业所有者权益、X14从业人数、X15房屋销售价格、X16商品房空置面积、的共同度为0.880、0.878、0.877、0.705，其余变量的共同度都在90%以上，因此这四个公共因子对各变量的解释能力是比较强的。

采用因子分析房地产市场绩效的效果是比较好的。

表2-4共同性公因子方差

2.7公共因子分析

因子载荷是公共因子与指标变量之间的相关系数，载荷越大，说明公共因子与指标变量之间的关系越密切。

在确定公共因子个数时，先选择与原变量数目相等的因子个数，其因子计算结果见下表2-5。

取初始特征矩阵大于1的因子为公共因子。

经过总方差分解，可以明显看出有二个因子旋转后特征值大于1，它们的方差贡献率分别为50.574%、41.199%，累计贡献率为91.772%。

当累积贡献率达到85%以上，因此完全可以采用这二个因子概况原始数据对全国31个省市的房地产市场绩效做出评价是合适的。

表2-5总方差分解

从未转轴的因素矩阵（见下表2-6）可以看出，结果并不非常令人满意，有2个因素被抽取，所以本文采用方差最大化正交旋转方法对因子进行了旋转，得到了因子载荷矩阵，进而更清楚地观察样本。

从旋转后的因素矩阵（见下表2-7）可以看出：

（1）X4本年购置土地面积、X6新开工面积、X10商品房销售套数、X9商品房销售面积、X7商品房屋竣工面积、X5房屋施工面积、X1企业个数、X14从业人数、X2本年完成投资额、X16商品房空置面积为第一主因子，他们的载荷值分别为：

0.959、0.948、0.926、0.894、0.848、0.835、0.802、0.781、0.728、0.630；这些指标都是从一个方面反映关于房地产开发销售方面的情况，故可以命名此公共因子F1为：

房地产市场开发销售。

表2-6未旋转因素矩阵表2-7转轴因素矩阵

（2）X15房屋销售价格、X13企业所有者权益、X11企业利润总额、X12企业经营收入、X8商品房销售额、X3本年资金来源合计为第二因子，他们的载荷值分别为：

0.935、0.908、0.874、、0.872、0.816、0.796；这些指标都是在一定程度上能够反映房地产企业的经济效益，故可以命名此公共因子F2为：

房地产企业综合效益水平。

2.8计算因子得分计算分析及结果

表2-8为因子得分系数矩阵，根据因子得分系数和原始变量的值可以计算出每个观测值的各因子的分数，并可以据此对观测值进行下一步的分析。

旋转后的因子得分表达式与计算结果如下：

表2-82007年各因子得分系数矩阵

由估计出的因子的得分，可以描述我国各省市绩效水平，利用因子得分可以从不同的角度对我国各省市房地产市场绩效水平进行比较分析。

为了对我国各省市房地产业市场绩效进行评价，现利用各省市因子得分表计算综合得分，各省市房地产市场绩效的获取是基于总方差分解表中旋转后各因子的方差贡献率及计算所得的上市公司各因得分所得，其具体计算公式为：

综合绩效=（50.574%×F1+41.199%×F2）/91.772%。

详细情况见表2-9。

表2-92007年31个省（市）各因子得分及排名

为了更直观的观察，本文也给出了样本城市因子的柱状图，如下图2-1，由表2-9可以看出2007年北京、上海在房地产市场开发因子F1得分仅-0.541、-0.8737，在31个省市自治区排名分别为21、26

展开阅读全文