主成分因子聚类判别Word文件下载.docx

上传人:b****4 文档编号:16590423 上传时间:2022-11-24 格式:DOCX 页数:41 大小:646.94KB
下载 相关 举报
主成分因子聚类判别Word文件下载.docx_第1页
第1页 / 共41页
主成分因子聚类判别Word文件下载.docx_第2页
第2页 / 共41页
主成分因子聚类判别Word文件下载.docx_第3页
第3页 / 共41页
主成分因子聚类判别Word文件下载.docx_第4页
第4页 / 共41页
主成分因子聚类判别Word文件下载.docx_第5页
第5页 / 共41页
点击查看更多>>
下载资源
资源描述

主成分因子聚类判别Word文件下载.docx

《主成分因子聚类判别Word文件下载.docx》由会员分享,可在线阅读,更多相关《主成分因子聚类判别Word文件下载.docx(41页珍藏版)》请在冰豆网上搜索。

主成分因子聚类判别Word文件下载.docx

通常情况下,如果前k个主成分的累计贡献率达到85%,则表明取前k个主成分就能基本包含原指标中的信息了,从而达到减少变量个数的目的。

另一种选择主成分个数的方法是选择大于1的特征根所对应的主成分。

五、基本步骤与应用实例

(一)基本步骤

(1)对原变量的样本数据矩阵进行标准化变换

(2)求标准化数据矩阵的相关系数矩阵R

(3)求R的特征根及相应的特征向量和贡献率等

(4)确定主成分的个数

(5)解释主成分的实际意义和作用

(二)应用实例

【例11.1】我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标见表11.1,对各地区经济效益作出分析。

表11.1我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标

地区

工业增加值率(%)x1

总资产贡献率(%)x2

资产负债率(%)x3

流动资产周转次数x4

成本费用利润率(%)x5

劳动生产率(元/人年)x6

产品销售率(%)x7

北京

天津

河北

山西

内蒙古

辽宁

吉林

黑龙江

上海

江苏

浙江

安徽

福建

江西

山东

河南

湖北

湖南

广东

广西

海南

重庆

四川

贵州

云南

西藏

陕西

甘肃

青海

宁夏

新疆

27.90

27.28

36.46

36.80

38.09

28.15

28.18

52.80

29.29

26.48

32.67

34.22

28.51

32.60

30.77

33.75

34.48

31.23

33.70

25.93

30.25

31.62

34.06

55.32

57.56

37.04

29.98

30.79

30.62

45.02

5.22

8.12

5.41

6.09

7.36

8.28

24.07

9.01

8.58

10.84

7.35

10.89

6.40

11.70

7.39

7.46

9.67

10.56

8.63

6.44

6.11

6.84

7.99

20.93

10.67

5.14

5.21

6.32

12.81

57.23

58.84

60.28

62.59

57.37

59.49

64.72

55.81

47.48

59.73

55.04

60.96

58.52

67.53

61.54

65.02

62.58

66.40

56.89

69.68

66.08

63.82

63.93

68.29

50.04

25.43

67.63

65.87

72.47

60.98

60.85

1.31

1.85

1.49

.88

1.24

1.48

1.28

1.67

1.51

1.68

1.36

1.19

1.92

1.23

1.29

1.76

1.39

1.18

1.07

.83

1.37

.59

1.08

.58

1.16

1.78

2.63

6.80

5.49

2.49

2.31

4.67

6.20

37.64

7.21

4.48

6.67

2.67

6.79

1.55

8.42

4.07

4.58

2.20

7.59

5.54

4.46

2.19

4.22

3.71

11.59

29.89

7.67

3.07

15.81

53987.95

78191.27

42629.81

24413.53

35129.88

47955.68

40141.03

73120.46

118816.16

56044.81

66785.21

35674.30

91263.70

29123.49

52621.24

29296.86

49374.62

38179.94

120863.34

44140.89

58521.50

36638.20

35013.75

32317.42

96702.70

103001.24

38102.97

34352.92

51599.98

33620.79

118599.82

98.10

99.35

98.90

97.97

99.02

98.37

98.89

99.07

99.46

98.26

98.22

99.11

97.84

98.11

98.32

98.31

101.23

99.61

97.99

98.16

94.96

99.54

98.98

99.71

99.09

95.78

98.00

97.47

97.38

96.65

98.73

【解】计算过程如下:

1.将数据标准化,并求相关矩阵R

工业增加值率(%)ZX1

总资产贡献率(%)ZX2

资产负债率(%)ZX3

流动资产周转次数ZX4

成本费用利润率(%)ZX5

劳动生产率(元/人年)ZX6

产品销售率(%)ZX7

.77

-.90

.38

-.07

-.55

-.10

.26

.84

-.20

.19

1.45

-.02

.73

.80

.29

.02

.46

-.19

-.50

.41

.33

-.86

-1.26

-.57

-1.13

-.37

.49

-.69

-.36

-.26

-.59

-.76

.52

.74

-.39

-.11

.42

-.29

-.31

-.03

-.17

.51

-.14

-.58

.30

3.64

-.54

.96

3.90

.56

.01

1.53

.50

.03

2.14

.89

.94

-.09

-.08

.99

-.13

.45

-.63

1.47

-.04

.34

-.16

.18

.06

.08

-.74

-.22

-.48

.69

-.62

-.96

-.25

.66

.13

1.65

-.15

-.38

.54

.05

.25

-.28

-.30

2.39

.04

.17

.71

-.60

-.65

1.02

.36

-.42

1.22

2.21

-.35

1.09

.16

-.18

-.44

-.21

1.01

-.61

.67

-.32

-2.91

.40

-.73

-.70

.95

-.51

.48

-.01

-.23

.93

-1.40

-.41

-.85

1.10

2.61

2.88

.12

1.38

4.13

-2.08

2.92

1.59

-2.22

.85

.09

-.92

.64

-.78

-.79

-.91

1.42

-2.10

-.67

-.87

.43

-.64

.07

-.49

-.81

-1.49

1.25

1.13

2.13

.28

得相关系数矩阵为:

2.求R的特征根及相应的单位正交特征向量和贡献率

由R的特征方程

求得R的单位特征根λ为:

再由齐次线性方程组

求得特征向量U,将具体结果整理为下表:

对应的

特征向量

U1j

.439

-.251

.414

.017

.159

-.509

.538

U2j

.460

.228

.240

.398

.081

-.205

-.687

U3j

-.408

.247

.591

.532

.177

.242

U4j

.158

.689

-.372

.233

-.352

-.223

.366

U5j

.487

-.126

.130

.243

-.252

.750

.218

U6j

.408

.153

-.450

-.287

.706

.036

U7j

-.021

.565

.593

-.544

.006

.182

.010

特征根

3.422

1.446

1.016

0.591

0.279

0.162

0.084

贡献率

48.88%

20.66%

14.52%

8.44%

3.98%

2.32%

1.20%

3.确定主成分的个数q

的原则,取三个主成分就能够对工业企业经济效益进行分析,且这三个主成分的累计方差贡献率达到84.06%主成分的表达式为:

4.主成分的经济意义

第一主成分y1中,zx4、zx7的系数相对较小,表明此两指标在y1中作用较小。

而zx1、zx2、zx5、zx6的系数都在0.4左右,说明它们的作用相当,但zx3的系数为负值(-0.48),对y1起着明显的反向变化作用:

zx3(资产负债率)取值越大,y1的值就越小。

资产负债率是反映企业经营风险的指标,y1的含义是在综合其它变量所反映信息的基础上,突出地反映了企业经营风险的大小。

第二主成分y2中,zx4的系数最大,为0.689,zx4(流动资金周转次数)取值越大,y2的取值也明显地增大,说明y2在综合其它变量信息的基础上,突出地反映了企业投入资金的周转速度。

第三主成分y3中,zx7(产品销售率)的系数最大,为0.593,说明y3在综合其它变量信息的基础上,突出地反映了工业产品满足社会需求的情况。

教师:

如果单纯依靠手工计算,计算量相当地大。

我们可以尝试使用Excel中的小插件XLSTAT,很快得到我们所需要的结果。

 

Excel解决方案

①若我们已将例11.1数据输入Excel工作表中的A2:

H32单元格;

②选择菜单“XLSTAT”—“AnalyzingData”,见图11.2;

③选择“PCA”,正确填写相关信息后,见图11.3,点“OK”,可得相关结果。

图11.2XLSTAT菜单

图11.3主成分分析对话框

第二节因子分析

在实际问题的分析中,有时需要对不能直接观测的潜在因素进行分析,如企业的形象,企业文化、创新能力等都是不可直接观测到的变量(潜在变量),而利税总额、劳动生产率等都是显在变量。

因子分析(FactorAnalysis)是利用少数几个潜在变量或公共因子去解释多个显在变量或可观测变量中存在的复杂关系的分析方法。

因子分析是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

因子分析的概念起源于20世纪初KarlPearson和CharlesSpearman等人关于智力测验的统计分析。

近年来,因子分析的理论方法广泛地应用于心理学、医学、经济学等领域。

因子分析的基本思想是通过对变量相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个潜在随机变量去描述多个显在随机变量之间的相关关系,换句话说,因子分析是把每个可观测的原始变量分解为两部分因素,一部分是由所有变量共同具有少数几个公共因子构成的,另一部分是每个原始变量独自具有的,即特殊因子部分,对于所研究的问题就可试图用最少个数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

(一)符号与假定

设有n个样本,每个样本观测p个变量,记:

原始变量矩阵为X:

,公共因子变量矩阵为F:

,特殊因子矩阵为E:

假定因子模型具有以下性质:

1.E(x)=0,cov(x)=∑

2.E(F)=0,D(F)=I

3.E(E)=0,D(e)=diag(σ12,σ12,…,σp2)

4.Cov(F,E)=0

(二)因子模型

我们将p个变量xi(i=1,2,…,p)表示成公共因子F与特殊因子的线性组合:

若用矩阵形式表示,则为:

X=AF+E

式中的

,称为因子载荷矩阵,并且称aij为第i个变量在第j个公共因子上的载荷,反映了第i个变量在第j个公共因子上的相对重要性。

三、因子载荷的统计含义

可以证明因子载荷aij为第i个变量xi与第j个公共因子Fj的相关系数,即反映了变量与公共因子的关系密切程度,aij越大,表明公共因子Fj与变量xi的线性关系越密切。

因子载荷矩阵中各行元素的平方和:

称为变量x1,x2,…,xp的共同度。

它表示q个公共因子F1,F2,…,Fq对变量xi的方差贡献,变量共同度的最大值为1,值越接近于1,说明该变量所包含的原始信息被公共因子所解释的部分越大,用q个公共因子描述变量xi就越有效;

而当值接近于0时,说明公共因子对变量的影响很小,主要由特殊因子来描述。

因子载荷矩阵中各列元素的平方和:

称为公共因子F1,F2,…,Fq的方差贡献。

它与p个变量的总方差之比为:

,是衡量各个公共因子相对重要程度的一个指标。

方差贡献率越大,该因子就越重要。

四、因子的求解

要建立因子分析模型,关键就在于解出其因子载荷矩阵A。

A的求法很多,这里仅介绍主成分法。

前一节已提及,在对数据进行标准化后,样本的协方差矩阵S与相关系数矩阵R相等。

设相关系数矩阵的特征根为λ1≥λ2≥…≥λp,相应的特征向量为U1,U2,…,Up,设由列向量

构成的矩阵有A表示,即

A=

可以证明R的分解式为

,这个公式是一个精确可行的因子分解式,实际这就是主成分分析法的根据。

由相关系数矩阵R求出的解A即为因子载荷矩阵,A的估计值为:

因子分析的目的是将多个变量简化为数量较少的因子,以便进行下一步的分析,所以一般来说,公共因子的个数q要小于等于变量的个数p,而且q越小越好,当q与p的差异较大时,便能将高维空间的问题降至低维空间进行处理。

在实际问题中,q的数值通常可以采用不同的方法加以确定。

如根据累计方差贡献率≥85%确定,或者根据大于1的特征根来确定。

五、因子得分

当获得公共因子和因子载荷后,我们可以进一步考察每一个样本点在每一公共因子上的得分,从而对样本点进行评价、排序比较和分类。

估计因子得分函数的常用方法是回归法,因子的得分估计为:

六、基本步骤与应用实例

1.用公式

对原始数据标准化

2.建立相关系数矩阵R

3.根据

求R的单位特征根λ与特征向量U;

4.根据

求因子载荷矩阵A;

5.写出因子模型X=AF+E

6.求因子得分

【例11.2】仍以我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标作为研究对象,试求:

(1)正交因子模型;

(2)各个变量的共同度以及特殊因子方差;

(3)每个因子的方差贡献率以及三个因子的累计方差贡献率;

(4)说明三个因子的意义。

【解】

1.

(1)将原始数据标准化后求得其相关系数矩阵R为

(2)特征根与特征向量

根据

求得R的大于1的单位特征根λ与特征向量U分别为:

.439-.251.414

.460.228.240

-.408.228.247

U=.158.689-.372

.487-.126.130

.408.153-.450

-.021.565.593

(3)因子载荷矩阵为

(4)因子模型为

2.结果见下表

变量

因子载荷

共同度

特殊因子方差

F1

F2

F3

X1

X2

X3

X4

X5

X6

X7

.813

.851

-.754

.293

.901

.754

-3.956E-02

-.302

.274

.829

-.151

.184

.679

.417

.249

-.375

.131

-.454

.598

.927

.858

.705

.914

.853

.808

.820

0.073

0.142

0.295

0.086

0.147

0.192

0.180

方差贡献率

4

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1