主成分因子聚类判别.docx

上传人:b****3 文档编号:3856951 上传时间:2022-11-25 格式:DOCX 页数:36 大小:525.88KB
下载 相关 举报
主成分因子聚类判别.docx_第1页
第1页 / 共36页
主成分因子聚类判别.docx_第2页
第2页 / 共36页
主成分因子聚类判别.docx_第3页
第3页 / 共36页
主成分因子聚类判别.docx_第4页
第4页 / 共36页
主成分因子聚类判别.docx_第5页
第5页 / 共36页
点击查看更多>>
下载资源
资源描述

主成分因子聚类判别.docx

《主成分因子聚类判别.docx》由会员分享,可在线阅读,更多相关《主成分因子聚类判别.docx(36页珍藏版)》请在冰豆网上搜索。

主成分因子聚类判别.docx

主成分因子聚类判别

目录

第十一章多元统计分析3

第一节主成分分析3

一、基本思想3

二、数学模型4

三、模型的求解5

四、主成分的性质5

五、基本步骤与应用实例5

第二节因子分析9

一、基本思想9

二、数学模型10

三、因子载荷的统计含义10

四、因子的求解11

五、因子得分11

六、基本步骤与应用实例11

第三节聚类分析13

一、基本思想13

二、统计量14

三、分类方法(系统聚类法)14

四、基本步骤与应用实例15

第四节判别分析19

一、基本思想19

二、基本方法19

三、判别效果的评价20

四、基本步骤与应用实例20

习题23

第十一章多元统计分析

多元统计分析(multivariatestatisticalanalysis)是研究多个随机变量之间的相互依赖关系以及内在统计规律性的一门统计学科,是现代统计学应用十分活跃的一个分支。

常用多元统计方法主要有:

多元数据图表示法、主成分分析、因子分析、聚类分析、判别分析、对应分析、多元回归分析、典型相关分析、路径分析等。

从某种意义上讲,多元分析是一些方法的“混合体”,我们难于给出其确切的概念和难于对其所有方法进行归类,但是它可以同时展示和处理异度量的多个变量间的各种关系,且不损失原有的信息量,所以多元统计分析方法成为进行深层次经济分析的一种有效工具。

每一种方法都有丰富的内容,也涉及较多的数理统计知识。

本章主要的目的是简要介绍一些常用多元统计方法的基本思路和方法,对于数理推导部分,有兴趣的读者可参考相关专著。

第一节主成分分析

在许多实际问题中,我们经常用多个变量来刻划某一事物,但由于这些变量之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全面地反映原来多项变量的信息,同时相互之间不相关。

主成分分析正是满足上述要求的一种处理多变量问题的方法。

一、基本思想

主成分分析就是设法将原来的p个指标重新组合成一组相互无关的新指标的过程。

通常数学上的处理就是将原来的p个指标做线性组合。

为了能更清晰的解释主成分的基本思想,我们从用两个指标来衡量n个样本点的二维空间入手。

在二维空间,n个样本点的变量信息若用离差平方和来表示,则变量的信息总量为总方差

对于每个变量的离差平方和,它们的取值可能出现各种情况:

(1)如果离差平方和

之间相差悬殊,如取值之比为10:

1,说明变量x1在方差总信息量中占较重要的地位,可剔除变量x2达到降维的目的;

(2)如果

数值相差不大,说明两个指标在方差总信息量中的比重相当,统计分析时,两个指标都不可放弃,此时可对x1、x2作适当的变量替换,通过某方法寻找到两个新的变量y1、y2(必须是原变量x1、x2的线性组合),使新变量满足:

,(其中

),上式说明新变量y继承了原变量x的全部信息,并且要求

数值比例相差较大,这时仅用y1来分析原问题就可以了,变量的个数从2变为了1。

此时的y1方差最大,包含的信息最多。

y1称之为第一主成分,y2称为第二主成分。

推而广之,第一主成分y1的方差达到最大,其方差越大,表示其所包含的信息越多。

如果第一主成分还不能反映原指标的全部信息,再考虑选取第二主成分y2,y2在剩余的线性组合中方差最大,并且与y1不相关,如若第一、第二主成分仍然不能反映原变量的全部信息,再考虑选取第三主成分y3,y3在剩余的线性组合中方差最大,并且与y1、y2不相关,依此可求出全部p个主成分,它们的方差是依次递减的。

在实际工作中,在不损失较多信息的情况下,通常选取前几个主成分来进行分析,达到简化数据结构的目的。

二、数学模型

主成分分析可以针对总体,也可以针对样本,但在许多问题中所涉及的总体都是未知的,所以我们主要讨论样本的主成分。

仍从二维空间入手,设有两个变量的信息如图11.1所示,大部分的样本点集中在椭圆范围内:

图11.1两个变量的信息分布

如果我们取椭圆的长轴y1、短轴y2作为样本点新的坐标轴,容易看出y1坐标变化程度大,即y1的方差最大,而y2的变化程度相对较小,即y2的方差较小。

于是可以说变量(x1,x2)的信息大部分集中在新变量y1上,而小部分集中在新变量y2上。

上图中的新坐标y1,y2是x1,x2经过坐标旋转而得到的,其旋转公式为:

系数满足的要求是:

我们可以称y1为它们的第一主成分,y2为它们的第二主成分,坐标的正交变换为主成分变换。

推广开来,设有n个样本点,每个样本点都有p项变量x1,x2,…,xp,其原始数据矩阵表示为:

其中xij是第i个样本点第j个指标的观测值。

如前所述,通过主成分变换得到的线性组合可以表示为x1,x2,…,xp的线性组合:

(11.1)

如果系数uij满足

;而且系数uij的确使yi、与yj(i≠j)相互无关,并使y1是x1,x2,…,xp的一切线性组合中方差最大者,y2是与y1不相关的x1,x2,…,xp的所有线性组合中方差最大者,……,yp是与y1,y2,…,yp-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者,则称y1,y2,…,yp为原变量的第一,第二,…,第p主成分。

三、模型的求解

要求原始变量的主成分,关键在于求公式(11.1)的系数值。

在应用主成分分析研究问题时,通常先将数据标准化,以消除量纲对结果的影响。

标准化的常用公式为:

,标准化后的数据均值为0,方差为1。

可以证明,变量x1,x2,…,xp标准化以后,其协方差矩阵S与相关系数矩阵R相等。

为了求出主成分,只需求样本协方差矩阵S或相关系数矩阵R的特征根和特征向量就可以。

设R的特征根λ1≥λ2≥…≥λp>0,相应的单位特征向量为:

(ui1ui2…uip)’,那么相应的主成分就是:

四、主成分的性质

以下我们不加证明地给出主成分的有关性质。

性质1:

第k个主成分yk的系数向量是第k个特征根λk所对应的标准化特征向量Uk。

性质2:

第k个主成分的方差为第k个特征根λk,且任意两个主成分都是不相关的,也就是主成分y1,y2,…,yp的样本协方差矩阵是对角矩阵。

性质3:

样本主成分的总方差等于原变量样本的总方差。

性质4:

第k个样本主成分与第j个变量样本之间的相关系数为:

该相关系数又称为因子载荷量。

在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率取前k个。

第k个主成分的方差贡献率为:

,前k个主成分的累计方差贡献率为:

通常情况下,如果前k个主成分的累计贡献率达到85%,则表明取前k个主成分就能基本包含原指标中的信息了,从而达到减少变量个数的目的。

另一种选择主成分个数的方法是选择大于1的特征根所对应的主成分。

五、基本步骤与应用实例

(一)基本步骤

(1)对原变量的样本数据矩阵进行标准化变换

(2)求标准化数据矩阵的相关系数矩阵R

(3)求R的特征根及相应的特征向量和贡献率等

(4)确定主成分的个数

(5)解释主成分的实际意义和作用

(二)应用实例

【例11.1】我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标见表11.1,对各地区经济效益作出分析。

表11.1我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标

地区

工业增加值率(%)x1

总资产贡献率(%)x2

资产负债率(%)x3

流动资产周转次数x4

成本费用利润率(%)x5

劳动生产率(元/人年)x6

产品销售率(%)x7

北京

天津

河北

山西

内蒙古

辽宁

吉林

黑龙江

上海

江苏

浙江

安徽

福建

江西

山东

河南

湖北

湖南

广东

广西

海南

重庆

四川

贵州

云南

西藏

陕西

甘肃

青海

宁夏

新疆

27.90

27.28

36.46

36.80

38.09

28.15

28.18

52.80

29.29

26.48

26.48

32.67

34.22

28.51

32.60

30.77

33.75

34.48

31.23

33.70

25.93

30.25

31.62

34.06

55.32

57.56

37.04

29.98

30.79

30.62

45.02

5.22

8.12

8.12

5.41

6.09

7.36

8.28

24.07

9.01

8.58

10.84

7.35

10.89

6.40

11.70

7.39

7.46

9.67

10.56

8.63

6.44

6.11

6.84

7.99

20.93

10.67

8.28

5.14

5.21

6.32

12.81

57.23

58.84

60.28

62.59

57.37

59.49

64.72

55.81

47.48

59.73

55.04

60.96

58.52

67.53

61.54

65.02

62.58

66.40

56.89

69.68

66.08

63.82

63.93

68.29

50.04

25.43

67.63

65.87

72.47

60.98

60.85

1.31

1.85

1.49

.88

1.24

1.48

1.28

1.67

1.51

1.68

1.85

1.36

1.85

1.19

1.92

1.23

1.23

1.29

1.76

1.39

1.18

1.07

1.07

.83

1.37

.59

1.07

1.08

.58

1.16

1.78

2.63

6.80

5.49

2.49

2.31

4.67

6.20

37.64

7.21

4.48

6.67

2.67

6.79

1.55

8.42

4.07

4.58

2.20

7.59

5.54

4.46

2.19

4.22

3.71

11.59

29.89

7.67

1.18

1.67

3.07

15.81

53987.95

78191.27

42629.81

24413.53

35129.88

47955.68

40141.03

73120.46

118816.16

56044.81

66785.21

35674.30

91263.70

29123.49

52621.24

29296.86

49374.62

38179.94

120863.34

44140.89

58521.50

36638.20

35013.75

32317.42

96702.70

103001.24

38102.97

34352.92

51599.98

33620.79

118599.82

98.10

99.35

98.90

97.97

99.02

98.37

98.89

99.07

99.46

98.26

98.22

99.11

97.84

98.11

98.32

98.31

101.23

99.61

97.99

98.16

94.96

99.54

98.98

99.71

99.09

95.78

98.00

97.47

97.38

96.65

98.73

【解】计算过程如下:

1.将数据标准化,并求相关矩阵R

地区

工业增加值率(%)ZX1

总资产贡献率(%)ZX2

资产负债率(%)ZX3

流动资产周转次数ZX4

成本费用利润率(%)ZX5

劳动生产率(元/人年)ZX6

产品销售率(%)ZX7

北京

.77

-.90

.38

-.07

-.55

-.10

.26

天津

.84

-.20

.19

1.45

-.02

.73

.80

河北

.29

-.20

.02

.46

-.19

-.50

.41

山西

.33

-.86

.26

-1.26

-.57

-1.13

-.37

内蒙古

.49

-.69

-.36

-.26

-.59

-.76

.52

辽宁

.74

-.39

-.11

.42

-.29

-.31

-.03

吉林

.73

-.17

.51

-.14

-.10

-.58

.41

黑龙江

.30

3.64

-.54

.96

3.90

.56

.56

上海

.59

.01

1.53

.50

.03

2.14

.89

江苏

.94

-.09

-.08

.99

-.31

-.03

-.13

浙江

.94

.45

-.63

1.47

-.04

.34

-.16

安徽

.18

-.39

.06

.08

-.54

-.74

.59

福建

.01

.46

-.22

1.47

-.02

1.19

-.48

江西

.69

-.62

.84

-.39

-.69

-.96

-.25

山东

.19

.66

.13

1.65

.19

-.15

-.07

河南

.41

-.38

.54

-.29

-.37

-.96

-.08

湖北

.05

-.36

.25

-.28

-.30

-.26

2.39

湖南

.04

.17

.71

-.10

-.60

-.65

1.02

广东

.36

.38

-.42

1.22

.08

2.21

-.35

广西

.05

-.08

1.09

.16

-.18

-.44

-.21

海南

1.01

-.61

.67

-.42

-.32

.05

-2.91

重庆

-.48

-.69

.40

-.73

-.61

-.70

.95

四川

-.31

-.51

.41

-.74

-.35

-.76

.48

贵州

-.01

-.23

.93

-1.40

-.41

-.85

1.10

云南

2.61

2.88

1.22

.12

.59

1.38

.58

西藏

2.88

.41

4.13

-2.08

2.92

1.59

-2.22

陕西

.36

-.17

.85

-.73

.09

-.65

-.35

甘肃

.51

-.92

.64

-.70

-.73

-.78

-.79

青海

.41

-.91

1.42

-2.10

-.67

-.19

-.87

宁夏

.43

-.64

.07

-.48

-.49

-.81

-1.49

新疆

.34

.93

.05

1.25

1.13

2.13

.28

得相关系数矩阵为:

2.求R的特征根及相应的单位正交特征向量和贡献率

由R的特征方程

求得R的单位特征根λ为:

再由齐次线性方程组

求得特征向量U,将具体结果整理为下表:

对应的

特征向量

U1j

.439

-.251

.414

.017

.159

-.509

.538

U2j

.460

.228

.240

.398

.081

-.205

-.687

U3j

-.408

.228

.247

.591

.532

.177

.242

U4j

.158

.689

-.372

.233

-.352

-.223

.366

U5j

.487

-.126

.130

.243

-.252

.750

.218

U6j

.408

.153

-.450

-.287

.706

.159

.036

U7j

-.021

.565

.593

-.544

.006

.182

.010

特征根

3.422

1.446

1.016

0.591

0.279

0.162

0.084

贡献率

48.88%

20.66%

14.52%

8.44%

3.98%

2.32%

1.20%

3.确定主成分的个数q

的原则,取三个主成分就能够对工业企业经济效益进行分析,且这三个主成分的累计方差贡献率达到84.06%主成分的表达式为:

4.主成分的经济意义

第一主成分y1中,zx4、zx7的系数相对较小,表明此两指标在y1中作用较小。

而zx1、zx2、zx5、zx6的系数都在0.4左右,说明它们的作用相当,但zx3的系数为负值(-0.48),对y1起着明显的反向变化作用:

zx3(资产负债率)取值越大,y1的值就越小。

资产负债率是反映企业经营风险的指标,y1的含义是在综合其它变量所反映信息的基础上,突出地反映了企业经营风险的大小。

第二主成分y2中,zx4的系数最大,为0.689,zx4(流动资金周转次数)取值越大,y2的取值也明显地增大,说明y2在综合其它变量信息的基础上,突出地反映了企业投入资金的周转速度。

第三主成分y3中,zx7(产品销售率)的系数最大,为0.593,说明y3在综合其它变量信息的基础上,突出地反映了工业产品满足社会需求的情况。

 

第二节因子分析

在实际问题的分析中,有时需要对不能直接观测的潜在因素进行分析,如企业的形象,企业文化、创新能力等都是不可直接观测到的变量(潜在变量),而利税总额、劳动生产率等都是显在变量。

因子分析(FactorAnalysi)用少数几个潜在随机变量去描述多个显在随机变量之间的相关关系,换句话说,因子分析是把每个可观测的原始变量分解为两部分因素,一部分是由所有变量共同具有少数几个公共因子构成的,另一部分是每个原始变量独自具有的,即特殊因子部分,对于所研究的问题就可试图用最少个数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

二、数学模型

(一)符号与假定设有n个样本,每个样本观测p个变量,记:

原始变量矩阵为X:

_,公共因子变量矩阵为F:

_,特殊因子矩阵为E:

_假定因子模型具有以下性质:

1.E(x)=0,cov(x)=∑2.E(F)=0,D(F)=I3.E(E)=0,D(e)=diag(σ12,σ12,…,σp2)4.Cov(F,E)=0

(二)因子模型我们将p个变量xi(i=1,2,…,p)表示成公共因子F与特殊因子的线性组合:

若用矩阵形式表示,则为:

X=AF+E式中的

,称为因子载荷矩阵,并且称aij为第i个变量在第j个公共因子上的载荷,反映了第i个变量在第j个公共因子上的相对重要性。

三、因子载荷的统计含义可以证明因子载荷aij为第i个变量xi与第j个公共因子Fj的相关系数,即反映了变量与公共因子的关系密切程度,aij越大,表明公共因子Fj与变量xi的线性关系越密切。

因子载荷矩阵中各行元素的平方和:

称为变量x1,x2,…,xp的共同度。

它表示q个公共因子F1,F2,…,Fq对变量xi的方差贡献,变量共同度的最大值为1,值越接近于1,说明该变量所包含的原始信息被公共因子所解释的部分越大,用q个公共因子描述变量xi就越有效;而当值接近于0时,说明公共因子对变量的影响很小,主要由特殊因子来描述。

因子载荷矩阵中各列元素的平方和:

称为公共因子F1,F2,…,Fq的方差贡献。

它与p个变量的总方差之比为:

,是衡量各个公共因子相对重要程度的一个指标。

方差贡献率越大,该因子就越重要。

四、因子的求解

要建立因子分析模型,关键就在于解出其因子载荷矩阵A。

A的求法很多,这里仅介绍主成分法。

前一节已提及,在对数据进行标准化后,样本的协方差矩阵S与相关系数矩阵R相等。

设相关系数矩阵的特征根为λ1≥λ2≥…≥λp,相应的特征向量为U1,U2,…,Up,设由列向量

构成的矩阵有A表示,即

A=

可以证明R的分解式为

,这个公式是一个精确可行的因子分解式,实际这就是主成分分析法的根据。

由相关系数矩阵R求出的解A即为因子载荷矩阵,A的估计值为:

因子分析的目的是将多个变量简化为数量较少的因子,以便进行下一步的分析,所以一般来说,公共因子的个数q要小于等于变量的个数p,而且q越小越好,当q与p的差异较大时,便能将高维空间的问题降至低维空间进行处理。

在实际问题中,q的数值通常可以采用不同的方法加以确定。

如根据累计方差贡献率≥85%确定,或者根据大于1的特征根来确定。

五、因子得分

当获得公共因子和因子载荷后,我们可以进一步考察每一个样本点在每一公共因子上的得分,从而对样本点进行评价、排序比较和分类。

估计因子得分函数的常用方法是回归法,因子的得分估计为:

六、基本步骤与应用实例

(一)基本步骤

1.用公式

对原始数据标准化

2.建立相关系数矩阵R

3.根据

求R的单位特征根λ与特征向量U;

4.根据

求因子载荷矩阵A;

5.写出因子模型X=AF+E

6.求因子得分

(二)应用实例

【例11.2】仍以我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标作为研究对象,试求:

(1)正交因子模型;

(2)各个变量的共同度以及特殊因子方差;(3)每个因子的方差贡献率以及三个因子的累计方差贡献率;(4)说明三个因子的意义。

【解】

1.

(1)将原始数据标准化后求得其相关系数矩阵R为

(2)特征根与特征向量

根据

求得R的大于1的单位特征根λ与特征向量U分别为:

.439-.251.414

.460.228.240

-.408.228.247

U=.158.689-.372

.487-.126.130

.408.153-.450

-.021.565.593

(3)因子载荷矩阵为

(4)因子模型为

2.结果见下表

变量

因子载荷

共同度

特殊因子方差

F1

F2

F3

X1

X2

X3

X4

X5

X6

X7

.813

.851

-.754

.293

.901

.754

-3.956E-02

-.302

.274

.274

.829

-.151

.184

.679

.417

.242

.249

-.375

.131

-.454

.598

.927

.858

.705

.914

.853

.808

.820

0.073

0.142

0.295

0.086

0.147

0.192

0.180

方差贡献率

4

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1