判别分析四种方法.docx
《判别分析四种方法.docx》由会员分享,可在线阅读,更多相关《判别分析四种方法.docx(35页珍藏版)》请在冰豆网上搜索。
判别分析四种方法
第六章判别分析
§6.1什么是判别分析
判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。
在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。
例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常;在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。
总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类.对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析内容很丰富,方法很多。
判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。
本章仅介绍四种常用的判别方法即距离判别法、Fisher判别法、Bayes判别法和逐步判别法。
§6。
2距离判别法
基本思想:
首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类.
距离判别法,对各类(或总体)的分布,并无特定的要求。
1两个总体的距离判别法
设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下页表。
今任取一个样品,实测指标值为,问X应判归为哪一类?
首先计算X到G1、G2总体的距离,分别记为和,按距离最近准则判别归类,则可写成:
G1总体:
G2总体:
变量
样品
…
变量
样品
…
…
…
…
…
均值
…
均值
…
记
如果距离定义采用欧氏距离,则可计算出
然后比较和大小,按距离最近准则判别归类。
由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。
设、,、分别为G1、G2的均值向量和协方差矩阵。
如果距离定义采用马氏距离即
这时判别准则可分以下两种情况给出:
(1)当时
考察及的差,就有:
令
则判别准则可写成:
当已知时,令则
显然,W(X)是的线性函数,称W(X)为线性判别函数,a为判别系数.
当未知时,可通过样本来估计.设来自Gi的样本,i=1,2。
其中
线性判别函数为:
当p=1时,若两个总体的分布分别为和,判别函数,不妨设,这时W(X)的符号取决于或。
当时,判;当时,判。
我们看到用距离判别所得到的准则是颇为合理的。
但从下图又可以看出,用这个判别法有时也会得出错判。
如X来自G1,但却落入D2,被判为属G2,错判的概率为图中阴影的面积,记为,类似有,显然==。
当两总体靠得很近(即||小),则无论用何种办法,错判概率都很大,这时作判别分析是没有意义的。
因此只有当两个总体的均值有显著差异时,作判别分析才有意义。
(2)当时
按距离最近准则,类似地有:
仍然用
作为判别函数,它是X的二次函数。
2多个总体的距离判别法
类似两个总体的讨论推广到多个总体。
设有k个总体G1,…,Gk,它们的均值和协方差阵分别为,从每个总体Gi中抽取ni个样品,i =1,…,k,每个样品测p个指标.今任取一个样品,实测指标值为,问X应判归为哪一类?
G1总体:
…Gk总体:
变量
样品
…
变量
样品
…
…
…
…
…
均值
…
均值
…
记向量
(1)当时
此时判别函数为:
相应的判别准则为:
当,未知时可用其估计量代替,设从Gi中抽取的样本为,则,的估计分别为
其中为Gi的样本离差阵。
(2)当不相等时
此时判别函数为:
相应的判别准则为:
当未知时,可用的估计量代替,即
例1人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。
该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数.资料来源:
UNDP《人类发展报告》1995年。
今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。
数据选自《世界经济统计研究》1996年第1期
类别
序号
国家名称
出生时的
予期寿命(岁)
x1
成人识字率(%)
1992
x2
调正后人均GDP
1992
x3
第一类
(高发展水平国家)
1
2
3
4
5
美国
日本
瑞士
阿根廷
阿联酋
76
79.5
78
72。
1
73.8
99
99
99
95。
9
77。
7
5374
5359
5372
5242
5370
第二类
(中等发展水平国家)
6
7
8
9
10
保加利亚
古巴
巴拉圭
格鲁吉亚
南非
71。
2
75。
3
70
72。
8
62。
9
93
94.9
91。
2
99
80.6
4250
3412
3390
2300
3799
待判样品
11
12
13
14
中国
罗马尼亚
希腊
哥伦比亚
68.5
69.9
77.6
69。
3
79。
3
96。
9
93。
8
90.3
1950
2840
5233
5158
本例中变量个数p=3,两类总体各有5个样品,即,有4个待判样品,假定两总体协差阵相等。
两组线性判别的计算过程如下:
(2)计算样本协差阵,从而求出
类似地
经计算
(3)求线性判别函数W(X)
解线性方程组得
(4)对已知类别的样品判别分类
对已知类别的样品(通常称为训练样品)用线性判别函数进行判别归类,结果如下,全部判对。
样品号
判别函数W(X)的值
原类号
判归类别
1
2
3
4
5
10。
5451
12.6972
11。
8323
6.811
8。
8153
1
1
1
1
1
1
1
1
1
1
6
7
8
9
10
—2.4716
—7。
0898
—10。
7842
—18.3788
-11。
9742
2
2
2
2
2
2
2
2
2
2
(5对判别效果作检验
判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析意义就不大。
所谓判别效果的检验就是检验两个正态总体的均值向量是否相等,根据第三章§3.1可知检验的统计量为:
其中
将上边计算结果代入统计量后可得:
故在检验水平下,两总体间差异显著,即判别函数有效。
(6)对待判样品判别归类结果如下表:
样品号
国家
判别函数W(X)的值
判别类别
11
12
13
14
中国
罗马尼亚
希腊
哥伦比亚
—24。
47899
—15.58135
10。
29443
4。
18289
2
2
1
1
简短分析:
回代率为百分之百,这与统计资料的结果相符,而待判的四个样品的判别结果表明:
中国、罗马尼亚为中等发展水平国家即第二类,希腊、哥伦比亚为高发展水平国家即第一类,这是符合当时实际的,即与当时世界各国人文发展指数的水平相吻合。
例2对全国30个省市自治区1994年影响各地区经济增长差异的制度变量:
x1—经济增长率(%)、x2—非国有化水平(%)、x3—开放度(%)、x4—市场化程度(%)作判别分析。
资料来源:
《经济理论与经济管理》1998年第1期
类别
序号
地区
x1
x2
x3
x4
第
一
组
1
辽宁
11。
2
57。
25
13.47
73.41
2
河北
14。
9
67。
19
7。
89
73.09
3
天津
14。
3
64.74
19。
41
72。
33
4
北京
13.5
55.63
20。
59
77.33
5
山东
16.2
75.51
11.06
72.08
6
上海
14.3
57.63
22。
51
77.35
7
浙江
20
83。
94
15。
99
89.5
8
福建
21。
8
68。
03
39.42
71.9
9
广东
19
78。
31
83.03
80。
75
10
广西
16
57.11
12.57
60.91
11
海南
11。
9
49.97
30.7
69。
2
第
二
组
12
黑龙江
8.7
30.72
15.41
60。
25
13
吉林
14.3
37.65
12.95
66.42
14
内蒙古
10.1
34.63
7。
68
62.96
15
山西
9。
1
56。
33
10。
3
66.01
16
河南
13.8
65.23
4.69
64.24
17
湖北
15.3
55.62
6。
06
54.74
18
湖南
11
55.55
8。
02
67。
47
19
江西
18
62.88
6。
4
58.83
20
甘肃
10.4
30.01
4.61
60.26
21
宁夏
8。
2
29。
28
6.11
50。
71
22
四川
11。
4
62.88
5.31
61.49
23
云南
11.6
28。
57
9.08
68。
47
24
贵州
8.4
30.23
6。
03
55。
55
25
青海
8.2
15.96
8.04
40.26
26
新疆
10.9
24.75
8。
34
46.01
27
西藏
15.6
21。
44
28.62
46。
01
待判样品
28
江苏
16.5
80.05
8.81
73。
04
29
安徽
20.6
81.24
5.37
60。
43
30
陕西
8.6
42.06
8。
88
56.37
(1)两类地区各变量的均值
(2)计算样本协差阵,从而求出和
(3)求线性判别函数
解线性方程组
得
经计算
(4)对已知类别的样品回判
由于为第一组,为第二组。
样品序号
W(X)
原类号
回归组别
1
0.980157
1
1
2
1。
503103
1
1
3
1。
885084
1
1
4
1。
272898
1
1
5
2。
055351
1
1
6
2。
645024
1
1
7
6.297084
1
1
8
4。
145854
1
1
9
8。
461164
1
1
10
-0。
66659
1
2
11
1。
055243
1
1
12
—2.72514
2
2
13
—0。
75378
2
2
14
-2。
36346
2
2
15
—0。
83216
2
2
16
—0。
48375
2
2
17
-2。
30953
2
2
18
—0。
50215
2
2
19
-0。
89663
2
2
20
—3。
19343
2
2
21
—5.10507
2
2
22
—1。
34627
2
2
23
—1.37998
2
2
24
-4.18744
2
2
25
-7。
42309
2
2
26
-5。
65037
2
2
27
—3.9523
2
2
上述回判结果表明,第一组中只有第10个样品判组号为2,与原组号不同,其余样品与原分组号相同;第二组中的各样品回判组号都是2,即与原组号完全相同.我们仔细研究第10号样品广西的指标数据,可以看到它有可能是属于原分组时的错分样品。
总的回代判对率达96。
3%。
(5)对待判样品判别归类,结果如下:
样品序号
W(X)
判归类别
28
2.327825
1
29
0.475173
1
30
—3。
31829
2
待判样品中江苏和安徽被判属第一组,陕西被判属第二组,这与实际情况较吻合。
§6.3费歇(Fisher)判别法
Fisher判别法是1936年提出来的,该法对总体的分布并未提出什么特定的要求.
1不等协差阵的两总体Fisher判别法
(1)基本思想:
从两个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想造一个判别函数或称判别式:
,其中系数、…、确定的原则是使两组间的区别最大,而使每个组内部的离差最小.有了判别式后,对于一个新的样品,将它的p个指标值代入判别式中求出y值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。
(2)判别函数的导出
假设有两个总体G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品观测p个指标,列表如下:
G1总体:
G2总体:
变量
样品
…
变量
样品
…
…
…
…
…
均值
…
均值
…
假设新建立的判别式为,今将属于不同两总体的样品观测值代入判别式中去,则得:
对上边两式分别左右相加,再乘以相应的样品个数,则有:
……第一组样品的“重心”
……第二组样品的“重心”
为了使判别函数能够很好地区别来自不同总体的样品,自然希望:
i)来自不同总体的两个平均值相差愈大愈好。
ii)对于来自第一个总体的要求它们的离差平方和愈小愈好,同样也要求愈小愈好。
综合以上两点,就是要求:
愈大愈好.
记为两组间离差。
为两组内的离差.
则
利用微积分求极值的必要条件可求出使I达到最大值的.
为此将上式两边取对数:
令
则
即
而
其中
而
其中
从而
即
令
是常数因子,不依赖于k,它对方程组的解只起到共同扩大倍的作用,不影响它的解之间的相对比例关系。
对判别结果来说没有影响,所以取=1,于是方程组:
即
写成矩阵形式为:
所以
值得说明的是:
本书有几处利用极值原理求极值时,只给出必要条件的数学推导,而有关充分条件的论证省略了,因为在通常遇到的实际问题中,根据问题本身的性质就能肯定有最大值(或最小值),如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值(或最小值),为了避免用到较多的数学知识或数学上的推导,这里不追求数学上的完整性。
有了判别函数之后,欲建立判别准则还要确定判别临界值(分界点)y0,在两总体先验概率相等的假设下,一般常取y0为与的加权平均值即
如果由原始数据求得与满足>,则建立判别准则为:
对一个新样品代入判别函数中去所得值记为y,若y>y0,则判定(见图一);若y若y>y0,则判定(见图二);若y为直观起见,给出两个正态总体等方差情况下的图形)。
(3)计算步骤
i)建立判别函数
图一图二
求的最大值点,根据极值原理,需解方程组
可得到,写出判别函数。
ii)计算判别临界值,然后根据判别准则对新样品判别分类.
iii)检验判别效果(当两个总体协差阵相同且总体服从正态分布)。
检验统计量:
其中
给定检验水平a,查F分布表,确定临界值,若,则被否定,认为判别有效.否则认为判别无效。
值得指出的是:
参与构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,而且影响预报的稳定性。
所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大些。
例1利用距离判别法中例1的人文发展指数的数据作Fisher判别分析.
(1)建立判别函数
利用前例计算的结果,可得Fisher判别函数的系数、、为
所以判别函数为
(2)计算判别临界值y0
由于
所以
(3)判别准则
∴判别准则为
(4)对已知类别的样品判别归类
序号
国家
判别函数y的值
原类号
判归类别
1
美国
12.2122
1
1
2
日本
12.4812
1
1
3
瑞士
12。
3731
1
1
4
阿根廷
11。
7450
1
1
5
阿联酋
11.9960
1
1
6
保加利亚
10.5851
2
2
7
古巴
10。
0078
2
2
8
巴拉圭
9.5460
2
2
9
格鲁吉亚
8.5968
2
2
10
南非
9。
3973
2
2
上述回判结果表明:
总的回代判对率为100%,这与统计资料的结果相符,而且与前面用距离判别法的结果也一致。
(5)对判别效果作检验
由于
所以在检验水平下判别有效。
(6)待判样品判别结果如下:
序号
国家
判别函数y的值
判属类别
11
中国
7。
8342
2
12
罗马尼亚
8.9464
2
13
希腊
12.1809
1
14
哥伦比亚
11.4169
1
判别结果与实际情况吻合。
例2用距离判别法中例2的制度变量对30个省市自治区作Fisher判别分析。
(1)建立判别式
经计算得:
∴判别式为
(2)求判别临界值y0,对所给样品判别分类
由于,当样品代入判别工后,若,则判为第一组;若,则判为第二组.回判结果如下:
样品序号
y值
原类号
回判组别
1
0.710814
1
1
2
0。
731731
1
1
3
0.747011
1
1
4
0.722523
1
1
5
0。
753821
1
1
6
0。
777408
1
1
7
0.923491
1
1
8
0。
837441
1
1
9
1。
010054
1
1
10
0.644944
1
2
11
0.713817
1
1
12
0。
562602
2
2
13
0.641456
2
2
14
0。
577069
2
2
15
0。
638321
2
2
16
0。
652257
2
1
17
0。
579226
2
2
18
0。
651521
2
2
19
0.6365742
2
2
20
0.54387
2
2
21
0.467405
2
2
22
0。
617757
2
2
23
0.616408
2
2
24
0。
50411
2
2
25
0.374684
2
2
26
0.445593
2
2
27
0。
513515
2
2
等判样品判别结果
样品序号
y值
判属组号
28
0。
76472
1
29
0。
690614
1
30
0.538875
3
上述回判结果表明,第一组的第10号仍被回判为第2组,说明第10号样品确为误分。
而第二组的第16号被回判为第一组,仔细研究其指标,发现其数据介于第1组和第2组之间,差别不显著造成的.总的回代判对率为25/27=92.59%。
关于待判的三个样品的判别结果与用距离判别法的相同,说明其判别结果是比较好的。
2多总体Fisher判别法
类似两总体Fisher判别法可给出多总体Fisher判别法。
设有k个总体G1,…,Gk,抽取样品数分别为,令。
为第i个总体的第a个样品的观测向量。
假定所建立的判别函数为
其中
记和分别是总体内x的样本均值向量和样本协差阵,根据求随机变量线性组合的均值和方差的性质可知,在上的样本均值和样本方差为
记为总的均值向量,则。
在多总体情况下,Fisher准则就是要选取系数向量c,使
达到最大,其中是人为的正的加权系数,它可以取为先验概率。
如果取,并将代入上式可化为:
其中E为组内离差阵,A为总体之间样本协差阵,即
为求的最大值,根据极值存在的必要条件,令,利用对向量求导的公式:
因此
这说明及c恰好是A、E矩阵的广义特征根及其对应的特征向量。
由于一般都要求加权协差阵E是正定的,因此由代数知识可知,上式非零特征根个数m不超过min(k—1,p),又因为A为非负定的,所以非零特征根必为正根,记为,于是可构造m个判别函数:
对于每一个判别函数必须给出一个用以衡量判别能力的指标定义为:
m0个判别函数的判别能力定义为:
如果m0达到某个人定的值(比如85%)则就认为m0个判别函数就够了。
有了判别函数之后,如何对待判的样品进行分类?
Fish