判别分析论文.docx
《判别分析论文.docx》由会员分享,可在线阅读,更多相关《判别分析论文.docx(22页珍藏版)》请在冰豆网上搜索。
判别分析论文
判别分析论文
作者邙淑芳
第一章判别分析
§1.1什么是判别分析3
§1.2判别分析的分类3
§1.3判别分析的适用条件3
§1.4判别分析的方法3.
第二章距离判别法
§2.1什么是距离判别法4
§2.2马氏距离4.
§2.3两个总体的判别4.
§2.4多个总体的判别5.
第三章贝叶斯判别法
§3.1什么是贝叶斯判别法6
§3.2贝叶斯判别的方法.6.
§3.3最大后验概率法6.
§3.4最小期望误判法6.
第四章费希尔判别法
§4.1什么是费希尔判别法6.
§4.2费希尔判别法的基本思想7
§4.3费希尔判别函数和准则7
§4.4费希尔判别法的步骤8
第五章案列分析
§5.1距离判别法10
§5.2贝叶斯判别法13
§5.3费希尔判别法14
附录1.6
第一章.判别分析
§1.1什么是判别分析
判别分析,是一种统计判别和分组技术,就一定数量样本的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进行判别分组。
用数学的语言来说,判别问题可以表述为:
对于n个样品,每个样品有P个指标,已知每个样品属于某一k类别(总体)G,G2,…Gk,对于每类别其分布函数分别为fiy,f2yfky,对于一个给定样品y,我们要判断出这个样本来自哪个总体。
判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。
§1.2判别分析的分类
根据判别中的组数,可以分为两组判别分析和多组判别分析;
根据判别函数的形式,可以分为线性判别和非线性判别;
根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;根据判别标准不同,可以分为距离判别、贝叶斯判别、费希尔判别等。
§1.3判别分析的适用条件
自变量服从正态分布。
自变量之间没有多重共线性。
每个变量在各类中的取值应存在显著差异
§1.4判别分析的方法
(本文主要介绍三种方法,其它方法暂不讨论)距离判别法。
贝叶斯判别法。
费希尔判别法。
第二章.距离判别法
§2.1什么是距离判别法
距离判别法是最为直观,其想法自然、简单,就是计算新样品x到各组的距离,
然后将该样品判为离它距离最近的一组
§2.2马氏距离
关于在判别分析中使用的距离问题,因为欧式距离未能将变量之间通常存在的相关性考虑在内,故不太理想,而马氏距离却能很好的弥补这种不足,因此在判别分析中通常使用马氏距离。
对于一个均值为卩,协方差矩阵为工的多变量向量,点x到总体二的平方
马氏距离为:
d2x,冗二x-"a1x「.L]。
§2.3两个总体的判别
1当工1=22=2时的判别(工是协方差矩阵):
判别规则:
计算x到两个组的平方马氏距离d2(x,「)和d2(x,二2),按距离最近原则判别,则可总结为:
x:
•",当d2X,、:
:
:
d2x,二2x:
.乜2,当d2x/^i>d2x,二2待判,当d2x/d二d2x,二2
判别函数:
W(x)为两组距离判别的判别函数,又称为线性判别函数,a称
为判别系数向量。
Wx二a,,其中工是两个组均值」2的平均值,
那么判别规则可简化为:
x九当Wx0
x二2,当Wx:
:
0待判,当Wx]=O
误判概率:
用P2|1表示x来自q而误判为二2的概率;用P1|2表示x来自二2
用二表示二!
和二2这两组之间的马氏距离,因此两个组越是分开(即二越大),误判的概率就会越小,此时的判别效果越佳。
当两个组很接近时,误判概率将很大,这时做判别分析就没有什么实际意义。
②当21工22时的判别
判别规则:
计算x到两个组的平方马氏距离d2(x,r)和d2(x/:
2),按距离
x斗,当d2x,6:
:
d2x,二2
最近原则判别,则可总结为:
x•二2,当d2x,6d2x,二2
待判,当d2x,-]=d2x,二2
判别函数:
W(x)二d2(x,・)-d2(x,二2)=(x-7)J(x-U)-(x」2)J(x」2)
x:
t,当Wx:
:
0
相应的判别规则为:
x:
.匕.2,当Wx0
待判,当Wx=0
§2.4多个总体的判别
设有X个组二1,二2,,二k,它们的均值分别是J1,12,』k,协方差矩阵分别是二1,匚,…,3。
X到的总体平方马氏距离:
d2x,「:
i=x-」iX-叫,i=1,2…,k.
判别规则:
x•二|,当d2(x,二i)=mind2(x,二J
ig兰
当三1工三2八二九三,判别规则简化为:
X•二|,当I|X•C|二max(IiXcjig兰
其中1匚二一叫4J十叫,i=1,2,…,k.此时Iixq为线性判别函数。
2
实际中「和L—般都是未知的。
————16
①当二=二2八二和二二时,7可估计为X^-"'Xj,nii二
1ni
戈的联合无偏估计为x^—Z(ni-1S,其中k为组数,ni为每组的样本个数,n—ki二
ni
1
-1
迟(Xj-Xi【Xj_X)为第i组的样本协方差矩阵
j生
1nif
二的联合无偏估计为Si1Xj-XiXj-Xi
niTg
第三章.贝叶斯判别法
§3.1什么是贝叶斯判别法
如果对多个总体的判别考虑的不是建立判别式,而是计算新给样品属于各总体的条件概率P11x,比较这k个概率的大小,然后将样品判归为来自概率最大的总体,这种判别方法称为贝叶斯判别方法。
§3.2贝叶斯判别的方法
最大后验概率法
最小期望误判代价法
§3.3最大后验概率法
基本思想:
设有k个组,且组二i的概率密度为fix,样品x来自组:
的先验概
率为p,i=1,2,,k,满足aP2亠亠Pn=1。
根据贝叶斯公式,x属于二i的后验
概率(即当样品x已知时,它属于二i的概率)为p「:
i|x二kPifiX,i=1,2,,k.
迟Pifj(x)jT
判别规则:
X•二I,当p二IIxiMmaxp二i|x.
§3.4最小期望误判代价法
最大后验概率法只考虑到了先验概率,忽略了误判代价,该方法等价于误判代价相同时的最小期望误判代价法,此时的总误判概率达到最小,也可称为最小总误判概率法。
第四章.费希尔判别法
§4.1什么是费希尔判别法
Fisher判别是一种先进行高维向低位投影,再根据距离判别的一种方法。
借助方差分析的思想构造判别函数(相当于一种投影),使组间区别最大、组内离差最小,然后代入新样本数据,将其与判别临界值比较以确定应判为至哪一总体。
§4.2费希尔判别法的基本思想
它的基本思想是通过将多维数据投影到某一方向上,使得投影后类与类之间尽可能的分开,然后再选择合适的判别准则,将待判的样本进行分类判别。
而衡量类与类之间是否分开的方法是借助于一元方差分析的思想,利用方差分析的思想来导出判别函数。
§4.3费希尔判别函数和判别准则
(在以下讨论中,我们需假定各组的协方差矩阵相同,即匚-丫2二…八・)设来自组儿的p维观测值为Xj,j=12…,n,i=1,2,…,k,将它们共同投影到
某一p维常数向量a上,得到的投影点可分别对应线性组合yj=a%,
j=1,2,…,ni,i=1,2,…,k。
这样,所有的p维观测值就简化为一维观测值。
下面
我们用%表示组7:
i中yij的均值,y表示所有k组yij的总均值,即
kf
Yj的组间平方和:
SSTR=aha,式中Hn:
Xi-XX^X为组间平方
i吕
和及叉积和矩阵。
kni"
Yij的组内平方和:
SSE=aEa,式中E=瓦送(州-%风-%)为组内平方
i—1i—1
和及叉积和矩阵。
j
设E」H的全部非零特征值依次为5_工-…-%0,相应的特征向量依
次记为11,12,…,ts。
当印二t1时厶釧达到最大值1。
所以,选择投影到11上能使各组的投影点最大限度地分离,称%二11X为费希尔第一线性判别函数,简称第一判别函数。
有时仅仅使用第一判别函数是不够的,我们应该考虑建立第二个线性组合丫2二a2X,我们在约束条件t1Spa2=0下寻找a2,使得二a2达到最大。
当a尸12时丄a2达到最大值2,称Y2二12X为费希尔第二线性判别函数,简称第二判别函数。
在约束条件11Sp砂=0下寻找ai,使得厶ai达到最大。
当蔚二t时丄ai达到最大值;,称yi二tix为第i判别函数,i=2,3,…,s。
ti表明了第i判别函数yi对分离各组的贡献大小,yi在所有s个判
s
别函数中的贡献率为’i/7'j。
Jj丑rs
而前r
、r/ii#
匕表明了%』2,,yr能代表%』2,,Ys进行判别的能力。
r2r2
判别规则为:
x•二i,当v%—yj;二怦可7yj-%。
有时我们也使用中心化的费希尔判别函数j,即屮\=ti(X_x),i=1,2,…,s
§4.4费希尔判别的步骤
1由各组样本资料,计算各组样本均值xk;
k”
2计算组间矩阵H-an^-xx-x;
i丄
kni・
3计算组内矩阵E冷Xjj-习;
i吕j吕
4计算矩阵E」H的前m特征值;
5构造判别函数Y(x)。
案列分析:
1991年30个省、市、自治区城镇居民月平均收人数据表
单位:
元/人
样品序
地区
X1
X2
X3
X4
X5
X6
X7
X8
X9
x1:
人均生活费收入x
x2:
人均国有经济单位职工工资x
x3:
人均来源于国有经济单位标准工资
x4:
人均集体所有制工资收入x
6:
人均各种奖金、超额工资(国有+集体)
7:
人均各种津贴(国有+集体)
x8:
人均从工作单位得到的其他收入
9:
个体劳动者收入
x5:
人均集体所有制职工标准工资
类
序
G
11
北京
170.03
110.2
59.76
8.38
4.49
26.80
16.44
11.9
0.41
2
天津
141.55
82.58
50.98
13.4
9.33
21.30
12.36
9.21
1.05
3
河北
119.40
83.33
53.39
11.0
7.52
17.30
11.79
12.0
0.70
4
上海
194.53
107.8
60.24
15.6
8.88
31.00
21.01
11.8
0.16
5
山东
130.46
86.21
52.30
15.9
10.5
20.61
12.14
9.61
0.47
6
湖北
119.29
85.41
53.02
13.1
8.44
13.87
16.47
8.38
0.51
7
广西
134.46
98.61
48.18
8.90
4.34
21.49
26.12
13.6
4.56
8:
海南
143.79
99.97
45.60
6.30
1.56
18.67
29.49
11.8
3.82
9
四川
128.05
74.96
50.13
13.9
9.62
16.14
10.18
14.5
1.21
10J
云南
127.41
93.54
50.57
10.5
5.87
19.41
21.20
12.6
0.90
11
新疆
122.96
101.4
69.70
6.30
3.86
11.30
18.96
5.62
4.62
G2
11
山西
102.49
71.72
47.72
9.42
6.96
13.12
7.9
6.66
0.61
2
内蒙古
106.14
76.27
46.19
9.65
6.27
9.655
20.10
6.97
0.96
3二
吉林
104.93
72.99
44.60
13.7
9.01
9.435
20.61
6.65
1.68
4
黑龙江
103.34
62.99
42.95
11.1
7.41
8.342
10.19
6.45
2.68
5:
江西
98.089
69.45
43.04
11.4
7.95
10.59
16.50
7.69
1.08
6
河南
104.12
72.23
47.31
9.48
6.43
13.14
10.43
8.30
1.11
7I
贵州
108.49
80.79
47.52
6.06
3.42
13.69
16.53
8.37
2.85
8
陕西
113.99
75.6
50.88
5.21
3.86
12.94
9.492
6.77
1.27
9
甘肃
114.06
84.31
52.78
7.81
5.44
10.82
16.43
3.79
1.19
10
青海
108.80
80.41
50.45
7.27
4.07
8.371
18.98
5.95
0.83
11
宁夏
115.96
88.21
51.85
8.81
5.63
13.95
22.65
4.75
0.97
待判
1
广东
211.30
114.0
41.44
33.2
11.2
48.72
30.77
14.9
11.1
2
西藏
175.93
163.8
57.89
4.22
3.37
17.81
82.32
15.7
0.00
变量个数p=9,两类总体各有11个样品,即ni=隹=11,有2个待判样品
一、距离判别法
用SAS勺proccorr程序算出第一、二组的均值兀和他与协方差矩阵S,和S,详细代码见附录程序①。
白40.897、
1
108.614"
92.261
77.105
52.417
49.583
11.698
8.520
7.055
x2=
5.718
20.664
11.279
17.720
15.334
11.540
6.498
、1.379?
11.654丿
x1=
‘573369215.480
215.480135.667
73.51923.649
4.982-15.908
S=-7.403-19.962
127.07350.957
12.0330.479
4.0683.056
1-6.1942.856
73.591
4.982
-7.103
127.073
42.033
4.018
-6.194
23.649
-15.908
-19.962
50.957
50.479
3.056
2.856
21.286
5.469
4.260
17.548
-9.649
-1.382
-5.123
5.469
10.277
8.880
1.734
-13.434
-2.103
-3.171
4.260
8.880
8.293
-0.976
-15.285
-1.916
-3.006
17.548
1.734
-0.976
28.633
8.050
1.225
-1.430
-9.649
-13.434
-15.285
8.050
43.012
2.957
7.137
-1.382
-2.103
-1.916
1.225
2.957
3.749
1.163
-5.123
-3.171
-3.006
-1.430
7.137
1.163
2.323
S2
'48.579
60.697
43.843
-11.539
-8.662
3.584
14.384
-5.562
3.975
60.697
99.715
69.325
-15.752
-11.071
3.067
25.307
-5.529
6.964
43.843
69.325
50.776
-10.549
-7.438
2.791
11.135
-4.410
5.028
-11.539
-8.662
3.584
14.384
-5.652
3.975
-15.752
-11.071
3.067
25.307
-5.529
6.964
-10.549
-7.438
2.791
11.135
-4.450
5.028
6.142
4.407
-2.204
1.115
0.459
-0.747
4.407
3.316
-0.887
0.216
0.354
-0.926
-2.204
-0.887
4.215
-1.654
0.458
-0.126
1.115
0.216
-1.654
25.170
-2.789
1.053
0.460
0.354
0.458
-2.789
1.816
0.021
-0.747
-0.926
-0.126
1.053
0.021
1.362
1”
工的联合估计为^鼻伽亦2
然后利用SAS算出判别函数Ijxy,详细代码见附录程序②
LirearDiscriminaritFunctiorfor誉
Variable
Labe1
12
Constant
-303.14018
■218.14031
xl
Lseoei
1・44152
X?
10.30540
3.4650&
x3
-e.50389
-SJ1556
x4
-35.28044
-34.Z7358
蓊
82.5346(
xG
-13.73S51
-11.9631b
-2,75766
-1.52441
站
IE.14150
13.234CG
-2.78088
-2.68765
广1.561、
10.305
广1.442'
8.465
-8.504
-6.916
-35.230
-34.274
=SpX1=
62.535
I2=SpX2=
58.344
-13.740
-11.963
-2.758
-1.524
16.142
13.235
1-2.780丿
1
1-2.638丿
c,x,Sp'x,=「303.140c2=-1x2S;X2=-218.140
于是我们得到判别函数:
F
I,xc^1.561x,10.305x2-8.504x3-35.230x462.535x5
-13.740X6-2.758X716.142X8-2.780X9-303.140
F
I2xc2=1.442x18.465x2-6.916x3-34.274x458.344x5
-11.963x6-1.524x713.235x8-2.638x^218.140
那么对于广东和西藏两个待判地区:
广东
211.30
114.0
41.44
33.2
11.2
48.72
30.77
14.9
11.1
西藏
175.93
163.8
57.89
4.22
3.37
17.81
82.32
15.7
0.00
①对于广东&=(211.30,114.0,41.44,33.2,1.2,48.72,30.77,14.9,11.1,,,计算得
2
对于西藏X2二175.93,163.8,57.89,4.22,3.37,17.81,82.32,15.7,0.00,计算得
ErrorCountEstimatesfors
Total
1
2
O.OOOD
0.0000
0.0000
Friors
0.5000
0.5000
3回代结果:
从下表可以得知误判概率为0
ErrorCountEstihisitesforg
12
Total
Rate
0.0000
0.0000
0.0000
P'ri0rs
Q.5000
0.5000
4交叉验证结果:
从下表得知
将第一组误判到第二组的条件概率为:
P(2|1)=0.33
将第二组误判到第一组的条件概率为:
P(1|2)=0.11
Posterior
Probabl1ityof
Membershiping
Obs
Fromg
Cla&slfiadintoc
1
2
1
2甜
0.0002
0.9999
5
1
2*
0.0031
0.9969
S
1
I*
O.OS3I
0.S369
11
1
1*
0.3BD4
O.088S
岀Misc1aifiedobservation
ErrorCountEstimatesfore
1
I
Total
Rate
0.3333
0.1111
0.2222
Priors
0.6000
O.GOOO
二、贝叶斯判别法
最大后验概率法
假设两组的X二X1,X2,X3,X4,X5,X6,X7,X8,X9均服从多元正态分布,依据上表的信
息,我们给出先验概率口=0.5,p2=0.5,有了先验概率,我们接下来要利用SAS
算出后验概率,详细代码见附录程序③。
x^(211.30,114.0,41.44,33.2,11.2,48.72,30.77,14.9,11.1)
x2=175.93,163.8,57.89,4.22,3.37,17.81,82.32,15.7,0.00
PosteriorFrobAbiIicifMewbershipin£
ErrorCountE#timatesfoir压
RitePriors
0.0000
0,5000
0.0000
O.50CO
从上表可以看出当先验概率为口=0.5,p2二0.5,将第一组误判到第二组的条件概
率为:
P(2|1)=0,将第二组误判到第一组的条件概率为:
P(1|2)=0.
三、费希尔判别
做费希尔判别