第3章正态分布时的统计决策文档格式.docx
《第3章正态分布时的统计决策文档格式.docx》由会员分享,可在线阅读,更多相关《第3章正态分布时的统计决策文档格式.docx(21页珍藏版)》请在冰豆网上搜索。
定义:
(x)—秽一e)p[2(x)T1(x)]()
(2)d2||2
X[X1,X2,,Xd]T为d维随机向量,对于d维随机向量X,
它的均值向量是d维的。
也就是:
[1,2,,d]T为d维均值向量。
是dd维协方差矩阵,1是的逆矩阵,||为的行列式。
协
方差矩阵是对称的,其中有d(d1)/2个独立元素。
由于(x)可由和完全确定,所以实际上(x)可由dd(d1)/2个独立元素来确定。
(x)T是(X)的转置,且:
E{x}
E{(x)(x)T}
、分别是向量X和矩阵(x)(x)T的期望。
具体说:
假设Xi是x的
第i个分量,i是的第i个分量,j2是的第i、j个元素。
iE[xi]xi(x)dxxi(xi)dxi()
其中(为)为边缘分布,(xi)(x)dx1dx2dxd
“对于二维随机变量X和丫作为一个整体,其分布函数F(x,y),而X和丫都是随机变量,各别也有分布函数Fx(x)、Fy(y),分别称为
二维随机变量(X,丫)关于X和丫的边缘分布函数。
有:
Fx(x)F(x,)和FY(y)F(,y)o
对于离散随机变量有:
Fx(x)F(x,)Pj从中得到X的分布律为:
XiXj1
P{XXi}Pj同样,丫的分布律为P{Yyj}Pijo
j1i1
对于连续型随机变量(X,丫),假定它的概率密度为f(x,y),由:
x
Fx(x)F(x,)[f(x,y)dy]dx知道,X的概率密度为:
fX(x)f(x,y)dy同样也可以求出丫的概率密度函数。
〞
而:
2E[(xi川勺j)]
协方差矩阵:
2
12
22
)
同单变量正态分布一样,多元正态分布(X)可以由和完全确
定,常记为N(,)o
3.多元正态分布的性质
(1)参数和对分布的决定性
对于d维随机向量x,它的均值向量也是d维的,协方差矩阵
是对称的,其中有d(d1)/2个独立元素。
(x)可由和完全确定,实际上(x)可由dd(d1)/2个独立元素决定。
常记为:
(x)〜N(,)。
(2)等密度点的轨迹为一超椭球面
由(x)的定义公式()可知,当右边指数项为常数时,密度
(x)的值不变,所以等密度点满足:
(x)T1(x)常数
可以证明,上式的解是一个超椭球面,其主轴方向取决于的本
征向量(特征向量),主轴的长度与相应的本征值成正比。
如下列图所
示:
从上图可以看出,从正态分布总体中抽取的样本大局部落在由和所确定的一个区域里,这个区域的中心由均值向量决定,区域
的大小由协方差矩阵决定。
在数理统计中,令:
2(x)T1(x)
式中称为x至U的马氏距离(Mahalanobis)距离。
所以,等密度点轨迹是x到的马氏距离为常数的超椭球面。
该超椭球面构成的球体的大小是样本对于均值向量的“离散度度量〞。
1
体积:
d|I2
d
d为偶数
*(d
1)2(d1)!
2
(2)!
d为奇数
2d
d!
如果d确定了,那么d不变,v与||2有关。
也就是对于给定的维
i
数d,样本离散度随而变。
(3)不相关性等价于独立性
概率论中,两个随机变量Xi和Xj之间不相关,并不意味着它们一
定独立。
如果Xi和xj之间不相关,那么XiXj的数学期望有:
E(XjXj)E(xJE(Xj)
如果Xi和Xj相互独立,那么有:
P(Xi,Xj)P(Xi)P(Xj)
独立性是比不相关更强的条件。
不相关反映了Xi和Xj的总体性质。
如果Xi和Xj相互独立,那么它们之间一定不相关,反之那么不成立。
但是
对服从正态分布的两个分量Xi和Xj,假设Xi与Xj互不相关,那么它们之间
一定独立。
证明:
根据定义,Xi和Xj的协方差2E[(Xii)(Xjj)]
又根据不相关定义E(Xi,Xj)E(Xi)E(Xj)有:
ifE[(Xii)(Xjj)]E(Xii)E(Xjj)
又:
iE(xJ,E[(Xii)E(Xi)E(i)E(Xi)i0所以:
有20
可以计算出:
"
2"
11
T
dd
相互独立等价。
〔4〕边缘分布与条件分布的等价性
不难证明正态随机向量的边缘分布与条件分布仍服从正态分布。
从〔3〕证明得出的结论〔X〕表达式,如果X用X1表示,有:
〔X1〕1exp〔寸徨1〕2〕
2ii211
也就是说,边缘分布〔幼服从均值为1,方差为£
的正态分布:
〔X1〕~N〔1,121〕
冋理,〔x2〕~N〔2,22〕
(Xi)
另外,条件分布,给定X1的条件下X2的分布:
(X2|X!
)(X1,X2)
(X1,X2)1_exp211|22(x11)2121(x22)2
2||2211
代入上式,(X2|x1)服从正态分布,同理(x1|x2)也服从正态分布。
(5)线性变换的正态性
对于多元随机向量的线性变换,仍为多元正态分布的随机向量。
就是:
X服从正态分布(x)〜N(,),对X作线性变换yAx,其中
A为线性变换矩阵,且|A|0,那么y服从正态分布:
(y)〜N(A,AAT)
(6)线性组合的正态性
假设X为多元正态随机向量,那么线性组合yaTx是一维的正态随机
变量:
(y)~N(aT,aTa)
其中,a与x同维。
正态分布中的Bayes分类方法
在上一章,我们已经把基于Bayes公式的几种分类判决规那么抽象为相应的判决函数和决策面方程。
这几种方法中Bayes最小错误率判
决规那么是一种最根本的方法。
如果取0-1损失函数,最小风险判决
规那么和最大似然比判决规那么均与最小错误判决规那么等价。
为了方便,我们以最小错误判决规那么为例来研究Bayes分类方法在正态分布中的
应用。
由最小错误率判决规那么抽象出来的判决函数如下:
决函数使用不会改变类型区域的划分。
因此:
1t1d1
gi(x)-(xi)i(xi)ln2Tn|i|InP(wJ
222
其中,dln2与类型无关,所有函数皆加上此项后,并不影响区
域的划分,可以去掉。
F面对几种特殊情况进行讨论。
1.情况一:
i2I,i1,2,,c
该情况下,每类的协方差矩阵相等,而且类的各特征间相互独立
(由上节的性质③得知),具有相等的方差2。
将上两式代入gi(x):
gi(x)——^2^__-ln2」ln2dInP(wJ
222
上式中的第2、3项与类别无关,可以忽略,因此g,(x)可以简化
为:
A
gi(x)2^(xi)T(xi)InP(Wi)
(xi)T(xi)||xi『(Xiij)2,i1,2,,c,为X到类Wi
的均值向量i的“欧氏距离〞的平方。
那么:
gi(x)二7(x
讨论一个特殊情况,P(wjP,所有各类概率相等。
T12
i)T(xi)||xi||2
此时,对x的归类表示为:
方l|xi||2,然后把x归于具有
c
计算x到各类均值i的欧氏距离的平min||xJ2的类。
这种分类器叫最小
1,
距离分类器。
决策xWk。
由于gi(x)wTxWi0为线性函数,其决策面由线性方程
gi(x)gj(x)0构成,决策面是一个超平面。
gi(x)wTxwi0推导出wT(xx0)0
上述结果表示在二维特征空间里,如下列图所示:
两个同心圆是两类概率分布等密度点轨迹,两个圆心就是两类的
均值点。
两类的区分线l与i2垂直,其交点为X。
。
X。
一般不是i2的中点,但当P(wi)P(W2)时,X。
为12的中点。
假设P(W|)P(W2)时,X。
向先验概率较小的那个类型的均值点偏移。
可以推广到多类的情况,注
意这种分类方法没有不确定的区域。
2•情况二:
各类的协方差矩阵相等,在几何上,相当于各类样本集中在以该类均值i为中心的同样大小和形状的超椭球内。
gi(x)2(xi)Ti1(x
不变,与i无关:
i)dln2丄1n|i|InP(w)
22
gi(x)
2(x
i)Ti1
(Xi)lnP(Wi)
一个特例,当
P(wi)
P时,
各样本先验概率相等
gi(X)
如
i)T
i1(xi)
2(X
i1(x
i)
2为x到均值点i的“马氏距离〞的平方(Mahalanobis)
面。
对于Ri和Rj相邻,决策面方程:
直)
二维情况:
当各类先验概率相等时P(wJP(Wj)
*(ij)
X0位于ij的中点上。
当各类先验概率不相等时,X0不在
的中点上,而是偏向先验概率较小的均值点。
3.第三种情况
由于:
对于Ri和Rj相邻,决策面应为:
gi(x)gj(x)0xT(W(Wj)x(WiWj)TxWioWjo0
该曲线为超二次曲面。
随i、i、P(Wi)的不同,超二次曲面为:
超球面、超椭球面、超抛物面、超双曲面,或超平面等。
假设特征空间是二维的,模式样本的两个分量之间是相互独立
的,所以协方差矩阵是2X2维的对角矩阵。
令各类的先验概率相等,那么不同类型区域的划分取决于各类的均值向量和两个方差项的差
异,而决策面的形状主要取决于两个方差项的差异
i20
i02,
i2
210j022
〔1〕假设iii;
2i,jij2j,且ij,那么两类的概率分布等
密度线分别是以各自均值点为圆心的同心圆,圆的大小与相应的方差
相一致。
由于ij,所以来自类型Wj的样本更密集于它的均值点附近;
同时,由于园的对称性,决策面为包围均值点j的一个圆。
a>
椭圆抛啊线
<
d)取曲线<
0直线
(2)假设在上图的(a)的根底上增大分量X2的方差2和22,使iii2
和jij2,这样图〔a〕中的圆在X2方向上伸展,而变成椭圆,如图〔b〕
所示,决策面也变成了椭圆。
〔3〕假设iijij2,iii2,在这种情况下,分量X2大的样本X
很可能来自类型Wi,使决策面变成一条抛物线,如图〔C〕所示。
〔4〕假设在〔C〕的根底上增大ji,使iij2,iii2,jij2,在这种情况下,决策面变成双曲线,如图〔d〕所示。
〔5〕在一非常特殊的对称条件下,使〔d〕中的双曲线向一对互相垂直的直线退化,如图〔e〕所示。
在这种情况下,两种类型是线性可分的。
清华?
模式识别?
书上P34中间用图讨论了几种决策面的变化。
例i:
设在三维特征空间里,两类的类概率密度是正态分布的,分别在两个类型中获得4个样本,位于一个单位立方体的顶点上,如
下列图。
两类的先验概率相等,试确定两类之间的决策面及相应的类型
Wi:
(0,0,0)T,(i,O,O)T,(i,i,O)T,(i,O,i)T
W2:
(0,i,0)T,(0,0,i)T,(O,i,i)T,(i,i,i)T
用各类样本的算术平均值近似代替各类均值向量,也就是:
i兀1xik
Ni为wi中的样本数,
xik表示wi的第k个样本。
协方差矩阵由其定义求得:
N
T1iT
iRij二-xikxik
Nik1
式中Ri为类wi的自相关函数。
/133、1
R1
(0,0,0)
(1,0,0)
(1,1,0)
(1,0,1)
同理:
R2
4
因此,
16
丄
符合情况二
用情况二的公式确定决策面。
211
4121
112
1(12),
决策面为g1(x)g2(x)0wT(xx0)0,w
X02(12),先验概率相等P(W1)P(W2)
21
12
8
W1(12)4
1-2
11
x0(12)(1,1,1)T
决策方程:
wT(xx0)0
v2
(8,8,8)X2§
0
X3_
32
^也就疋:
8(x)8(X2)8(X3)0
8x-|8x28x340
2x12x22x310如下列图所示。
w指向的一侧为正,是W1的区域R1,负向的一侧为W2。