概率密度估计及近邻法.ppt
《概率密度估计及近邻法.ppt》由会员分享,可在线阅读,更多相关《概率密度估计及近邻法.ppt(62页珍藏版)》请在冰豆网上搜索。
第三章概率密度函数估计及近邻法EstimationofProbabilityDensityFunctionandTheNearestNeighborRule1引言2总体分布的参数估计极大似然估计贝叶斯估计参数3总体分布的非参数估计Parzen窗法kN近邻法4近邻法则1引言基于样本的两步贝叶斯决策:
估计类条件概率密度和先验概率;利用和完成分类器设计。
(第二章)本章讨论从样本集推断总体概率分布p(x|wi)。
而样本的先验概率P(wi)的估计较易实现。
概率密度函数含参数和形式两方面内容,分别称为参数估计和非参数估计。
其估计方法:
1.监督参数估计已知样本类别wi及其p(x|wi)形式,而参数未知,需从训练样本x估计参数qq,如一元正态分布的m、s2等参数。
2.非监督参数估计未知样本类别wi,已知概率密度函数p(x|wi)的形式,但参数未知,需从样本x估计参数。
上述两种均可用极(最)大似然法和Bayes估计法来估计参数。
3.非参数估计即估计p(x|wi)形式已知样本类别,但未知概率密度函数的形式,要从样本推断p(x|wi)属于哪种分布。
可用Parzen窗法和kN近邻法。
4.近邻法则不属于估计内容直接利用样本设计分类器。
非参数(即分类中不需要估计概率密度函数)方法之一。
5.参数估计的几个基本术语统计量:
每个训练样本都包含总体信息。
根据从总体中抽取的样本集构造某种函数,该函数统计学中称为统计量。
参数空间:
概率密度形式已知,参数qq未知,qq可取值的集合称为参数空间,记为。
点估计、估计量和估计值:
构造一个统计量f(x1,xn)作为参数q的估计量。
如果x1,xn属于某类,代入统计量f,就可得到该类具体的估计值。
本章参数估计属于点估计。
区间估计要求用区间(d1,d2)作为q可能取值范围的一种估计。
该区间称为置信区间。
2总体分布的参数估计1.极(最)大似然估计基本原理把参数qq看成确定的(非随机)但取值未知,最好估计值是在样本x概率为最大条件下得到的。
假设:
按类别把样本集分成c个子集x1,x2,xc,其中xj中的样本是从概率密度为p(x|wj)的总体中独立抽取的。
p(x|wj)形式已知,参数qqj未知,可写成p(x|wj,qqj)。
不同类的参数独立,即xi不包含qqj信息(ij)这样每一类可单独处理,共处理c个独立问题。
设某类有N个样本组成了样本集xx1,x2,xN样本是独立从该类抽取的,因此N个随机变量的联合概率密度统计学中称p(x|q)为相对于样本集x的q的似然函数l(qq)似然函数l(qq)给出了从总体中抽取的x1,x2,xN这N个样本的概率。
极大似然估计值定义:
令l(qq)为样本集x的似然函数,在的参数空间中能使l(qq)极大化的那个值。
极大似然法的主要思想:
如果在一次观察中一个事件出现了,则这个事件出现的可能性最大。
事件xx1,x2,xN在一次观察中(即从总体中抽取N个样本)出现了,就可认为p(x|q)达到极大值,即在参数空间中使似然函数极大化的值。
一个简单的例子:
假设似然函数p(x|qq)对未知参数qq是连续可微的,则可由典型的求极值的方法求得。
求极大值的必要条件单个qq的情况下:
若qq是向量,有s个分量qq=q1,qsT,则多变量的梯度算子对数似然函数H(qq)是单调的增函数,为计算方便,一般用对数似然函数。
正态分布的极大似然估计从总体中抽取N个样本xk,观察下列不同情况:
已知,均值向量mm未知,即qq=mm。
m的极大似然估计必须满足方程:
未知均值的极大似然估计正是样本的算术平均。
一维正态情况,两个参数均未知,设q1m,q2s2,qqq1,q2T。
多维正态密度的情况。
计算方法和形式完全类似,只是复杂些,计算结果:
均值向量的极大似然估计是样本的均值,而协方差的极大似然估计是N个矩阵的算术平均。
这是一致估计。
协方差矩阵的无偏估计为2.Bayes估计和Bayes学习Bayes估计:
根据样本集x确定总体某个参数qBayes学习:
利用样本集x确定概率密度函数p(x)Bayes估计基本原理:
把参数q当作具有某种先验分布p(q)的随机变量,对样本x观察使先验分布转化为后验分布p(q|x),据此再修正原先的估计。
假设:
把所有的样本按类别分成c个子集。
每个子集有N个样本x=x1,x2,xN。
每类可单独处理。
已知样本的分布形式p(x|qq),而参数qq未知。
q为随机变量,已知其先验概密函数p(q)。
贝叶斯估计和最小风险贝叶斯决策可统一:
Bayes估计:
有一个样本集x,用来估计所属总体分布的某个参数,使带来的贝叶斯风险最小。
Bayes估计最小风险R为给定条件下某个估计量的期望损失,常称为条件风险。
使条件风险最小的估计量qq,也就是贝叶斯估计。
经推导(P.52定理3.1)使用平方误差损失函数时,得到估计量为条件期望:
Bayes参数估计步骤:
确定q的先验概率密度函数p(q);由样本集x=x1,x2,xN计算样本的联合分布,它是q的函数;用Bayes公式求后验分布p(q|x)求样本的估计量q正态分布情况的Bayes估计举例样本为一维正态分布p(x|m)N(m,s2),m未知m是随机的,其先验概密p(m)N(m0,s02)N个样本构成样本集x=x1,x2,xN求m的估计量解:
用Bayes公式求m的后验分布:
a比例因子与无关根据上述假设:
代入计算后验概密p(|x)p(|x)是的二次函数的指数函数,仍是正态密度,写成Bayes学习求概率密度函数p(x|X)从联合密度求条件概密函数X由N个样本组成,X=x1,xN用Bayes公式计算q的后验分布p(q|X),根据独立性其中XN=x1,xN1,xN,XN1=x1,xN1已知q的先验概密p(q|X0)=p(q),根据样本序列x1,xN按下式反复计算,得到概率密度的序列p(q),p(q|x1),p(q|x1,x2),,同时修改q,如果这个密度序列在估计值附近产生一个陡峰,即d函数,这种性质称为Bayes学习。
Bayes学习步骤:
前三步同Bayes估计。
下面的步骤读入第一个样本x1,计算得到得到后验概密p(q|x1),据此作为下一步计算的先验概率密度;读入样本x2,计算得到p(q|x1,x2);这样得到一个概率密度序列:
这个过程称为参数估计的递归的Bayes方法。
这个序列收敛于一个qq0为中心的d函数,则这个性质称Bayes学习。
大多数密度函数有此性质。
从前例Bayes学习得到条件概率密度函数非监督参数估计方法所采用的也是这两种方法,但计算较复杂。
就极大似然估计来说,由于样本的类别未知,因此定义c类样本组成的混合密度建立似然函数。
3总体分布的非参数估计根据训练样本集x=x1,x2,xN,估计总体分布概率密度函数p(x|x1,x2,xN)形式。
基本思想:
每个样本对总体概率密度分布都有贡献(如矩形a),N个样本的贡献叠加起来,得到概率密度估计,如虚线。
也可认为每个样本在自己位置上贡献增大,离得远贡献小(如正态分布),同样叠加得到概率密度估计(下图)。
直方图方法估计一维概率密度函数近似值:
将x轴划分为长度为h的区间,样本x落在某个区间的概率就是这个区间的估计值。
样本总数为N,落在某个区间的点数为kN,相应的概率近似于频数:
PkN/N概率密度在同一个区间为常数,近似等于估计值收敛于真实值的条件:
hN0;kN;kN/N0。
这三个条件表示对N的依赖型。
理论上讲,要使,就必须使体积V趋于零,同时N和k趋于无穷大。
若体积V固定,样本取得越来越多,则k/N收敛,只能得到p(x)的空间平均估计若样本数N固定,使R不断缩小,V趋于零,会发生两种无意义情况:
一是区域内不包含任何样本,p(x)=0;二是碰巧有一个样本,p(x)=。
实际上样本是有限的,V也不能任意缩小。
若用这种方法估计,频数k/N和估计的p(x)将存在随机性,都有一定的方差。
假设有无限多的样本可利用,在特征空间构造包含x点的区域序列R1,R2,RN,对R1用一个样本进行估计,对R2用二个样本,。
设落在RN的x点数为kN,则第N次估计的概率密度函数为要使满足这三个条件的区域序列通常有两种方法:
Parzen窗法:
把包含x点的区域序列VN选为样本数目N的函数,并使其空间体积VN随N的增大而减小,例如VN=N-1/2。
但对kN和kN/N都要加些限制条件以使估计值收敛于p(x)。
kN近邻法:
把KN选为样本数目的函数。
让kN为N的某个函数(例如kN=N1/2),并调整体积VN大小,使区域正好包含x的kN个近邻,则该区域体积可用作x点的密度估计。
2.Parzen窗法窗估计的概念多维情况下,围绕x点的区域RN为一个超立方体,边长为hN,d为特征空间维数。
训练样本xi是否落入这个超立方体内,检查x-xi的每个分量值,若小于hN/2,则在RN内,其中x为数轴(特征空间坐标轴)上的点。
为了用函数描述落入VN中训练样本的数目kN,定义窗函数对u的特征空间来说,f(u)是围绕原点的1个单位超立方体。
若u=(x-xi)/hN,则窗函数当某个样本xi落入以x为中心、体积为VN的立方体内时计为1,否则为0。
落入VN内的样本数:
x点的密度估计Parzen窗的密度估计在以x为中心的立方体内的样本应相加用方窗的直观解释一维概率密度函数的估计:
样本集xx1,x2,x5有五个样本。
每个样本xi在以xxi为中心,宽为h的范围内对概率密度函数贡献为1,数轴x上任一点的概密函数是样本集中全部样本对概密函数之和。
对所有的点求和,得到p(x)的分布虚线所示。
如果样本数很多,并选择适当的窗函数,估计的概率密度函数的性质有可能接近真实的概率密度函数p(x)。
估计量为密度函数的条件为使是一个估计合理的概率密度函数,必须满足对概率密度函数的基本要求,即它应该非负且在特征空间积分为1。
为此窗函数须满足两个条件:
窗函数的选择:
方窗函数正态窗函数指数窗函数只要所选择的函数满足前述的两个条件式,都可作为窗函数。
估计量的统计性质产生随机变量的补充材料(共四页,三个问题)产生0,1之间均匀分布的随机数ui方法产生随机变量方法(非0,1均匀分布的随机数)基本方法反变换法以概率积分变换定理为基础的一种常用的抽样方法。
其基础是0,1之间均匀分布的随机数。
若随机变量x的分布函数为F(x),其反函数F-1。
可用0,1之间均匀分布的随机数来产生要求分布的随机变量。
具体方法U为0,1均匀分布随机数令U=F(x)x=F-1(U)x即为所要求分布的随机变量。
x产生一维正态分布随机变量的近似方法举例根据已知概率密度函数p(x)产生一系列随机变量,作为样本。
用正态窗函数估计样本的总体分布,并与真实的概率密度函数作比较。
采用下列两种样本:
p(x)是均值为0方差为1的正态分布,生成样本xip(x)是两个均匀分布的混合密度生成样本xi其他统计落入正态窗的随机样本数,计算p(x)的估计值,在计算中要注意公式中变量和参数的意义。
这种方法具有普遍性,即不管是规则或不规则、单峰或多峰分布都可用,但需要的样本数量很大。
从图中可看出N256,h11时,接近真实分布,而h14时,噪声小。
当样本数很多时,h1影响不大。
均值为0方差为1的正态分布二个均匀分布的混合密度基本步骤:
产生训练集样本,有两种方法:
在问题域中搜集样本;根据题意按已知的概率密度产生随机样本。
设x为d维的数轴,以体积在数轴上向前推进,即N=1,2,3,,这样就可统计落入各体积的样本数KN。
选择窗函数f(u),利用概率密度函数公式进行统计计算数轴上各点的密度。
对所有的点求和,用图形表示概率密度曲面(一维为曲线)。
如果自行按某种概率密度产生的随机数,则可将计算得到的曲面(线)与其进行比较,以验证Parzen窗法的正确性。
3.kN近邻法Parzen窗存在问题:
体积V的选择V1的选择很敏感,太小大部分是空的噪声大