3概率密度函数的估计1.ppt

资源描述

3概率密度函数的估计1.ppt

《3概率密度函数的估计1.ppt》由会员分享，可在线阅读，更多相关《3概率密度函数的估计1.ppt（94页珍藏版）》请在冰豆网上搜索。

3概率密度函数的估计1.ppt

模式识别与神经网络PatternRecognitionAndneuralnetwork,第三章概率密度函数的估计,请各位思考的问题,1、参数法与非参数法密度估计的最大区别是什么？

2、高斯密度假设的合理性在哪里？

TableofContents,3.1引言,基于样本的Bayes分类器：

通过估计类条件概率密度函数，设计相应的判别函数,分类器功能结构,基于样本的直接确定判别函数方法,基于样本的Bayes分类器设计,Bayes决策需要已知两种知识：

各类的先验概率P（i）各类的条件概率密度函数p（x|i）,知识的来源：

对问题的一般性认识或一些训练数据基于样本的两步Bayes分类器设计利用样本集估计P（i）和p（x|i）基于上述估计值设计判别函数及分类器面临的问题：

如何利用样本集进行估计估计量的评价利用样本集估计错误率,引言,基于样本的Bayes分类器,最一般情况下适用的“最优”分类器：

错误率最小，对分类器设计在理论上有指导意义。

获取统计分布及其参数很困难，实际问题中并不一定具备获取准确统计分布的条件。

引言,直接确定判别函数,基于样本的直接确定判别函数方法：

针对各种不同的情况，使用不同的准则函数，设计出满足这些不同准则要求的分类器。

这些准则的“最优”并不一定与错误率最小相一致：

次优分类器。

实例：

正态分布最小错误率贝叶斯分类器在特殊情况下，是线性判别函数g（x）=wTx（决策面是超平面），能否基于样本直接确定w?

引言,概率密度估计的方法,类的先验概率P（i）的估计：

用训练数据中各类出现的频率来估计依靠经验,引言,类条件概率密度函数的估计：

两大类方法参数估计：

概率密度函数的形式已知，而表征函数的参数未知，需要通过训练数据来估计最大似然估计Bayes估计非参数估计：

概率密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计Parzen窗法kn-近邻法,3.2参数估计,统计量：

总体的某种信息是样本集K=x1,x2,xN的某种函数f（K）。

参数空间：

总体分布的未知参数所有可能取值组成的集合（）,点估计和区间估计点估计的估计量（variable）和估计值（value）：

估计量的评价标准,估计量的评价标准：

无偏性，有效性，一致性无偏性：

E（）=有效性：

D（）小，估计更有效一致性：

样本数趋于无穷时，依概率趋于：

3.2.1最大似然估计,MaximumLikelihood（ML）估计估计的参数是确定而未知的，Bayes估计方法则视为随机变量。

样本集可按类别分开，不同类别的密度函数的参数分别用各类的样本集来训练。

概率密度函数的形式已知，参数未知，为了描述概率密度函数p（x|i）与参数的依赖关系，用p（x|i,）表示。

独立地按概率密度p（x|）抽取样本集K=x1,x2,xN，用K估计未知参数,似然函数,似然函数：

对数（loglarized）似然函数：

最大似然估计,最大似然估计,最大似然估计,最大似然估计示意图,最大似然估计,计算方法,最大似然估计量使似然函数梯度为0：

最大似然估计,3.2.2贝叶斯估计-最大后验概率,用一组样本集K=x1,x2,xN估计未知参数未知参数视为随机变量，先验分布为p（），而在已知样本集K出现的条件下的后验概率为p（|K）最大后验概率估计-Maximumaposteriori（MAP）,贝叶斯决策问题与贝叶斯估计问题,贝叶斯决策问题:

样本x决策ai真实状态wj状态空间A是离散空间先验概率P（wj）,贝叶斯参数估计问题：

样本集K=xi估计量s真实参数s参数空间S是连续空间参数的先验分布p（s）,贝叶斯估计,贝叶斯风险最小估计问题：

用一组样本集K=x1,x2,xN估计未知参数，使估计带来的风险最小。

贝叶斯（最小风险）估计,参数估计的条件风险：

给定x条件下，估计量的条件风险,参数估计的风险：

估计量的条件风险的期望,贝叶斯估计：

使风险最小的估计,贝叶斯估计,贝叶斯估计（II）,贝叶斯估计,损失函数定义为误差平方：

定理3.1:

如果定义损失函数为误差平方函数，则有：

贝叶斯估计的步骤,确定的先验分布p（）由样本集K=x1,x2,xN求出样本联合分布：

p（K|）计算的后验分布计算贝叶斯估计,贝叶斯估计,3.3正态分布的参数估计,最大似然估计示例贝叶斯估计示例,3.3.1一元正态分布例解,最大似然估计,一元正态分布均值的估计,最大似然估计,一元正态分布方差的估计,最大似然估计,多元正态分布参数最大似然估计,最大似然估计是一致估计均值估计是无偏的，协方差矩阵估计是有偏的。

协方差矩阵的无偏估计是：

总体均值向量和协方差矩阵,最大似然估计,3.3.2一元正态分布贝叶斯估计例解,总体分布密度为：

贝叶斯估计,均值为随机未知变量，的先验分布为：

用贝叶斯估计方法求的估计量,样本集：

K=x1,x2,xN,计算的后验分布：

一元正态分布例解（II）,计算的后验分布：

贝叶斯估计,计算的贝叶斯估计：

一元正态分布例解,总体分布密度为：

均值为随机未知变量，其先验分布为：

样本集：

K=x1,x2,xN,计算的后验分布：

贝叶斯估计,3.4非参数估计,非参数估计：

密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计。

又称作模型无关方法。

参数估计需要事先假定一种分布函数，利用样本数据估计其参数。

又称作基于模型的方法两种主要非参数估计方法：

核函数方法直方图法Parzen窗法kN-近邻法神经网络方法：

PNN,参数PK非参数：

非参数估计的优点：

（1）在利用样本数据对总体进行估计时，不依赖于总体所属的分布总体的分布形式，尤其是当对总体的分布不是很清楚时，因而非参数模型的适用性比较广，与参数方法相比，具有较好的稳健性。

（2）由于不必假定总体分布的具体形式，所以也无需多总体分布所具有的参数进行估计和检验。

如果方法选择得当，非参数估计方法与参数估计的效果相差不多，尤其当参数估计的假设不满足时，非参数估计会比参数估计方法更为有效。

非参数估计也有其缺点：

（1）如果对总体的了解足以确定它的分布类型，非参数估计就不如参数估计那样有更强的针对性。

（2）它没有充分利用样本所携带的关于总体的信息，因而有时它的效率会低一些，或者在相同的精度下，非参数估计比参数估计需要更大的样本。

总体分布的估计直方图,1、计算最大值与最小值的差（知道这组数据的变动范围）:

2、决定组距与组数（将数据分组）,组数：

将数据分组，当数据在100个以内时，按数据多少常分5-12组。

组距：

指每个小组的两个端点的距离，,3、决定分点，,画频率分布直方图的步骤,4、列出频率分布表.,5、画出频率分布直方图。

抽查某地区55名12岁男生的身高（单位：

cm）的测量值如下：

128.1144.4150.3146.2140.6126.0125.6127.7154.4142.7141.2142.7137.6136.9132.3131.8147.7138.4136.6136.2141.6141.1133.1142.8136.8133.1144.5142.4140.8127.7150.7160.3138.8154.3147.9141.3143.8138.1139.7142.9144.7148.5138.3135.3134.5140.6138.4137.3149.5142.5139.3156.1152.2129.8133.2试从以上数据中，对该地区12岁男生的身高情况进行大致的推测。

例题,解：

频率分布表如下：

频率分布条形图如下：

身高,利用样本频率分布对总体分布进行相应估计,（3）当样本容量无限增大，组距无限缩小，那么频率分布直方图就会无限接近于一条光滑曲线总体密度曲线。

（2）样本容量越大，这种估计越精确。

（1）上例的样本容量为50，如果增至500，其频率分布直方图的情况会有什么变化？

假如增至5000呢？

总体密度曲线,产品尺寸,a,b,（图中阴影部分的面积，表示总体在某个区间（a,b）内的取值概率）。

用样本分布直方图去估计相应的总体分布时，一般样本容量越大，频率分布直方图就会无限接近总体密度曲线，就越精确地反映了总体的分布规律，即越精确地反映了总体在各个范围内取值概率。

总体密度曲线反映了总体在各个范围内取值的概率,精确地反映了总体的分布规律。

是研究总体分布的工具.,总体密度曲线,直方图估计法作为一种非参数估计方法,广泛被应用,直方图方法的特点是方法简单直观,但直方图在处多维数据时计算十分复杂,数据的大小范围必须事先知道,密度估计结果曲线不光滑;因此人们开始考虑用核估计方法进行密度估计。

SILVERMAN把直方图估计看成是一种一维非参数核密度估计方法，宽度选择对界的影响很大,当直方图的宽度取得很小时个体特征很明显出现多峰状态（图1a）,但当宽度越来越大时个特征逐渐消失（图1c）。

因此,如果使用直方图估计密度时宽度选择必须适中,宽度过大或过小都可能掩盖主统计特征。

图1b较为合理。

直方图总结,2、核函数方法基本思想,IntuitiveDescription,Distributionofidenticalbilliardballs,Regionofinterest,Centerofmass,MeanShiftvector,Objective:

Findthedensestregion,IntuitiveDescription,Distributionofidenticalbilliardballs,Regionofinterest,Centerofmass,MeanShiftvector,Objective:

Findthedensestregion,IntuitiveDescription,Distributionofidenticalbilliardballs,Regionofinterest,Centerofmass,Objective:

Findthedensestregion,2、核函数方法基本思想,令R是包含样本点x的一个区域，其体积为V，设有n个训练样本，其中有k落在区域R中，则可对概率密度作出一个估计：

相当于用R区域内的平均性质来作为一点x估计，是一种数据的平滑。

有效性,当n固定时，V的大小对估计的效果影响很大，过大则平滑过多，不够精确；过小则可能导致在此区域内无样本点，k=0。

此方法的有效性取决于样本数量的多少，以及区域体积选择的合适。

收敛性,构造一系列包含x的区域R1,R2,，对应n=1,2,，

展开阅读全文