最大熵模型.ppt

上传人:b****2 文档编号:2119199 上传时间:2022-10-27 格式:PPT 页数:74 大小:1.83MB
下载 相关 举报
最大熵模型.ppt_第1页
第1页 / 共74页
最大熵模型.ppt_第2页
第2页 / 共74页
最大熵模型.ppt_第3页
第3页 / 共74页
最大熵模型.ppt_第4页
第4页 / 共74页
最大熵模型.ppt_第5页
第5页 / 共74页
点击查看更多>>
下载资源
资源描述

最大熵模型.ppt

《最大熵模型.ppt》由会员分享,可在线阅读,更多相关《最大熵模型.ppt(74页珍藏版)》请在冰豆网上搜索。

最大熵模型.ppt

熵导论与最大熵模型北京10月机器学习班邹博2014年10月26日本次目标o理解并掌握熵Entropy的定义n理解“Huffman编码是所有编码中总编码长度最短的”熵含义o理解联合熵H(X,Y)、相对熵D(X|Y)、条件熵H(X|Y)、互信息I(X,Y)的定义和含义,并了解如下公式:

nH(X|Y)=H(X,Y)-H(Y)=H(X)-I(X,Y)nH(Y|X)=H(X,Y)-H(X)=H(Y)I(X,Y)nI(X,Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)0o掌握最大熵模型MaxentnMaximumEntropyModelso了解最大熵在自然语言处理NLP中的应用nNaturalLanguageProcessingo与前序知识的联系:

最大熵模型和极大似然估计MLE的关系nMaximumLikelihoodEstimationo副产品:

了解数据分析、函数作图的一般步骤2温故知新o证明:

-lnx1-x,x0nf(x)=-lnx+x1,x0,n凸函数n在x=1处取极值oJensen不等式:

exp(px)pexp(x)n暂且记下这两个不等式,后面的内容会涉及到o拉格朗日对偶问题o举例说明最大熵模型的应用3对偶问题o一般优化问题的Lagrange乘子法oLagrange函数n对固定的x,Lagrange函数L(x,v)为关于和v的仿射函数4Lagrange对偶函数(dualfunction)oLagrange对偶函数o若没有下确界,定义:

o根据定义,显然有:

对0,v,若原优化问题有最优值p*,则o进一步:

Lagrange对偶函数为凹函数。

5678从小学数学开始o假设有5个硬币:

1,2,3,4,5,其中一个是假的,比其他的硬币轻。

有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一:

n左边比右边轻n右边比左边轻n两边同样重o问:

至少要使用天平多少次才能确保找到假硬币?

9答案o一种可能的称量方法如右图所示o答案:

2次o追问:

为什么2次?

10分析o令x表示假硬币的序号:

xX=1,2,3,4,5;o令yi是第i次使用天平所得到的结果:

yY=1,2,3;n1表示“左轻”,2表示“平衡”,3表示“右轻”o用天平称n次,获得的结果是:

y1y2yn;oy1y2yn的所有可能组合数目是3n;o根据题意,要求通过y1y2yn确定x。

即建立影射map(y1y2yn)=x;o从而:

y1y2yn的变化数目大于等于x的变化数目n即3n5n一般意义下:

11进一步分析o用y1y2yn表达x。

即设计编码:

x-y1y2ynoX的“总不确定度”是:

oY的“表达能力”是:

o至少要多少个Y才能准确表示X?

12题目的变种o假设有5个硬币:

1,2,3,4,5,其中一个是假的,比其他的硬币轻。

已知第一个硬币是假硬币的概率是三分之一;第二个硬币是假硬币的概率也是三分之一,其他硬币是假硬币的概率都是九分之一。

o有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一:

n左边比右边轻n右边比左边轻n两边同样重o假设使用天平n次找到假硬币。

问n的期望值至少是多少?

13解o1/3概率的硬币有2个,1/9概率的硬币有3个:

o定义:

-plogap为熵14用熵解释Huffman编码15用熵解释Huffman编码16Huffman编码o本质:

高概率出现的字符用更短的编码17广泛的结论o如果一个随机变量x的可能取值为X=x1,x2,xk。

要用n位y:

y1y2yn表示(每位y有c种取值)n的期望值至少为:

o一般地,我们令c为2(二进制表示),于是,X的信息量为:

18熵o将P(x=xi)写成普适公式,就得到熵的定义:

19研究函数f(x)=xlnxof(x)=xlnx,x0,1of(x)=lnx+1of(x)=1/x0(凸函数)o当f(x)=0时,x=1/e,取极小值;olimf(0)=0olimf

(1)=120离散采样21绘图22熵和不确定性o熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0o均匀分布是“最不确定”的分布23联合熵和条件熵o两个随机变量X,Y的联合分布,可以形成联合熵JointEntropy,用H(X,Y)表示oH(X,Y)H(Y)n(X,Y)发生所包含的熵,减去Y单独发生包含的熵:

在Y发生的前提下,X发生“新”带来的熵n该式子定义为Y发生前提下,X的熵:

o条件熵H(X|Y)24推导条件熵的定义式25自封闭系统的运动总是倒向均匀分布26相对熵o相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等o设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是o两点说明:

n在一定程度上,相对熵可以度量两个随机变量的“距离”n一般的,D(p|q)D(q|p)27互信息o两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。

oI(X,Y)=D(P(X,Y)|P(X)P(Y)28计算H(X)-I(X,Y)29整理得到的等式oH(X|Y)=H(X,Y)-H(Y)n条件熵定义oH(X|Y)=H(X)-I(X,Y)n根据互信息定义展开得到o对偶式nH(Y|X)=H(X,Y)-H(X)nH(Y|X)=H(Y)-I(X,Y)oI(X,Y)=H(X)+H(Y)-H(X,Y)n多数文献,将该式作为互信息的定义式o试证明:

H(X|Y)H(X)30强大的Venn图:

帮助记忆31最大熵模型的原则o承认已知事物(知识)o对未知事物不做任何假设,没有任何偏见32两点分布的最大熵oH(X)=-plnp-(1-p)ln(1-p)n注:

经典熵的定义,底数是2,单位是bitn本例中,为分析方便使用底数en若底数是e,单位是nat(奈特)o如何求最值?

33X满足均匀分布时,熵最大o当p=0.5时,取H(X)取最大值;o思考:

若“多点”分布呢?

oX是随机变量,可以取从1到K的K个数。

问:

X满足什么分布时,X的熵最大?

np(X)=1/K:

均匀分布34例如o已知:

n“学习”可能是动词,也可能是名词。

n“学习”可以被标为主语、谓语、宾语、定语o令x1表示“学习”被标为名词,x2表示“学习”被标为动词。

o令y1表示“学习”被标为主语,y2表示被标为谓语,y3表示宾语,y4表示定语。

得到下面的表示:

o根据无偏原则35引入新知识o若已知:

“学习”被标为定语的可能性很小,只有0.05o仍然坚持无偏原则:

36再次引入新知识o当“学习”被标作动词的时候,它被标作谓语的概率为0.95o除此之外,仍然坚持无偏见原则,尽量使概率分布平均。

o问:

怎么样能尽量无偏见的分布?

37最大熵模型MaximumEntropyo概率平均分布等价于熵最大o问题转化为:

计算X和Y的分布,使H(Y|X)达到最大值,并且满足条件38最大熵模型Maxent39Maxent的一般式o一般模型:

oP=p|p是X上满足条件的概率分布40特征(Feature)和样本(Sample)o特征:

(x,y)ny:

这个特征中需要确定的信息nx:

这个特征中的上下文信息o样本:

关于某个特征(x,y)的样本,特征所描述的语法现象在标准集合里的分布:

n(xi,yi)对nyi是y的一个实例nxi是yi的上下文n(x1,y1)(x2,y2)(x3,y3)41特征函数o特征函数:

对于一个特征(x0,y0),定义特征函数:

o对于一个特征(x0,y0),在样本中的期望值是:

o是(x,y)在样本中出现的概率42条件Constraintso对每一个特征(x,y),模型所建立的条件概率分布要与训练样本表现出来的分布相同。

o假设样本的分布是(已知):

43条件Constraintso特征f在模型中的期望值:

44最大熵模型在NLP中的完整提法oNLP模型:

oP=p|p是y|x的概率分布并且已知条件o对训练样本,对任意给定的特征fi:

45最大熵模型在NLP中的完整提法46最大熵模型总结定义条件熵模型目的定义特征函数约束条件

(1)

(2)47求解Maxent模型o该条件约束优化问题的Lagrange函数o分析:

n已知若干条件,要求若干变量的值使到目标函数(熵)最大o数学本质:

n最优化问题(OptimizationProblem)o条件:

线性、等式o目标函数:

非线性o非线性规划(线性约束)(non-linearprogrammingwithlinearconstraints)48拉格朗日函数L49最优解形式Exponential:

求偏导,等于050未知o由,Maxent模型是对数线性模型o因为包含指数函数,几乎不可能有解析解n退一步说:

有了解析解,仍然需要数值解o能不能找到另一种逼近?

构造函数f(),求其最大/最小值?

51当前任务o理论问题n解释通过最大熵模型建立的目标函数和最大似然估计的关系o实践问题n找到有效的求解的算法o先解决理论问题n发现Maxent和MLE的关系后,有利于的求解52最大似然估计Maximumlikelihoodestimateo找出与样本的分布最接近的概率分布模型。

o简单的例子n10次抛硬币的结果是:

正正反正正正反反正正o假设p是每次抛硬币结果为正的概率。

则:

o得到这样的实验结果的概率是:

53极大似然估计MLEo目标函数:

o最优解是:

p=0.7n思考:

如何求解?

o一般形式:

54取对数o对数极大似然估计:

o第二项是常数,可忽略55MLE与条件熵o此目标式,与条件熵具有相同的形式。

o既然函数式相同,极有可能二者殊途同归,目标函数是相同的。

n演示推导56最优解P(y|x)带入L,得到关于的式子57将最大熵的解带入MLE,计算得到58结论o可以看到,二者的右端具有完全相同的目标函数。

o根据MLE的正确性,可以断定:

最大熵的解(无偏的对待不确定性)同时是最符合样本数据分布的解,进一步证明了最大熵模型的合理性。

o做点思考:

n熵:

不确定度n似然:

与知识的吻合程度n最大熵模型:

对不确定度的无偏分配n最大似然估计:

对知识的无偏理解知识不确定度的补集59的求解o因为没有显式的解析式,使用IIS计算最大熵模型的数值解nIIS是目前最大熵模型的最优化算法,优于梯度下降算法nIIS,ImprovedIterativeScaling,改进的迭代尺度算法60改进的迭代尺度法IIS61IIS的思想o假设最大熵模型当前的参数向量是,希望找到新的参数向量+,是的模型的对数似然函数值L增加。

重复这一过程,直至找到对数似然函数的最大值。

62L(+)-L()注:

-lnx1-x,x063使用Jensen不等式(即凸不等式)64对下界求偏导,令为0,求出65的求法:

若f#(x,y)=M为常数66的求法:

若f#(x,y)不是常数:

牛顿法67最终解o上述求解过程中得到的权值,回代到下式中,即得到最大熵模型的最优估计。

68再次强调o熵是描述不确定度的o知识是不确定度的补集n不确定度越小,模型越准确。

o直观的过程:

n什么特征都不限定:

熵最大n加一个特征:

熵少一点oConditionReducesEntropy(C.R.E.)n加的特征越多,熵越少6970总结oMaxEnt已经是比较成功的一个NLP模型,并获得广泛应用o从信息论获得启发(1948-):

自然语言处理也是信息处理的一种。

n词性标注也可以看作一种编码的过程?

n不妨思考一下:

我身边的哪些问题,可以看做编码过程呢?

o别忘了对偶问题n换另一个角度思考问题o最大熵模型,涉及了很多前序的数学知识n事实上,机器学习本身就是多种手段的综合应用。

71LastwordsonMaxEntoAllModelsarewrong.Someareuseful.72参考文献oElementsofInformationTheory(Cover&Thomas)oLinearandNonlinearProgramming(Nash&Sofer)oAmaximumentropyapproachtonaturallanguageprocessing(AdamBerger)

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 职业教育 > 其它

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1