ImageVerifierCode 换一换
格式:PPT , 页数:74 ,大小:1.83MB ,
资源ID:2119199      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2119199.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(最大熵模型.ppt)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

最大熵模型.ppt

1、熵导论与最大熵模型北京10月机器学习班 邹博 2014年10月26日本次目标o理解并掌握熵Entropy的定义n理解“Huffman编码是所有编码中总编码长度最短的”熵含义o理解联合熵H(X,Y)、相对熵D(X|Y)、条件熵H(X|Y)、互信息I(X,Y)的定义和含义,并了解如下公式:nH(X|Y)=H(X,Y)-H(Y)=H(X)-I(X,Y)nH(Y|X)=H(X,Y)-H(X)=H(Y)I(X,Y)nI(X,Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)0o掌握最大熵模型MaxentnMaximum Entropy Modelso了解最大熵在自然语言处理NLP中的应用nN

2、atural Language Processingo与前序知识的联系:最大熵模型和极大似然估计MLE的关系nMaximum Likelihood Estimationo副产品:了解数据分析、函数作图的一般步骤2温故知新o证明:-lnx 1-x,x0 nf(x)=-lnx+x 1,x0,n凸函数n在x=1处取极值oJensen不等式:exp(px)p exp(x)n暂且记下这两个不等式,后面的内容会涉及到o拉格朗日对偶问题o举例说明最大熵模型的应用3对偶问题o一般优化问题的Lagrange乘子法oLagrange函数n对固定的x,Lagrange函数L(x,v)为关于和v的仿射函数4Lagra

3、nge对偶函数(dual function)oLagrange对偶函数o若没有下确界,定义:o根据定义,显然有:对0,v,若原优化问题有最优值p*,则o进一步:Lagrange对偶函数为凹函数。5678从小学数学开始o假设有5个硬币:1,2,3,4,5,其中一个是假的,比其他的硬币轻。有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一:n左边比右边轻n右边比左边轻n两边同样重o问:至少要使用天平多少次才能确保找到假硬币?9答案o一种可能的称量方法如右图所示o答案:2次o追问:为什么2次?10分析o令x表示假硬币的序号:xX=1,2,3,4,5;o令yi是第i次使用天平所得到的结果

4、:yY=1,2,3;n1表示“左轻”,2表示“平衡”,3表示“右轻”o用天平称n次,获得的结果是:y1 y2 yn;oy1 y2 yn的所有可能组合数目是3n;o根据题意,要求通过y1 y2 yn确定x。即建立影射map(y1y2yn)=x;o从而:y1y2yn的变化数目大于等于x的变化数目n即3n5n一般意义下:11进一步分析o用y1 y2 yn表达x。即设计编码:x-y1 y2 ynoX的“总不确定度”是:oY的“表达能力”是:o至少要多少个Y才能准确表示X?12题目的变种o假设有5个硬币:1,2,3,4,5,其中一个是假的,比其他的硬币轻。已知第一个硬币是假硬币的概率是三分之一;第二个硬

5、币是假硬币的概率也是三分之一,其他硬币是假硬币的概率都是九分之一。o有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一:n左边比右边轻n右边比左边轻n两边同样重o假设使用天平n次找到假硬币。问n的期望值至少是多少?13解o1/3概率的硬币有2个,1/9概率的硬币有3个:o定义:-plogap为熵14用熵解释Huffman编码15用熵解释Huffman编码16Huffman编码o本质:高概率出现的字符用更短的编码17广泛的结论o如果一个随机变量x的可能取值为X=x1,x2,xk。要用n位y:y1y2yn表示(每位y有c种取值)n的期望值至少为:o一般地,我们令c为2(二进制表示),

6、于是,X的信息量为:18熵o将P(x=xi)写成普适公式,就得到熵的定义:19研究函数f(x)=xlnxof(x)=xlnx,x0,1of(x)=lnx+1of(x)=1/x0(凸函数)o当f(x)=0时,x=1/e,取极小值;olim f(0)=0olim f(1)=120离散采样21绘图22熵和不确定性o熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0o均匀分布是“最不确定”的分布23联合熵和条件熵o两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示oH(X,Y)H(Y)n(X,Y)发生所包含的熵,减去Y单独发生包含的

7、熵:在Y发生的前提下,X发生“新”带来的熵n该式子定义为Y发生前提下,X的熵:o条件熵H(X|Y)24推导条件熵的定义式25自封闭系统的运动总是倒向均匀分布26相对熵o相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等o设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是o两点说明:n在一定程度上,相对熵可以度量两个随机变量的“距离”n一般的,D(p|q)D(q|p)27互信息o两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。oI(X,Y)=D(P(X,Y)|P(X)P(Y)28计算H(X)-I(X,Y)29整理得

8、到的等式oH(X|Y)=H(X,Y)-H(Y)n条件熵定义oH(X|Y)=H(X)-I(X,Y)n根据互信息定义展开得到o对偶式nH(Y|X)=H(X,Y)-H(X)nH(Y|X)=H(Y)-I(X,Y)oI(X,Y)=H(X)+H(Y)-H(X,Y)n多数文献,将该式作为互信息的定义式o试证明:H(X|Y)H(X)30强大的Venn图:帮助记忆31最大熵模型的原则o承认已知事物(知识)o对未知事物不做任何假设,没有任何偏见32两点分布的最大熵oH(X)=-plnp-(1-p)ln(1-p)n注:经典熵的定义,底数是2,单位是bitn本例中,为分析方便使用底数en若底数是e,单位是nat(奈特

9、)o如何求最值?33X满足均匀分布时,熵最大o当p=0.5时,取H(X)取最大值;o思考:若“多点”分布呢?oX是随机变量,可以取从1到K的K个数。问:X满足什么分布时,X的熵最大?np(X)=1/K:均匀分布34例如o已知:n“学习”可能是动词,也可能是名词。n“学习”可以被标为主语、谓语、宾语、定语o令x1表示“学习”被标为名词,x2表示“学习”被标为动词。o令y1表示“学习”被标为主语,y2表示被标为谓语,y3表示宾语,y4表示定语。得到下面的表示:o根据无偏原则35引入新知识o若已知:“学习”被标为定语的可能性很小,只有0.05o仍然坚持无偏原则:36再次引入新知识o当“学习”被标作动

10、词的时候,它被标作谓语的概率为0.95o除此之外,仍然坚持无偏见原则,尽量使概率分布平均。o问:怎么样能尽量无偏见的分布?37最大熵模型Maximum Entropyo概率平均分布 等价于 熵最大o问题转化为:计算X和Y的分布,使H(Y|X)达到最大值,并且满足条件38最大熵模型Maxent39Maxent的一般式o一般模型:oP=p|p是X上满足条件的概率分布40特征(Feature)和样本(Sample)o特征:(x,y)ny:这个特征中需要确定的信息nx:这个特征中的上下文信息o样本:关于某个特征(x,y)的样本,特征所描述的语法现象在标准集合里的分布:n(xi,yi)对nyi是y的一个

11、实例nxi是yi的上下文n(x1,y1)(x2,y2)(x3,y3)41特征函数o特征函数:对于一个特征(x0,y0),定义特征函数:o对于一个特征(x0,y0),在样本中的期望值是:o 是(x,y)在样本中出现的概率42条件Constraintso对每一个特征(x,y),模型所建立的条件概率分布要与训练样本表现出来的分布相同。o假设样本的分布是(已知):43条件Constraintso特征f在模型中的期望值:44最大熵模型在NLP中的完整提法oNLP模型:oP=p|p是y|x的概率分布并且已知条件o对训练样本,对任意给定的特征fi:45最大熵模型在NLP中的完整提法46最大熵模型总结定义条件

12、熵模型目的定义特征函数约束条件(1)(2)47求解Maxent模型o该条件约束优化问题的Lagrange函数o分析:n已知若干条件,要求若干变量的值使到目标函数(熵)最大o数学本质:n最优化问题(Optimization Problem)o条件:线性、等式o目标函数:非线性o非线性规划(线性约束)(non-linear programming with linear constraints)48拉格朗日函数L49最优解形式Exponential:求偏导,等于050未知o由 ,Maxent模型是对数线性模型o因为包含指数函数,几乎不可能有解析解n退一步说:有了解析解,仍然需要数值解o能不能找到另

13、一种逼近?构造函数f(),求其最大/最小值?51当前任务o理论问题n解释通过最大熵模型建立的目标函数和最大似然估计的关系o实践问题n找到有效的求解的算法o先解决理论问题n发现Maxent和MLE的关系后,有利于的求解52最大似然估计Maximum likelihood estimateo找出与样本的分布最接近的概率分布模型。o简单的例子n10次抛硬币的结果是:正正反正正正反反正正o假设p是每次抛硬币结果为正的概率。则:o得到这样的实验结果的概率是:53极大似然估计MLEo目标函数:o最优解是:p=0.7n思考:如何求解?o一般形式:54取对数o对数极大似然估计:o第二项是常数,可忽略55MLE

14、与条件熵o此目标式,与条件熵具有相同的形式。o既然函数式相同,极有可能二者殊途同归,目标函数是相同的。n演示推导56最优解P(y|x)带入L,得到关于的式子57将最大熵的解带入MLE,计算得到58结论o可以看到,二者的右端具有完全相同的目标函数。o根据MLE的正确性,可以断定:最大熵的解(无偏的对待不确定性)同时是最符合样本数据分布的解,进一步证明了最大熵模型的合理性。o做点思考:n熵:不确定度n似然:与知识的吻合程度n最大熵模型:对不确定度的无偏分配n最大似然估计:对知识的无偏理解知识不确定度的补集59的求解o因为没有显式的解析式,使用IIS计算最大熵模型的数值解nIIS是目前最大熵模型的最

15、优化算法,优于梯度下降算法nIIS,Improved Iterative Scaling,改进的迭代尺度算法60改进的迭代尺度法IIS61IIS的思想o假设最大熵模型当前的参数向量是,希望找到新的参数向量+,是的模型的对数似然函数值L增加。重复这一过程,直至找到对数似然函数的最大值。62L(+)-L()注:-lnx 1-x,x063使用Jensen不等式(即凸不等式)64对下界求偏导,令为0,求出65的求法:若f#(x,y)=M为常数66的求法:若f#(x,y)不是常数:牛顿法67最终解o上述求解过程中得到的权值,回代到下式中,即得到最大熵模型的最优估计。68再次强调o熵是描述不确定度的o知识

16、是不确定度的补集n不确定度越小,模型越准确。o直观的过程:n什么特征都不限定:熵最大n加一个特征:熵少一点oCondition Reduces Entropy(C.R.E.)n加的特征越多,熵越少6970总结oMaxEnt已经是比较成功的一个NLP模型,并获得广泛应用o从信息论获得启发(1948-):自然语言处理也是信息处理的一种。n词性标注也可以看作一种编码的过程?n不妨思考一下:我身边的哪些问题,可以看做编码过程呢?o别忘了对偶问题n换另一个角度思考问题o最大熵模型,涉及了很多前序的数学知识n事实上,机器学习本身就是多种手段的综合应用。71Last words on MaxEntoAll Models are wrong.Some are useful.72参考文献oElements of Information Theory(Cover&Thomas)oLinear and Nonlinear Programming(Nash&Sofer)oA maximum entropy approach to natural language processing(Adam Berger)

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1