最大熵模型.ppt-资源下载

最大熵模型.ppt

1、熵导论与最大熵模型北京10月机器学习班邹博 2014年10月26日本次目标o理解并掌握熵Entropy的定义n理解“Huffman编码是所有编码中总编码长度最短的”熵含义o理解联合熵H(X,Y)、相对熵D(X|Y)、条件熵H(X|Y)、互信息I(X,Y)的定义和含义，并了解如下公式：nH(X|Y)=H(X,Y)-H(Y)=H(X)-I(X,Y)nH(Y|X)=H(X,Y)-H(X)=H(Y)I(X,Y)nI(X,Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)0o掌握最大熵模型MaxentnMaximum Entropy Modelso了解最大熵在自然语言处理NLP中的应用nN

2、atural Language Processingo与前序知识的联系：最大熵模型和极大似然估计MLE的关系nMaximum Likelihood Estimationo副产品：了解数据分析、函数作图的一般步骤2温故知新o证明：-lnx 1-x,x0 nf(x)=-lnx+x 1,x0，n凸函数n在x=1处取极值oJensen不等式：exp(px)p exp(x)n暂且记下这两个不等式，后面的内容会涉及到o拉格朗日对偶问题o举例说明最大熵模型的应用3对偶问题o一般优化问题的Lagrange乘子法oLagrange函数n对固定的x，Lagrange函数L(x,v)为关于和v的仿射函数4Lagra

3、nge对偶函数(dual function)oLagrange对偶函数o若没有下确界，定义：o根据定义，显然有：对0，v，若原优化问题有最优值p*，则o进一步：Lagrange对偶函数为凹函数。5678从小学数学开始o假设有5个硬币：1,2,3,4,5，其中一个是假的，比其他的硬币轻。有一个天平，天平每次能比较两堆硬币，得出的结果可能是以下三种之一：n左边比右边轻n右边比左边轻n两边同样重o问：至少要使用天平多少次才能确保找到假硬币?9答案o一种可能的称量方法如右图所示o答案：2次o追问：为什么2次？10分析o令x表示假硬币的序号：xX=1,2,3,4,5；o令yi是第i次使用天平所得到的结果

4、：yY=1,2,3；n1表示“左轻”，2表示“平衡”，3表示“右轻”o用天平称n次，获得的结果是：y1 y2 yn；oy1 y2 yn的所有可能组合数目是3n；o根据题意，要求通过y1 y2 yn确定x。即建立影射map(y1y2yn)=x；o从而：y1y2yn的变化数目大于等于x的变化数目n即3n5n一般意义下：11进一步分析o用y1 y2 yn表达x。即设计编码：x-y1 y2 ynoX的“总不确定度”是：oY的“表达能力”是：o至少要多少个Y才能准确表示X？12题目的变种o假设有5个硬币：1,2,3,4,5，其中一个是假的，比其他的硬币轻。已知第一个硬币是假硬币的概率是三分之一；第二个硬

5、币是假硬币的概率也是三分之一，其他硬币是假硬币的概率都是九分之一。o有一个天平，天平每次能比较两堆硬币，得出的结果可能是以下三种之一：n左边比右边轻n右边比左边轻n两边同样重o假设使用天平n次找到假硬币。问n的期望值至少是多少？13解o1/3概率的硬币有2个，1/9概率的硬币有3个：o定义：-plogap为熵14用熵解释Huffman编码15用熵解释Huffman编码16Huffman编码o本质：高概率出现的字符用更短的编码17广泛的结论o如果一个随机变量x的可能取值为X=x1,x2,xk。要用n位y:y1y2yn表示（每位y有c种取值）n的期望值至少为：o一般地，我们令c为2（二进制表示），

6、于是，X的信息量为：18熵o将P(x=xi)写成普适公式，就得到熵的定义：19研究函数f(x)=xlnxof(x)=xlnx，x0,1of(x)=lnx+1of(x)=1/x0(凸函数)o当f(x)=0时，x=1/e，取极小值；olim f(0)=0olim f(1)=120离散采样21绘图22熵和不确定性o熵是随机变量不确定性的度量，不确定性越大，熵值越大；若随机变量退化成定值，熵为0o均匀分布是“最不确定”的分布23联合熵和条件熵o两个随机变量X，Y的联合分布，可以形成联合熵Joint Entropy，用H(X,Y)表示oH(X,Y)H(Y)n(X,Y)发生所包含的熵，减去Y单独发生包含的

7、熵：在Y发生的前提下，X发生“新”带来的熵n该式子定义为Y发生前提下，X的熵：o条件熵H(X|Y)24推导条件熵的定义式25自封闭系统的运动总是倒向均匀分布26相对熵o相对熵，又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-Leible散度等o设p(x)、q(x)是X中取值的两个概率分布，则p对q的相对熵是o两点说明：n在一定程度上，相对熵可以度量两个随机变量的“距离”n一般的，D(p|q)D(q|p)27互信息o两个随机变量X，Y的互信息，定义为X，Y的联合分布和独立分布乘积的相对熵。oI(X,Y)=D(P(X,Y)|P(X)P(Y)28计算H(X)-I(X,Y)29整理得

8、到的等式oH(X|Y)=H(X,Y)-H(Y)n条件熵定义oH(X|Y)=H(X)-I(X,Y)n根据互信息定义展开得到o对偶式nH(Y|X)=H(X,Y)-H(X)nH(Y|X)=H(Y)-I(X,Y)oI(X,Y)=H(X)+H(Y)-H(X,Y)n多数文献，将该式作为互信息的定义式o试证明：H(X|Y)H(X)30强大的Venn图：帮助记忆31最大熵模型的原则o承认已知事物（知识）o对未知事物不做任何假设，没有任何偏见32两点分布的最大熵oH(X)=-plnp-(1-p)ln(1-p)n注：经典熵的定义，底数是2，单位是bitn本例中，为分析方便使用底数en若底数是e，单位是nat(奈特

9、)o如何求最值？33X满足均匀分布时，熵最大o当p=0.5时，取H(X)取最大值；o思考：若“多点”分布呢？oX是随机变量，可以取从1到K的K个数。问：X满足什么分布时，X的熵最大？np(X)=1/K：均匀分布34例如o已知：n“学习”可能是动词，也可能是名词。n“学习”可以被标为主语、谓语、宾语、定语o令x1表示“学习”被标为名词，x2表示“学习”被标为动词。o令y1表示“学习”被标为主语，y2表示被标为谓语，y3表示宾语，y4表示定语。得到下面的表示：o根据无偏原则35引入新知识o若已知：“学习”被标为定语的可能性很小，只有0.05o仍然坚持无偏原则：36再次引入新知识o当“学习”被标作动

10、词的时候，它被标作谓语的概率为0.95o除此之外，仍然坚持无偏见原则，尽量使概率分布平均。o问：怎么样能尽量无偏见的分布？37最大熵模型Maximum Entropyo概率平均分布等价于熵最大o问题转化为：计算X和Y的分布，使H(Y|X)达到最大值，并且满足条件38最大熵模型Maxent39Maxent的一般式o一般模型：oP=p|p是X上满足条件的概率分布40特征(Feature)和样本(Sample)o特征：(x,y)ny:这个特征中需要确定的信息nx:这个特征中的上下文信息o样本：关于某个特征(x,y)的样本，特征所描述的语法现象在标准集合里的分布：n(xi,yi)对nyi是y的一个

11、实例nxi是yi的上下文n(x1,y1)(x2,y2)(x3,y3)41特征函数o特征函数：对于一个特征(x0,y0)，定义特征函数：o对于一个特征(x0,y0)，在样本中的期望值是：o 是(x,y)在样本中出现的概率42条件Constraintso对每一个特征(x,y)，模型所建立的条件概率分布要与训练样本表现出来的分布相同。o假设样本的分布是（已知）：43条件Constraintso特征f在模型中的期望值：44最大熵模型在NLP中的完整提法oNLP模型：oP=p|p是y|x的概率分布并且已知条件o对训练样本，对任意给定的特征fi：45最大熵模型在NLP中的完整提法46最大熵模型总结定义条件

12、熵模型目的定义特征函数约束条件（1）（2）47求解Maxent模型o该条件约束优化问题的Lagrange函数o分析：n已知若干条件，要求若干变量的值使到目标函数（熵）最大o数学本质：n最优化问题（Optimization Problem）o条件：线性、等式o目标函数：非线性o非线性规划（线性约束）(non-linear programming with linear constraints)48拉格朗日函数L49最优解形式Exponential：求偏导，等于050未知o由，Maxent模型是对数线性模型o因为包含指数函数，几乎不可能有解析解n退一步说：有了解析解，仍然需要数值解o能不能找到另

13、一种逼近？构造函数f()，求其最大/最小值？51当前任务o理论问题n解释通过最大熵模型建立的目标函数和最大似然估计的关系o实践问题n找到有效的求解的算法o先解决理论问题n发现Maxent和MLE的关系后，有利于的求解52最大似然估计Maximum likelihood estimateo找出与样本的分布最接近的概率分布模型。o简单的例子n10次抛硬币的结果是：正正反正正正反反正正o假设p是每次抛硬币结果为正的概率。则：o得到这样的实验结果的概率是：53极大似然估计MLEo目标函数：o最优解是：p=0.7n思考：如何求解？o一般形式：54取对数o对数极大似然估计：o第二项是常数，可忽略55MLE

14、与条件熵o此目标式，与条件熵具有相同的形式。o既然函数式相同，极有可能二者殊途同归，目标函数是相同的。n演示推导56最优解P(y|x)带入L，得到关于的式子57将最大熵的解带入MLE，计算得到58结论o可以看到，二者的右端具有完全相同的目标函数。o根据MLE的正确性，可以断定：最大熵的解（无偏的对待不确定性）同时是最符合样本数据分布的解，进一步证明了最大熵模型的合理性。o做点思考：n熵：不确定度n似然：与知识的吻合程度n最大熵模型：对不确定度的无偏分配n最大似然估计：对知识的无偏理解知识不确定度的补集59的求解o因为没有显式的解析式，使用IIS计算最大熵模型的数值解nIIS是目前最大熵模型的最

15、优化算法，优于梯度下降算法nIIS，Improved Iterative Scaling，改进的迭代尺度算法60改进的迭代尺度法IIS61IIS的思想o假设最大熵模型当前的参数向量是，希望找到新的参数向量+，是的模型的对数似然函数值L增加。重复这一过程，直至找到对数似然函数的最大值。62L(+)-L()注：-lnx 1-x,x063使用Jensen不等式（即凸不等式）64对下界求偏导，令为0，求出65的求法：若f#(x,y)=M为常数66的求法：若f#(x,y)不是常数：牛顿法67最终解o上述求解过程中得到的权值，回代到下式中，即得到最大熵模型的最优估计。68再次强调o熵是描述不确定度的o知识

16、是不确定度的补集n不确定度越小，模型越准确。o直观的过程：n什么特征都不限定：熵最大n加一个特征：熵少一点oCondition Reduces Entropy(C.R.E.)n加的特征越多，熵越少6970总结oMaxEnt已经是比较成功的一个NLP模型，并获得广泛应用o从信息论获得启发（1948-）：自然语言处理也是信息处理的一种。n词性标注也可以看作一种编码的过程?n不妨思考一下：我身边的哪些问题，可以看做编码过程呢？o别忘了对偶问题n换另一个角度思考问题o最大熵模型，涉及了很多前序的数学知识n事实上，机器学习本身就是多种手段的综合应用。71Last words on MaxEntoAll Models are wrong.Some are useful.72参考文献oElements of Information Theory(Cover&Thomas)oLinear and Nonlinear Programming(Nash&Sofer)oA maximum entropy approach to natural language processing(Adam Berger)

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？