最大熵模型matlab应用_精品文档PPT推荐.ppt

资源描述

最大熵模型matlab应用_精品文档PPT推荐.ppt

《最大熵模型matlab应用_精品文档PPT推荐.ppt》由会员分享，可在线阅读，更多相关《最大熵模型matlab应用_精品文档PPT推荐.ppt（93页珍藏版）》请在冰豆网上搜索。

最大熵模型matlab应用_精品文档PPT推荐.ppt

NLP与随机过程问题：

一个直观的解决：

问题again!

（x1x2xny1y2yi-1）？

WhatsEntropy?

AnExample：

假设有5个硬币：

1,2,3,4,5，其中一个是假的，比其他的硬币轻。

有一个天平，天平每次能比较两堆硬币，得出的结果可能是以下三种之一：

左边比右边轻右边比左边轻两边同样重问：

至少要使用天平多少次才能保证找到假硬币?

（某年小学生数学竞赛题目:

P）称硬币（cont.）答案：

2次一种方法：

Why最少2次?

称硬币（cont.）Let:

x是假硬币的序号：

Let:

yi是第i次使用天平所得到的结果：

用天平称n次，获得的结果是：

y1y2yny1y2yn的所有可能组合数目是3n我们要通过y1y2yn找出x。

所以：

每个y1y2yn组合最多可能有一个对应的x取值。

因为x取X中任意一个值的时候，我们都要能够找出x，因此对于任意一个x的取值，至少要有一个y1y2yn与之对应。

根据鸽笼原理称硬币（cont.）Let:

Yi是第i次使用天平所得到的结果：

用y1y2yn表达x。

即设计编码：

x-y1y2ynX的“总不确定度”是：

Y的“表达能力”是：

至少要多少个Y才能准确表示X？

称硬币（cont.）Why?

为什么用log?

“表达能力”与“不确定度”的关系？

称硬币（cont.）为什么用log?

假设一个Y的表达能力是H（Y）。

显然，H（Y）与Y的具体内容无关，只与|Y|有关。

两个Y（就是：

y1y2）的表达能力是多少?

y1可以表达三种情况，y2可以表达三种情况。

两个并列，一共有：

3*3=9种情况（乘法原理）。

因此：

称硬币（cont.）“表达能力”与“不确定度”的关系？

都表达了一个变量所能变化的程度。

在这个变量是用来表示别的变量的时候，这个程度是表达能力。

在这个变量是被表示变量的时候，这个程度是不确定度。

而这个可变化程度，就是一个变量的熵（Entropy）。

显然：

熵与变量本身含义无关，仅与变量的可能取值范围有关。

称硬币-Version.2假设有5个硬币：

1,2,3,5，其中一个是假的，比其他的硬币轻。

已知第一个硬币是假硬币的概率是三分之一；

第二个硬币是假硬币的概率也是三分之一，其他硬币是假硬币的概率都是九分之一。

左边比右边轻右边比左边轻两边同样重假设使用天平n次找到假硬币。

问n的期望值至少是多少？

（不再是小学生问题:

P）称硬币-Version.2因为第一个、第二个硬币是假硬币的概率是三分之一，比其他硬币的概率大，我们首先“怀疑”这两个。

第一次可以把这两个做比较。

成功的概率是三分之二。

失败的概率是三分之一。

如果失败了，第二次称剩下的三个。

所以，期望值是：

称硬币-Version.2数据结构：

Huffman编码问题。

用反证法可以证明，这个是最小值。

（假设第一个和第二个硬币中有一个要称两次的话）称硬币-Version.2数据结构：

称硬币-Version.3,4,更广泛地：

如果一个随机变量x的可能取值为X=x1,x2,xk。

要用n位y:

y1y2yn表示（每位y有c种取值）n的期望值至少为：

一般地，我们令c为2（二进制表示），于是，X的信息量为：

定义:

X的具体内容跟信息量无关，我们只关心概率分布，于是H（X）可以写成：

熵的性质第一个等号在X为确定值的时候成立（没有变化的可能）第二个等号在X均匀分布的时候成立。

熵的性质证明：

详细证明略。

求条件极值就可以证明了（求偏导数，条件是：

所有的概率之和为1）结论：

均匀分布的时候，熵最大ConditionalEntropy有两个变量：

x,y。

它们不是独立的。

已知y，x的不确定度又是多少呢?

ConditionalEntropyConditionReducesEntropy（C.R.E.）知识（Y）减少不确定性（X）证明（略）。

用文氏图说明：

已知与未知的关系对待已知事物和未知事物的原则：

承认已知事物（知识）；

对未知事物不做任何假设，没有任何偏见已知与未知的关系例子已知：

“学习”可能是动词，也可能是名词。

可以被标为主语、谓语、宾语、定语令x1表示“学习”被标为名词，x2表示“学习”被标为动词。

令y1表示“学习”被标为主语，y2表示被标为谓语，y3表示宾语，y4表示定语。

得到下面的表示：

如果仅仅知道这一点，根据无偏见原则，“学习”被标为名词的概率与它被标为动词的概率相等。

已知与未知的关系例子已知：

可以被标为主语、谓语、宾语、定语“学习”被标为定语的可能性很小，只有0.05除此之外，仍然坚持无偏见原则：

我们引入这个新的知识：

可以被标为主语、谓语、宾语、定语“学习”被标为定语的可能性很小，只有0.05当“学习”被标作动词的时候，它被标作谓语的概率为0.95除此之外，仍然坚持无偏见原则，我们尽量使概率分布平均。

但问题是：

什么是尽量平均的分布？

引入这个新的知识：

最大熵模型MaximumEntropy概率平均分布=熵最大我们要一个x和y的分布，满足：

同时使H（Y|X）达到最大值最大熵模型MaximumEntropy最大熵模型MaximumEntropyWhatisConstraints?

-模型要与已知知识吻合Whatisknown?

-训练数据集合一般模型：

P=p|p是X上满足条件的概率分布特征（Feature）特征：

（x,y）y:

这个特征中需要确定的信息x:

这个特征中的上下文信息注意一个标注可能在一种情况下是需要确定的信息，在另一种情况下是上下文信息：

x1x2xnp（y1=a|x1x2xn）x1x2xny1p（y2=a|x1x2xny1）样本（Sample）关于某个特征（x,y）的样本-特征所描述的语法现象在标准集合里的分布：

（xi,yi）pairsyi是y的一个实例xi是yi的上下文（x1,y1）（x2,y2）（x3,y3）特征与样本已知：

可以被标为主语、谓语、宾语、定语“学习”被标为定语的可能性很小，只有0.05特征：

当“学习”被标作动词的时候，它被标作谓语的概率为0.95x是什么?

y是什么?

样本是什么?

特征与样本已知：

可以被标为主语、谓语、宾语、定语特征：

“学习”被标为定语的可能性很小，只有0.05当“学习”被标作动词的时候，它被标作谓语的概率为0.95x是什么?

特征与样本特征函数：

对于一个特征（x0,y0），定义特征函数：

特征函数期望值：

对于一个特征（x0,y0），在样本中的期望值是：

是（x,y）在样本中出现的概率条件（Constraints）条件：

对每一个特征（x,y），模型所建立的条件概率分布要与训练样本表现出来的分布相同。

假设样本的分布是（已知）：

特征f在模型中的期望值：

最大熵模型MaximumEntropyNLP模型：

P=p|p是y|x的概率分布并且满足下面的条件对训练样本，对任意给定的特征fi：

最大熵模型的解决问题：

已知若干条件，要求若干变量的值使到目标函数（熵）最大数学本质：

最优化问题（OptimizationProblem）条件：

线性、等式目标函数：

非线性非线性规划（线性约束）（non-linearprogrammingwithlinearconstraints）非线性规划基本概念NonlinearProgramming解决的思路：

非线性规划问题（带约束）（拉格朗日法）-非线性规划问题（不带约束UnconstrainedProblem）（求偏导数法）-解决不带约束求解问题（解方程）-求出原问题的解法非线性规划基本概念NonlinearProgrammingp:

m维向量；

H（p）:

关于p的非线性函数A:

n*m常数矩阵；

n维向量如何去掉约束？

抽象问题：

假设：

A的行向量线性无关。

确定了m维空间里面n个方向上（就是与Ap=b确定的m-n个方向“垂直”的n个方向）的取值。

p只能在剩下的r=m-n个方向上面移动。

非线性规划基本概念NonlinearProgramming假设Z是跟Ap=b垂直的方向量。

m*（m-n）常数矩阵）就是p能够自由活动的所有空间了。

m-n维变量于是有：

非线性规划基本概念NonlinearProgrammingp:

m*（m-n）常数矩阵v:

m-n维变量极值条件Z:

m-n维变量极值条件：

把分解成Z方向向量和A方向向量：

极值条件Z:

m-n维变量极值条件p:

n维向量令：

拉格朗日算子LagrangeMultiplier一般地，对于k个限制条件的ConstrainedOptimization问题：

拉格朗日函数为：

其中引入的拉格朗日算子：

拉格朗日算子LagrangeMultiplier拉格朗日函数可能的最优解（Exponential）最优解的存在性一阶导数为零，二阶导数小于零，所得到的是最大值！

最优解形式（Exponential）最优解（Exponential）最优解（Exponential）能不能找到另一种逼近？

比如等价成求某个函数的最大/最小值？

几乎不可能有解析解（包含指数函数）近似解不代表接近驻点。

对偶问题Duality对偶问题的引入。

Alice和Bob的游戏：

l有一个2*2的矩阵。

每次Alice挑一个数x（x=1或者2），Bob也挑一个数y（y=1或者2）。

两人同时宣布所挑的数字。

然后看Cx,y是多少，Bob要付AliceCx,y块钱。

（如果Cx,y是负数，Alice给Bob钱）。

矩阵如下：

对偶问题AlicevsBob假设：

Alice和Bob都是聪明而贪得无厌的人。

而且他们都清

展开阅读全文