前缀码信源编码定理.pptx

上传人:b****1 文档编号:1158039 上传时间:2022-10-18 格式:PPTX 页数:110 大小:4.73MB
下载 相关 举报
前缀码信源编码定理.pptx_第1页
第1页 / 共110页
前缀码信源编码定理.pptx_第2页
第2页 / 共110页
前缀码信源编码定理.pptx_第3页
第3页 / 共110页
前缀码信源编码定理.pptx_第4页
第4页 / 共110页
前缀码信源编码定理.pptx_第5页
第5页 / 共110页
点击查看更多>>
下载资源
资源描述

前缀码信源编码定理.pptx

《前缀码信源编码定理.pptx》由会员分享,可在线阅读,更多相关《前缀码信源编码定理.pptx(110页珍藏版)》请在冰豆网上搜索。

前缀码信源编码定理.pptx

第三章无失真信源编码,10/4/2019,1,信源压缩的目标是用尽可能少的比特来描述信源,使得在接收端可以无失真的恢复出该信源。

无失真信源编码定理说的是给定离散无记忆信源X,它的压缩极限为H(X)。

换句话说,为了无失真恢复该信源,压缩的时候,描述X的最少比特数应为H(X)。

本章内容,10/4/2019,2,信源码分类Kraft不等式最优码最优码码长度的界McMillan不等式Huffman编码Shannon-Fano-Elias编码AEP和信源编码,1.定义随机变量X的信源码C:

为从X的值域A到(由D进制符号构成的有限长字符串)的映射。

令代表与x对应的码字,的长度为,例1:

定义平均码字长度:

10/4/2019,4,例2,例2:

随机变量,注:

任何比特序列均可唯一地译码为X的符号序列,比如0110111100110译码为134213,例3,注:

上述信源码也是唯一可译定义3非奇异码:

如果A中每个元素均映射为中不同的字符串。

即:

唯一可译码,注:

非奇异码保证了对X的描述是唯一的,避免译码时的模糊通常发送的是X的序列,如何区分出码字?

定义4码C的扩展:

从A的有限长字符串映射到D的有限长字符串,定义为:

例4,定义唯一可译码:

如果码C的扩展码码。

是非奇异,注:

唯一可译码的任何编码字符串都有唯一的信源字符串相对应,问题在于可能需要等到最后一个字符才能译第一个字符。

前缀码,10/4/2019,9,定义前缀码(即时码,异字头码):

如果没有任何码字是其他码字的前缀。

即时码的译码不必参考以后的码字,一旦码字结束即可辨认,如例1中01011111010分为0,10,111,110,10,四种码之间的关系,对于非奇异但不是唯一可译码,010可以译为2或14或31;对于唯一可译但非即时码,如果开始2比特是10或00则可以立即译码。

但若开始2比特是11,则需要继续观察后续的比特,如果下一位是1,则开始的2比特译为3;若11之后的0的个数为奇数,则第一个码字为110,译为4;若11之后的0的个数为偶数,则第一个码字为110,译为3,以此类推。

10/4/2019,11,前缀码一定是唯一可译码,10/4/2019,12,10/4/2019,13,10/4/2019,14,定长码的启示,定长码指的是编码过程中将信源的每个符号映射为固定的长度的码字,相反,变长码可将符号映射为不同长度的码字。

10/4/2019,15,假定分块长度为L,则可能的组合数是2L。

如果信源字母表的大小为M=|A|,且M2L,则可以为信源的每个字符分配一个不同的码字,假设译码器知道编码序列的开端,则编码器可以将编码序列分割成L长的分组,然后对每个分组译为对应的符号。

如果字母表大小为M,为了能将每个符号编为不同的码字,需要的码字长度为,10/4/2019,16,推广到对n个字符同时编码,假设字母表A有M个字符,则总共有Mn个可能的码字.利用定长编码的方法,每个信源的n元组可以被编码为,10/4/2019,17,选择充分大的n,则总是可以使得每信源符号的平均编码比特数任意近的接近log2M.,只具有理论上的价值,而没太大的实用价值。

这个简单机制近似的接近这个最小值。

这个结果提示了为什么信息的测度会是字母表大小的对数。

这个方法是非概率的。

10/4/2019,18,10/4/2019,19,Kfaft不等式,定理(Kraft不等式)任意D进制上的前缀码,其码字长度必须满足不等式反之,给定满足该不等式的码字长度集合,总是可以构造出相应的前缀码。

证明:

从树的根出发,从根到叶子的每条路径代表了一个码字。

前缀的条件意味着没有一个码字是其他码字的祖先。

则深度为li的码字在lmax处的后代个数为,10/4/2019,20,每个li的后代组成的集合之间是互斥的,即相互之间没有交集。

又深度为lmax处的节点总数小于等于,10/4/2019,21,逆部分的证明同样也是构造码树,选择第一个深度为l1的节点作为第一个码字,删除所有后代,类似.,10/4/2019,22,扩展的kraft不等式,具有可数无限个码字的前缀码,其码字长度满足扩展的Kraft不等式给定满足该不等式的码字长度l1,l2,,总是可以构造出相应的前缀码。

10/4/2019,23,信源编码的目标,目标是构造具有最小平均长度的前缀码即,找到满足Kraft不等式的整数l1,l2,lm,使得平均长度,最小,或者说小于任何其他前缀码的平均长度。

10/4/2019,24,优化问题,优化问题,简化:

1,忽略整数要求;2,令不等式为等式,10/4/2019,25,Lagrange乘子法,10/4/2019,26,10/4/2019,27,定理,随机变量X的任意D进制前缀码的平均长度L大于等于熵HD(X),等式成立的条件,10/4/2019,28,证明,10/4/2019,29,令,等于0要求1.p=r2.C=1,10/4/2019,30,定义,如果概率分布中的每个概率值都存在n,使得概率值等于,则称这个概率分布是D进制的(D-adic)上面定理表明当且仅当X的分布是D进制的,定理成立,该定理也给出了一个寻找最优码的程序,10/4/2019,31,1)找到与X的分布最接近的D进制分布;2)由该D进制分布计算出对应的码字长度;3)按照Kraft不等式证明过程中构造码树的方法,构造出该信源码。

按照这个程序能获得关于X的最优信源码。

10/4/2019,32,最优码长的界,引理对于给定随机变量X,可以构造一前缀码,使得其平均码长满足,证明.已经证明了等式成立条件考虑到码字长度必须是整数,10/4/2019,33,可以证明这些码字长度满足kraft不等式,10/4/2019,34,前缀码信源编码定理,假设随机变量X的D进制最优信源码的码字长度为则其平均码长满足证明.取,10/4/2019,35,10/4/2019,36,推论,考虑信源。

这是一个|A|进制唯一可译码,平均码长为1,10/4/2019,37,推广,最优信源码的平均码长一定比D进制熵大,或者说描述信源X所需要的最小长度是该信源的熵,但是这个差距不会超过1比特。

考虑每次编码不是针对单个字符,而是对n个字符进行分块编码。

假设这n个字符独立同分布,10/4/2019,38,10/4/2019,39,对于非独立同分布序列仍然有,每输入字符平均码字长度,如果随机过程是平稳的,10/4/2019,40,定理,每输入字符最小平均码字长度满足,进一步,如果随机过程是平稳的,10/4/2019,41,偏码,假设随机变量X的分布为p(x),码字长度为则关于p(x)的平均码长满足,10/4/2019,42,证明,10/4/2019,43,唯一可译码的Kraft不等式,10/4/2019,44,前面证明了前缀码必须满足Kraft不等式。

而唯一可译码类包括了前缀码作为它的真子集,即前缀码一定是唯一可译码,但唯一可译码不必是前缀码。

直观地,唯一可译码的码字长度应该满足的约束条件应该更严格,但下面的定理表明唯一可译码的码字长度所必须满足的约束条件与前缀码是一样的。

McMillan不等式,D元唯一可译码的码字长度必须满足Kraft不等式,反之,给定满足Kraft不等式的一组码字长度,必定可以构造具有相应码字长度的唯一可译码。

10/4/2019,45,10/4/2019,46,该定理表明在将最优信源编码由前缀码扩展到唯一可译码类时,从码字长度来考虑,唯一可译码类并不能提供更好的选择(即提供更小的平均码长)。

这就表明前面证明的关于平均码长的界的定理可以直接推广到唯一可译码类。

Huffman编码,目标:

给定分布构造最优前缀码。

最优指的是平均码字长度最短。

思想:

给小概率的字符分配长码字,高概率符号分配短码字。

第一步最小概率的符号4和5作为兄弟被合并,得到简化的概率集0.4,0.2,0.15,0.25,10/4/2019,48,简化概率集中最小概率的两个符号2和3作为兄弟合并,得到新的概率集0.4,0.35,0.25,10/4/2019,49,评论,10/4/2019,50,本例中信源概率集为0.4,0.2,0.15,0.15,0.1,logpi的值为1.32,2.32,2.74,2.74,3.32,与最优码的码字长度集1,3,3,3,3很接近。

类似,熵为2.15bits,平均码长2.2bits/symbol,非常接近熵。

但是,即使对这么简单的信源,如果不使用Huffman算法,很难猜测出最优码字长度。

另一个概率集完整的Huffman码树,得到的是不同的码字集合,10/4/2019,51,评论,10/4/2019,52,本例中信源概率集为0.35,0.2,0.2,0.15,0.1,-logpi的值为1.51,2.32,2.32,2.74,3.32,熵为2.2,但是,现在最优码长为2,2,2,3,3,与上例相比,差别很大。

平均码长2.25,非常接近熵。

如果不使用Huffman算法,很难预测出最优码字长度的这种激烈的波动。

例1:

X的字母表A=1,2,3,4,5,对应概率为0.25,0.25,0.2,0.15,0.15,编码效率,平均码字长度:

2.3bits,H(X)=2.2855比特定义编码效率为,计算出,10/4/2019,54,例2.对例1的随机变量考虑3元码,此时组合3个最小概率的符号得到一个超符号(supersymbol)得到:

平均码字长度:

1.5铁特(ternarydigits),编码效率为,1.442/1.5100%=96.13%。

10/4/2019,56,例3如D2,可能出现不能每次都组合D个字符。

此时添加哑元变量,其概率为0。

注意每次组合减少的符号数为D-1,因此符号总数应满足1+k(D-1),k为树的深度。

Huffman码的最优性,,存在满足下列,引理1:

给定分布特性的最优码:

1.如果即给概率大的符号分配短码字,证明:

设为最优码,为交换到,则:

中码字j和k得,10/4/2019,59,图示,只有2个符号时,最优码长是1,1,10/4/2019,60,3个符号时,最优长度是1,2,2,概率最小的符号被分配了最长的码字,10/4/2019,61,2.最长的两码字长度必须相等。

证:

否则删除较长码字的最后一位,既保证了前缀又得到平均长度更短的信源码,3.最长两码字只有最后一位不同,且对应于概率最小的两符号,Remark:

并不是所有最优码都满足3,但通过重新安排码字,总是可以得到满足3的最优码总结:

如果,则存在最优码,且且与只有最后一位不同Remark:

存在很多最优码,Huffman码只是其中之一。

10/4/2019,63,(a)给出一种即时码,通过修剪无兄弟的分支,改进得到(b),将码树重排可得到(c),使得从顶部到底部按码字长度的增加进行排列,对(c)中的概率进行交换以提高码树的期望深度则得到(d),10/4/2019,64,定理.Huffman码是最优的,定理:

Huffman码是最优的,即如果是Huffman码,是其它码,则,满足引理,定义一个关于m-1个字符的,证:

假设码“合并”码,如下:

取中两个最长码字的公共,前缀,给它指定一个字符,概率为,其他码字保持不变,对应关系如下:

其中w表示一个二元码字,n为相应长度,码Cm的平均长度为:

两者相差,,与,独立,因此:

对于C2,给一个符号分配0,另一个分配1即为最优。

定理,Huffman码的平均码长满足,证明.直接应用定理3.17【前缀码信源编码定理】讲义p12,10/4/2019,68,推广到n个符号,考虑同时对n个符号进行Huffman编码,10/4/2019,69,Shannon-Fano-Elias编码,Shannon-Fano-Elias码是一种利用累计分布函数来分配码字的简单的信源编码方案。

假设信源X

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 中医中药

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1