信息论基础理论及应用Word格式.docx
《信息论基础理论及应用Word格式.docx》由会员分享,可在线阅读,更多相关《信息论基础理论及应用Word格式.docx(8页珍藏版)》请在冰豆网上搜索。
狭义信息论。
狭义信息论主要总结了Shannon的研究成果,因此又称为Shannon信息论。
在信息可以度量的基础上,研究如何有效、可靠地传递信息。
有效、可靠地传递信息必然贯穿于通信系统从信源到信宿的各个部分,狭义信息论研究的是收、发端联合优化的问题,而重点在各种编码。
它是通信中客观存在的问题的理论提升。
一般信息论。
研究从广义的通信引出的基础理论问题:
Shannon信息论;
Wiener的微弱信号检测理论。
微弱信号检测又称最佳接收研究是为了确保信息传输的可靠性,研究如何从噪声和干扰中接收信道传输的信号的理论。
主要研究两个方面的问题:
从噪声中去判决有用信号是否出现和从噪声中去测量有用信号的参数。
该理论应用近代数理统计的方法来研究最佳接收的问题,系统和定量地综合出存在噪声和干扰时的最佳接收机结构。
除此之外,一般信息论的研究还包括:
噪声理论、信号滤波与预测、统计检测与估计理论、调制理论、信号处理与信号设计理论等。
可见它总结了Shannon和Wiener以及其他学者的研究成果,是广义通信中客观存在的问题的理论提升。
广义信息论。
无论是狭义信息论还是一般信息论,讨论的都是客观问题。
然而从前面给出的例子可知,当讨论信息的作用、价值等问题时,必然涉及到主观因素。
广义信息论研究包括所有与信息有关的领域,如:
心理学,遗传学,神经生理学,语言学,社会学等。
因此,有人对信息论的研究内容进行了重新界定,提出从应用性、实效性、意义性或者从语法、语义、语用方面来研究信息,分别与事件出现的概率、含义及作用有关,其中意义性、语义、语用主要研究信息的意义和对信息的理解,即信息所涉及的主观因素。
广义信息论从人们对信息特征的理解出发,从客观和主观两个方面全面地研究信息的度量、获取、传输、存储、加工处理、利用以及功用等,理论上说是最全面的信息理论,但由于主观因素过于复杂,很多问题本身及其解释尚无定论,或者受到人类知识水平的限制目前还得不到合理的解释,因此广义信息论目前还处于正在发展的阶段。
信息量
信息量也就是熵,是一个建立在随机型性基础上的概念。
信息论中熵的概念与物理学中热力学熵的概念有着紧密的联系。
玻耳兹曼与吉布斯在统计物理学中对熵做了很多的工作。
信息论中的熵也正是受之启发。
信息量是随机性大小的度量。
信源X是随机,可以认为信源X发出符号1,2,3的概率都是1/3,即可以按公式I(a)=-logp(a)来计算。
但是信源y是一个确定的信源,t=0时刻发1,t=1时刻发2,t=2时刻发3等等,这是有规律可循的,随机性为0,即信源y是确定的,它的信源熵为0,不能提供任何信息,信息量为0。
所以信源x的消息每一个消息符号所含的消息量大于信源y的每个消息符号所含的信息量(信源y的每个消息符号所含的信息量为0)。
信息的度量是信息论研究的基本问题之一。
美国数学家C.E.香农在1948年提出信息熵作为信息量的测度。
根据人们的实践经验,一个事件给予人们的信息量多少,与这一事件发生的概率(可能性)大小有关。
一个小概率事件的发生,如“唐山发生七级以上大地震”使人们感到意外,它给人们的信息量就很多。
因此,用I(A)=-log(A)〔P(A)表示事件A发生的概率〕来度量事件A给出的信息量,称为事件A的自信息量。
若一次试验有M种可能结果(事件),或一个信源可能产生M种消息(事件),它们出现的概率分别为
,则用
来度量一次试验或一个消息所给出的平均信息量。
当对数取2为底时,单位为比特;
当对数取e为底时,单位为奈特。
H的表达式与熵的表达式差一个负号,故称负熵或信息熵。
信息传输模型
信息传输系统主要由信源、信道和信宿组成,下图为信息传输系统的基本模型。
信源是产生消息的系统。
信宿是接受消息的系统,信道则是传输消息的通道。
图中编码器、译码器的作用是把消息变换成便于传输的形式。
信源编码
信源是产生消息(包括消息序列)的源,是为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。
具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。
信源编码的基本目的是提高码字序列中码元的平均信息量,一切旨在减少剩余度而对信源输出符号序列所施行的变换或处理,都可以在这种意义下归入信源编码的范畴,例如过滤、预测、域变换和数据压缩等。
信源编码器将消息变换为一个数字序列(通常为二进制数字序列)。
在离散情形,若信源产生M种可能消息,它们出现的概率分别为
,每个消息由N种信源符号组成,便可取信源编码与数字序列一一对应。
第i种消息对应的数字序列长(数字个数)为Li,Li相等的称等长编码,否则称变长编码。
定义
为编码速率,它表征平均每个信源符号要用多少个数字来表示。
若取信源译码器为信源编码器的逆变换器,则在无噪信道(信源编码器的输出即为信源译码器的输入)情况下,消息可以正确无误地传送。
这时信源编码问题是要找出最小的速率R及其相应的编码。
已经证明,对于相当广泛的信源类,当N可以任意大时这个最小极限速率
,称为信源的熵率,是信源的一个重要参数。
为了有效传播信息,最理想状态即为无失真传输。
在无失真信源编码中又分为定长编码、变长编码机最佳变长编码。
一、定长编码。
在定长编码中,K是定值,编码的目的即为找到最小的K值。
要实现无失真的信源编码,不但要求信源符号与码字是一一对应的,而且还要求有码字组成的码符号序列的逆变换也是唯一的。
由定长编码定理可知,当编码器容许的输出信息率,也就是当每个信源符号必须输出的码长是K=KL/logM。
由定理表明,只要码字所能携带的信息量大于信源序列输出的信息量,则可以使传输几乎无失真,但是条件是L足够大。
这就为传输带来了很大的麻烦,并且实现起来很困难,并且编码效率也不高。
而要达到编码效率接近1的理想编码器虽有存在性,但在实际上时不可能的,因为L非常大,无法实现。
由此而产生了变长编码。
二、变长编码。
在变长编码中,码长K是变化的,可根据信源各个符号的统计特性,对概率大的符号用短码,而对概率小的符号用长码。
这样大量信源符号编成码后,平均每个信源符号所需的输出符号数就可以降低,从而提高编码效率。
用变长编码来达到相当高的编码效率,一般所要求的符号长度L可以比定长编码小得多的多。
很明显,定长码需要的信源序列长,这使得码表很大,且总存在译码差错。
而变长码要求编码效率达到96%时,只需L=2.因此用变长码编码时,L不需要很大就可达到相当高的编码效率,而且可实现无失真编码。
并且随着信源序列长度的增加,编码效率越来越接近于1,编码后的信息传输率R也越来越接近于无噪无损二元对称信道的信道容量C=1bit/二元码符号,达到信源与信道匹配,使信道得到充分利用。
几种不同的变长编码方式如下:
1、香农编码方法。
香农第一定理指出了平均码长与信源之间的关系,同时也指出了可疑通过编码使平均码长达到极限值,这是一个很重要的极限定理。
香农第一定理指出,选择每个码字的长度Ki满足下式:
I(xi)<
Ki<
I(xi)+1
就可以得到这种码。
编码方式如下:
首先将信源消息符号按其出现的概率大笑依次从大到小排列,为了编成唯一可译码,计算第i种消息的累加概率P=∑p(a),并将累加概率Pi变换成二进制数。
最后去Pi二进制数的小数点后Ki位提取出,即为给细心符号的二进制码字。
由此可见香农编码法多余度稍大,实用性不强,但他是依据编码定理而来,因此具有重要的理论意义。
2、费诺编码方法。
费诺编码属于概率编码,但不是最佳的编码方法。
在编N进制码时首先将信源消息符号按其出现的概率依次由小到大排列开来,并将排列好的信源符号按概率值分N大组,使N组的概率之和近似相同,并对各组赋予一个N进制码元“0”、“1”……“N-1”。
之后再针对每一大组内的信源符号做如上的处理,即再分为概率和相同的N组,赋予N进制码元。
如此重复,直至每组只剩下一个心愿符号为止。
此时每个信源符号所对应的码字即为费诺码。
针对同一信源,费诺码要比香农码的平均码长小,消息传输速率大,编码效率高。
3、哈夫曼编码方法。
编码方法:
也是先将信源符号按其出现的概率大小依次排列,并取概率最小的字母分别配以0和1两种码元(先0后1或者先1后0,以后赋值顺序固定),再将这两个概率想家作为一个新字母的概率,与未分配的二进制符号的字母重新排队。
并不断重复这一过程,直到最后两个符号配以0和1为止。
最后从最后一级开始,向前返回得到各个信源符号所对应的码元序列,即为相应的码字。
哈夫曼编码方式得到的码并非唯一的。
在对信源缩减时,两个概率最小的符号合并后的概率与其他信源符号的概率相同时,这两者在缩减信源中的排序将会导致不同码字,但不同的排序将影响码字的长度,一般讲合并的概率放在上面,这样可获得较小的码方差。
哈夫曼码的平均码长最小,消息传输效率最大,编码效率最高。
信道编码
信道是传输信息的媒质或通道,如架空明线、同轴电缆、射频波束、光导纤维等。
有时为研究方便将发送端和接收端的一部分如调制解调器也划归信道。
信息论把信息传送过程中受各种干扰的影响都归入信道中考虑。
根据干扰的统计特性,信道有多种模型。
最简单的是离散无记忆恒参信道,它可以用信道入口符号集X、出口符号集Y和一组条件概率P(y|x)(x∈X,y∈Y)来描述。
若信道输入信号x=(x1,x2,…,xN),则相应的输出(受扰)信号y=(y1,y2,…,yN)出现的概率为
信道编码器将数字序列每K个一组变换为字长N的信号(码字),称为分组编码。
若数字和信道符号都是二进制的(可用0,1表示),则R=K/N定义为编码速率,它表明每个信道符号表示多少个数字。
N-K称为编码冗余度。
信道编码(纠错编码)的基本思想就是增加冗余度以提高可靠性。
更确切地说,信道译码器可以利用编码冗余度将受扰信号变换为正确的发送数字序列。
重复编码乃一简例。
信道编码器将输入数字重复三次,如将01011变换为000111000111111。
信道译码器可用门限译码,即先将输入译码器的信道符号每三个一组地相加,再将结果逐个与阈值2比较,小于阈值2的译为0,否则译为1。
这样若受扰信号010*********虽然错了5个符号,但译码仍为01011与发送数字序列完全相同。
信息论得出的重要结论是:
对于一个有噪信道,只要在信道编码中引入足够而有限的冗余度,或等价地说编码速率足够小,就能通过信道渐近无误地传送消息。
更确切地说,对充分长的数字序列,其接收错误概率可以任意小。
信道编码问题是要找出使信道渐近无误地传输消息所能达到的最大编码速率R和相应的编码。
已经证明,对于离散无记忆恒参信道,这个最大极限编码速率为
它是对X上一切概率分布p取极大值。
p为信道转移概率(条件概率),
。
称为交互信息;
C称为信道容量,是信道的重要参数。
信道编码大致分为两类:
①信道编码定理,从理论上解决理想编码器、译码器的存在性问题,也就是解决信道能传送的最大信息率的可能性和超过这个最大值时的传输问题。
②构造性的编码方法以及这些方法能达到的性能界限。
编码定理的证明,从离散信道发展到连续信道,从无记忆信道到有记忆信道,从单用户信道到多用户信道,从证明差错概率可接近于零到以指数规律逼近于零,正在不断完善。
编码方法,在离散信道中一般用代数码形式,其类型有较大发展,各种界限也不断有人提出,但尚未达到编码定理所启示的限度,尤其是关于多用户信道,更显得不足。
在连续信道中常采用正交函数系来代表消息,这在极限情况下可达到编码定理的限度。
不是所有信道的编码定理都已被证明。
只有无记忆单用户信道和多用户信道中的特殊情况的编码定理已有严格的证明;
其他信道也有一些结果,但尚不完善。
提高数据传输效率,降低误码率是信道编码的任务。
信道编码的本质是增加通信的可靠性。
但信道编码会使有用的信息数据传输减少,信道编码的过程是在原数据码流中加插一些码元,从而达到在接收端进行判错和纠错的目的,这就是我们常常说的开销。
这就好像我们运送一批玻璃杯一样,为了保证运送途中不出现打烂玻璃杯的情况,我们通常都用一些泡沫或海绵等物将玻璃杯包装起来,这种包装使玻璃杯所占的容积变大,原来一部车能装5000个玻璃杯的,包装后就只能装4000个了,显然包装的代价使运送玻璃杯的有效个数减少了。
同样,在带宽固定的信道中,总的传送码率也是固定的,由于信道编码增加了数据量,其结果只能是以降低传送有用信息码率为代价了。
将有用比特数除以总比特数就等于编码效率了,不同的编码方式,其编码效率有所不同。
数字电视中常用的纠错编码,通常采用两次附加纠错码的前向纠错(FEC)编码。
RS编码属于第一个FEC,188字节后附加16字节RS码,构成(204,188)RS码,这也可以称为外编码。
第二个附加纠错码的FEC一般采用卷积编码,又称为内编码。
外编码和内编码结合一起,称之为级联编码。
级联编码后得到的数据流再按规定的调制方式对载频进行调制。
前向纠错码(FEC)的码字是具有一定纠错能力的码型,它在接收端解码后,不仅可以发现错误,而且能够判断错误码元所在的位置,并自动纠错。
这种纠错码信息不需要储存,不需要反馈,实时性好。
所以在广播系统(单向传输系统)都采用这种信道编码方式。
下面是纠错码的各种类型:
1、RS编码
RS编码即里德-所罗门码,它是能够纠正多个错误的纠错码,RS码为(204,188,t=8),其中t是可抗长度字节数,对应的188符号,监督段为16字节(开销字节段)。
实际中实施(255,239,t=8)的RS编码,即在204字节(包括同步字节)前添加51个全0字节,产生RS码后丢弃前面51个空字节,形成截短的(204,188)RS码。
RS的编码效率是:
188/204。
2、卷积码
卷积码非常适用于纠正随机错误,但是,解码算法本身的特性却是:
如果在解码过程中发生错误,解码器可能会导致突发性错误。
为此在卷积码的上部采用RS码块,RS码适用于检测和校正那些由解码器产生的突发性错误。
所以卷积码和RS码结合在一起可以起到相互补偿的作用。
卷积码分为两种:
(1)基本卷积码:
基本卷积码编码效率为,η=1/2,编码效率较低,优点是纠错能力强。
(2)收缩卷积码:
如果传输信道质量较好,为提高编码效率,可以采样收缩截短卷积码。
有编码效率为:
η=1/2、2/3、3/4、5/6、7/8这几种编码效率的收缩卷积码。
编码效率高,一定带宽内可传输的有效比特率增大,但纠错能力越减弱。
3、Turbo码
1993年诞生的Turbo码,单片Turbo码的编码/解码器,运行速率达40Mb/s。
该芯片集成了一个32×
32交织器,其性能和传统的RS码和卷积内码的级联一样好。
所以Turbo码是一种先进的信道编码技术,由于其不需要进行两次编码,所以其编码效率比传统的RS+卷积码要好。
4、交织
在实际应用中,比特差错经常成串发生,这是由于持续时间较长的衰落点会影响到几个连续的比特,而信道编码仅在检测和校正单个差错和不太长的差错串时才最有效(如RS只能纠正8个字节的错误)。
为了纠正这些成串发生的比特差错及一些突发错误,可以运用交织技术来分散这些误差,使长串的比特差错变成短串差错,从而可以用前向码对其纠错,例如:
在DVB-C系统中,RS(204,188)的纠错能力是8个字节,交织深度为12,那么纠可抗长度为8×
12=96个字节的突发错误。
实现交织和解交织一般使用卷积方式。
交织技术对已编码的信号按一定规则重新排列,解交织后突发性错误在时间上被分散,使其类似于独立发生的随机错误,从而前向纠错编码可以有效的进行纠错,前向纠错码加交织的作用可以理解为扩展了前向纠错的可抗长度字节。
纠错能力强的编码一般要求的交织深度相对较低。
纠错能力弱的则要求更深的交织深度。
一般来说,对数据进行传输时,在发端先对数据进行FEC编码,然后再进行交织处理。
收端次序和发端相反,先做去交织处理完成误差分散,再FEC解码实现数据纠错。
另外,从上图可看出,交织不会增加信道的数据码元。
根据信道的情况不同,信道编码方案也有所不同,在DVB-T里由于是无线信道且存在多径干扰和其它的干扰,所以信道很“脏”,为此它的信道编码是:
RS+外交积+卷积码+内交积。
采用了两次交织处理的级联编码,增强其纠错的能力。
RS作为外编码,其编码效率是188/204(又称外码率),卷积码作为内编码,其编码效率有1/2、2/3、3/4、5/6、7/8,信道的总编码效率是两种编码效率的级联叠加。
设信道带宽8MHZ,符号率为6.8966Ms/S,内码率选2/3,16QAM调制,其总传输率是27.586Mbps,有效传输率是27.586*(188/204)*(2/3)=16.948Mbps,如果加上保护间隔的插入所造成的开销,有效码率将更低。
在DVB-C里,由于是有线信道,信道比较“干净”,所以它的信道编码是:
RS+交积。
一般DVB-C的信道物理带宽是8MHZ,在符号率为6.8966Ms/s,调制方式为64QAM的系统,其总传输率是41.379Mbps,由于其编码效率为188/204,所以其有效传输率是41.379*188/204=38.134Mbps。
在DVB-S里,由于它是无线信道,所以它的信道编码是:
RS+交积+卷积码。
也是级联编码。
5、伪随机序列扰码
进行基带信号传输的缺点是其频谱会因数据出现连“1”和连“0”而包含大的低频成分,不适应信道的传输特性,也不利于从中提取出时钟信息。
解决办法之一是采用扰码技术,使信号受到随机化处理,变为伪随机序列,又称为“数据随机化”和“能量扩散”处理。
扰码不但能改善位定时的恢复质量,还可以使信号频谱平滑,帧同步和自适应同步和自适应时域均衡等系统的性能得到改善。
扰码虽然“扰乱”了原有数据的本来规律,但因为是人为的“扰乱”,所以在接收端很容易去加扰,恢复成原数据流。
实现加扰和解码,需要产生伪随机二进制序列(PRBS)再与输入数据逐个比特作运算。
PRBS也称为m序列,这种m序列与TS的数据码流进行模2加运算后,数据流中的“1”和“0”的连续游程都很短,且出现的概率基本相同。
在DVB-C系统中的CA系统原理就源于此,只不过为了加强系统的保密性,其伪随机序列是不断变化的(10秒变一次),这个伪随机序列又叫控制字(CW)。
信息论对现代社会的影响
首先,在理论研究方面,信息论所处的地位已远远超出了当年所界定的“通信的数学理论”的范畴,得到了不断的扩充和发展,出现了语义信息、语法信息与语用信息等研究与信息的意义有关的学科,以及面向智能研究的全信息理论。
第二,在技术应用方面,信息论为现代通信理论和技术的发展做出了不可磨灭的贡献,信息科学与材料科学、能源科学一起已成为现代高新技术领域的三大关键技术,信息产业已是当今社会中发展最快、效益最高、潜力最大、影响最广的最重要的支柱产业之一。
第三,在社会经济领域,21世纪人类社会将全面进入信息时代,智力、技术和信息已成为现代社会经济生活中不可缺少的重要资源。
信息科学的迅速发展和信息高速公路的出现,使先进的技术和信息能够为不同国家和民族所使用,有利于国际性的合作和交往的发展,同时也为市场经济中资源的有效配置和利用提供了良好的社会环境,避免了项目的重复建设和产品的盲目生产。
企业充分利用互联网上的有用信息和在互联网上做广告也为其利润的增加和经济的发展开辟了新的天地。
第四,在思维方式方面,信息高速公路的开通和信息的快速传递将导致思维方式上的不断更新。
互联网的开通大大加快了人们接受新思想、新信息的速度,促进了不同生活方式和思维模式的溶合,使得那些原来遥不可及的事情变得唾手可得,原来不可思议的新事物变得司空见惯,原来不可接受的生活方式、思维模式和文化传统变得争相仿效。
人们每天都能从网络上接受到大量的不同种类、具有不同文化特质和民族风格的信息,通过对不同民族的优良文化传统和独特的思维方式的学习和消化,分析和综合,加快了人们思维方式的变革和更新,促进了新的思维模式的形成,将人们从静态思维转向动态思维,从局域性思维转向全局性思维,从封闭性思维转向开放性思维,从单向性思维转向多向性思维。
有利于全方位、多层次、多渠道地展开思维活动,促进跳跃性、联想性、创造性的思维网络的形成。
所有这些对人类的文明和社会的进步都将起到积极的促进作用。