1、信息论讲义绪论第一章 绪论主要内容: (1)信息论的形成和发展;(2)信息论研究的分类和信息的基本概念;(3)一般通信系统模型;(4)目前信息论的主要研究成果。重 点: 信息的基本概念。难 点: 消息、信号、信息的区别和联系。说 明: 本堂课作为整本书的开篇,要交待清楚课程开设的目的,研究的内容,对学习的要求;在讲解过程中要注意结合一些具体的应用实例,避免空洞地叙述,以此激发同学的学习兴趣,适当地加入课堂提问,加强同学的学习主动性。课时分配: 2个课时。板书及讲解要点:“信息”这个词相信大家不陌生,几乎每时每划都会接触到。不仅在通信、电子行业,其他各个行业也都十分重视信息,所谓进入了“信息时代
2、”。信息不是静止的,它会产生也会消亡,人们需要获取它,并完成它的传输、交换、处理、检测、识别、存储、显示等功能。研究这方面的科学就是信息科学,信息论是信息科学的主要理论基础之一。它研究信息的基本理论(Information theory),主要研究可能性和存在性问题,为具体实现提供理论依据。与之对应的是信息技术(Information Technology),主要研究如何实现、怎样实现的问题。它不仅是现代信息科学大厦的一块重要基石,而且还广泛地渗透到生物学、医学、管理学、经济学等其他各个领域,对社会科学和自然科学的发展都有着深远的影响。11 信息论的形成和发展信息论理论基础的建立,一般来说开始
3、于香农(C.Eshannon)研究通信系统时所发表的论文。随着研究的保深入与发展,信息论具有了较为宽广的内容。信息在早些时期的定义是由奈奎斯持(Nyquist,H)和哈特莱(Hartley,L.V.R)在20世纪20年代提出来的。1924年奈奎斯特解释了信号带宽和信息速率之间的关系;1928年哈特莱最早研究了通信系统传输信息的能力,给出了信息度量方法;1936年阿姆斯特朗(Armstrong)提出了增大带宽可以使抗干扰能力加强。这些工作都给香农很大的影响,他在19411944年对通信和密码进行深入研究,用概率论的方法研究通信系统,揭示了通信系统传递的对象就是信息,并对信息给以科学的定量描述,提
4、出了信息嫡的概念。指出通信系统的中心问题是在噪声下如何有效而可靠地传送信息以及实现这一目标的主要方法是编码等。这一成果于1948年以通信的数学理论(A mathematical theory of communication)为题公开发表。这是一篇关于现代信息论的开创性的权威论文,为信息论的创立作出了独特的贡献。香农因此成为信息论的奠基人。50年代信息论在学术界引起了巨大的反响。1951年美国IRE成立了信息论组,并于1955年正式出版了信息论汇刊。60年代信道编码技术有较大进展,使它成为信息论的又一重要分支。它把代数方法引入到纠错码的研究,使分组码技术发展到了高峰,找到了大量可纠正多个错误的
5、码,而且提出了可实现的译码方法。其次是卷积码和概率译码有了重大突破;提出了序列译码和Viterbi译码方法。信源编码的研究落后于信道编码。香农1959年的文章(Coding theorems for a discrete source with a fidelity criterion)系统地提出了信息率失真理论,它是数据压缩的数学基础,为各种信源编码的研究奠定了基础。到70年代,有关信息论的研究,从点与点问的单用户通信推广到多用户系统的研究。1972年盖弗(Cover)发表了有关广播信道的研究以后陆续有关十多接入信道和广播信道模型的研究,但由于这些问题比较难,到目前为止、多用户信息论研究得不
6、多,还有许多尚待解决的问题。12 信息论研究的分类和基本概念任何一门科学都有它自己的基本概念,理解和掌握这些基本概念是学习这门科学的基础。传统科学的基本概念是物质和能量,而信息论的最基本和最重要的概念就是信息。信息既是信息论的出发点,也是它的归宿。具体地说,信息论的出发点是认识信息的本质和它的运动规律;它的归宿则是利用信息来达到某种具体的目的。什么是信息?当今社会,“信息”一词,在各种场合都被广泛采用,但如同数学中的“集合”一词一样,要给它下一个严格的定义却异常之难。即使是信息论的奠基人香农在其著名论文“通信的数学理论”中,也没有给信息下一个明确的定义。香农论文发表之后,由于其方法新颖,引来许
7、多专家学者对信息进行深入研究,研究中碰到的首要问题就是要给“信息”一词下一个明确的定义。很多学者都给“信息”下过定义,流行的说法不下百种,而且对此还展开了一些重要的哲学争论,到现在为止还没有一个定论。各种说法要么出发点不同,要么所站角度不一样,有些甚至带有较明显的学科倾向,但都在一定层面上对信息概念做了描述。信息:一个既复杂又抽象的概念。广义: 消息、情报、知识把信息的形式、内容等全部包含在内技术术语:计算机处理(通信传输)的对象数据、文字、记录指信息的具体表现形式(不考虑信息的具体内容)科学名词:统计数学、通信技术(用严格的数学公式定义的科学名词,它与内容无关,而且不随信息具体表现形式的变化
8、而变化,因而也独立于形式。)它反映了信息表达形式中统计方面的性质,是一个统计学上的抽象概念。信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。在信息论和通信理论中经常会遇到信息、消息和信号这三个既有联系又有区别的概念:信息是事物运动状态或存在方式的不确定性的描述。香农信息的定义人们从观察得到的数据中获得信息。信息是抽象的意识或知识,它是看不见、摸不到的。人脑的思维活动产生的一种想法,当它仍储存在脑子中的时候它就是一种信息。消息是指包含有信息的语言、文字和图像等。感觉器官所感知我们每天从广播、报纸
9、和电视中获得各种新闻及其他消息。在通信中,消息指担负着传送信息任务的单个符号或符号序列。这些符号包括字母、文字、数字和语言等。消息是具体的,它载荷信息,但它不是物理性的。信号是消息的物理体现。可测量为了在信道上传输消息就必须把消息加载(调制)到具有某种物理特征的信号上去。信号是信息的载荷子或载体,是物理性的。如电(光)信号.在通信系统中,实际传输的是信号,但本质内容的是信息。信息包含在信号之中,信号是信息的载体。通信的结果是消除或部分消除不确定性,从而获得信息。信息的基本概念在于它的不确定性,已确定的事物都不含信息。其特征有:接收者在收到信息之前,对它的内容是不知道的,所以,信息是新知识、新内
10、容;信息是能使认识主体对某一事物的未知性或不确定性减少的有用知识;信息可以产生,也可以消失,同时信息可以被携带、贮存及处理;信息是可以量度的,信息量有多少的差别例气象预报:“甲地晴”比“乙地晴”的不确定性来的小。由此可知某一事物状态出现的概率越小,其不确定性越大,反之,某一事物状态出现的概率接近于1,即预料中肯定会出现的事件,那它的不确定性就接近于零。某一事物状态的不确定性的大小,与该事物可能出现的不同状态数目和各状态出现的概率大小有关。既然不确定性的大小能够度量,可见信息是可以测度的。概率空间: 样本空间:某事物各种可能出现的不同状态。先验概率p(xi):就是选择符号xi作为消息的概率。对x
11、i的不确定性可表示为先验概率p(xi)的倒数的某一函数。自信息: 互信息: 后验概率p(xi|yj):接收端收到消息yj后而发送端发的是xi的概率香农定义的信息概念在现有的各种理解中,是比较深刻的,它有许多优点。它是一个科学的定义,有明确的数学模型和定量计算。它与日常用语中的信息的含意是一致的。例如,设某一事件xi发生的概率等于1,即xi是预料中一定会发生的必然事件,如果事件xi果然发生了,收信者将不会得到任何信息(日常含义),不存在任何不确定性。 因为p(xi) = 1,所以 即自信息等于零。反之如果xi发生的概率很小,一旦xi果然发生了,收信者就会觉得很意外和惊讶,获得的信息量很大。因为p
12、(xi) 1,故得:1 定文排除了对信息一词某些主观上的含意。根据上述定义,同样一个消息对任何一个收信看来说,所得到的信息量(互信息)都是一样的。因此,信息的概念是纯粹的形式化的概念。但是,香农定义的信息有其局限性,存在一些缺陷。首先,这个定义的出发点是假定事物状态可以用一个以经典集合论为基础的概率模型来描述。然而实际存在的某些事物运动状态要寻找一个合适的概率模型往往是非常困难的。对某些情况来讲,是否存在这样一种模型还值得探讨。其次,这个定义和度量没有考虑收信者的主观特性和主观意义,也撇开了信息的具体含意、具体用途、重要程度和引起后果等因素。这就与实际情况不完全一致。信息是信息论研究的主要内容
13、。根据研究内容范围的大小,可对信息论进行分类:狭义信息论:也称经典信息论。主要研究:信息的测度信道容量信源编码信道编码这部分内容是信息论的基础理论,又称香农信息理论。一般信息论主要是研究信息传输和处理问题。除了香农理论以外,还包括噪声理论、信号滤波和预测、统计检测与估计理论、调制理论、信息处理理论以及保密理论等。后一部分内容是以美国科学家维纳为代表。广义信息论它不仅包括上述两方面的内容,而且包括所有与信息有关的自然和社会领域。如模式识别、计算机翻译、心理学、遗传学、神经生理学、语言学、语义学甚至包括社会学中有关信的问题。在本课程中,我们讨论的范围限于一般信息论之内。13 一般通信系统模型各种通
14、信系统如电报、电话、电视、广播、遥测、遥控、雷达和导航等,虽然它们的形式和用途各不相同,但本质是相同的。都是信息的传输系统。图11示的模型可解释各种通信系统中的一些共性问题,对这些共性问题进行总结分析,会得到一些重要的基本概念。通常,实际的信息传输系统中,事知给定的是图中橙色框出的部分,即发出信息的信源,接收信息的信宿和传递信息的物理媒质信道,其余中间环节都是由人来设计的。信息传输性能的好坏,很大程度取决于这些中间环节设计的优劣。1、信源、信宿和信道信源是发送消息的源,根据其输出的性质,有离散信源和模拟信源之分。离教信源输出离散的符号或数字消息序列,如电报机输出在时间上离散的符号序列;模拟信源
15、输出连续波形信号,如麦克风输出连续语音信号。信源是信息论的主要研究对象之一,但在信息论中并不探讨信源的内结构和物理机理,而把注意力放在信源的输出上,重点讨论信源输出的描述方法及性质。在认识主体看来信源的输出都是随机的(具有不确定性),同此,可将信源输出的消息视为某个随机实验的输出或某个随机变量的取值,因此,可用随机数学方法予以处理。另外,从等效的观点来看,图中每一个环节的输出都可视为一个等效信源的输出。信源的数学模型、不确定性测度以及信息度量。将在第二章介绍。信宿取的是信息归宿之意,亦即收信者或用户,是信息传送的终点或目的地。传输信息的物理媒介通常称为物理信道,如空气、双绞线、同轴电缆等。物理
16、信道的输入信号是S(t),输出信号是R(t)。R(t)通常是S(t)的不完全复现。之所以不完全,是因为存在随机干扰信号,即噪声N(t),对于加性噪声,有R(t)= S(t)+ N(t)。各种物理信道都有其固有的通过频带。为了使载荷信息的信号频谱结构与信道的通过频带相匹配,在信号送入物理信道之前,必须对信号进行调制,即进行信号频谱迁移,这就是调制器的作用;当信号传送到信道输出端时,对信号进行解调,将信号复原。调制与解调技术,是“通信原理”课程重点讨论的内容之一。在本课程中,我们不专门讨论调制与解调技术,而是将两者与物理信道合并到一起作为一个等效信道来处理。其实,图1中任一输入至任一输出之间的通道
17、,都可看作是一个等效信道,信息论中研究的信道都是等效信道,所关心的问题是:在噪声干扰下,信道输入至输出之间的状态转移关系。研究信道时,噪声是我们关注的重点。噪声的来源很复杂,主要有以下几种情况:电路中由于元器件发热而产生的热噪声;电子和光子设备中的发射噪声;来源于地球、太阳以及其他宇宙体的电磁辐射。实际上,图1中每个环节都存在噪声干扰,我们将全部噪声集中等效成一个加在信道上的噪声N(t),这样做主要是为了分析方便。第三章将讨论信道的数学模型,以及信道容量的概念和计算方注。2、信源编码器与译码器前面说过,信息传输系统中,通常给定的是信源、物理信道以及信宿,其余环节都是为保证有效通信而人为加入的。
18、日常生活中进行信息传输时,有时不需要这些中间环节。如两人当面讲话,甲说乙听,甲是信源,乙是住宿,空气则是信道;甲发出的声波,直接通过空气传到乙,中间环节全无。若两人相隔很远,甲费尽全力喊话,由于声波在空气中传播,声波会逐渐衰减,所以乙还是听不见。这种情况下,必须借用别的通信手段,其中电通信是较好的选择之一。要进行电通信,首先要把实际信源发出的非电信号,如声音、图像、文字等,转换成电信号,这个过程称为换能。换能的方法和技术,是“检测与转换”研究的内容,我们这里研究的信源,都是经过换能之后的等效信源,即图l中信源的输出已经是电信号。以离散的情况为例,信源发出一个离散符号序列x =(x1x1xL)。
19、该序列携带一定量的信息,这些信息分散在各个符号xi之中。从信息传输的角度看,总是希望信息传输的效率尽量高,即希望以最小的代价(如最短的时间、最小的能量等)传递尽可能多的信息。如果传送一个序列符号所耗时间是固定的,那就希望各个符号所携带的信息尽量多,理想情况下,希望各个符号携带的信息同样多,并达到最大。但实际信源未必如此。一般,信源发出的符号序列中,各符号携带信息的多少相差很大,即信息分布不均匀,因此有必要对这个符号序列加以变换,使得变换之后的序列信息分布均匀化,这种变换称为信源编码。信源编码器所输出序列,其信息分布大致均匀,且接近最大。因此,编码之后的序列较“紧凑”,而编码之前的序列较“松散”
20、(有信息的冗余),这种由“松散”变为“紧凑”的过程也称数据压缩。总之,信源编码的实质就是为了去掉信源中的信息冗余。对于自然性质较好的离散信源,如我们今后要重点研究的离散无记忆信源,可以做到无失真编码。离散信源无失真编码的理论与方法,是第五章讨论的主题。有些信源,不可能做到无失真编码。例如,为了进行数字通信,必须对模拟信源的输出进行采样,将其变为离散序列。这样,量化误差就不可避免了,即存在编码失真。允许一定失真的编码,称为限失真编码,其理论将在第四章讨论。信源泽码是信源编码的逆过程,如果把信源编码视为变换或映射T1,信源泽码通常就是T1的简单求逆,即T1-1。3、信道编码器与译码器信道编码也可以
21、看作是一种变换T2,主要作用是提高信息传送的可靠性。因为有噪声干扰,等效离散信道在传送某个信息位(或序列)时,总有出错的可能。比如说,信道的输入为“0”,但在输出端收到的可能是“1”。为了减小这种传送出错的可能性,最简中的办法是将这个“0”重复传送多次,如重复传送3次,即先将“0”变成“000”,再送入信道传送。把“0”变成“000”是由信道编码器来完成的。“000”中的第一个“0”是载荷信息的,称为信息位;后两位是为提高传送可靠性而加入的,不载荷信息,称为(信息)冗余位。信道编码通常是在信息序列中有目的地加入冗余,从而使其变“长”,这与信源编码的做法刚好相反。由于噪声干扰,传送“000”或“
22、111”时某些位可能出错,信道可能输出的是“000,001,111”,要将其恢复成“0”或“1”,需要进行信道译码变换T2-1。显然,T2-1不是T2的简单反变换。信道译码规则要根据信道的噪声特性而定,通常不是一变换,而是多一变换。此问题比信源译码复杂得多,需专门讨论。信道编码与译码的有关问题,将在第六章讨论。信息论研究的内容归纳起来,信息论研究的内容,大致包括以下几个方面。1、通信的统计理论研究主要研究利用统计数学工具分析信息和信息传输的统计规律。其具体内容有:信息的测度;信息速率与熵;信道传输能力信道容量。2、信源的统计特性文字(如汉字)、字母(如英文)的统计特性;语音的参数分析和统计特件
23、;图片及活动图像(电视)的统计特性;其他信源的统计特性。3、编码理论与技术的研究有效性编码:提高信息传输的有效率,主要针对信源的统计特性进行编码,也称信源编码。抗干扰编码:提高信息传输的可靠性,主要针对信道统的计特性进行编码;也称信道编码。4、提高信息传输效率的研究功率的节约;频带的压缩;传输时间的缩短,即快速传输问题。5、抗干扰理论与技术的研究各种调制制式的抗干扰性;理想接收机的实现6、噪声中信号检测理论与技术的研究信号检测的最佳准则;信号最佳检测的实现。14 目前信息论的主要研究成果1、语音信号压缩语音信号一直是通信网中传输的主要对象。自从通信网数字化以来,降低语音信号的编码速率就成为通信
24、中的一个重要问题。根据信息理论的分析,语音信号所需的编码速率可以远远低于仅按奈奎斯特采样定理和量化噪声分析所决定的编码速率。几十年来的研究工作已在这方面取得巨大的进展:长途电话网标准的语音编码速率已从1972年原CCITT G.711标准中的 64kbit/s,降低到 1995年原 CCITT G. 723.1标准中的 6.3 kbit/s。在移动通信中,1989年欧洲GSM标准中的语音编码速率为13.2 kbit/s,1994年在为半码速GSM研究的VSELP编码算法中,码速率为5.6 kbit/s,IS-96是美国高通公司为CDMA移动通信研制的一种CELP编码,具有4种码速率。对语音音质
25、要求较低的军用通信,美国NSA标准的速率在1975年时已达到2.4 kbit/s。目前,在实验室中已实现600bit/s的低速率语音编码,特别是按音素识别与合成原理构造的声码器其速率可低于100bit/s,已接近信息论指出的极限。2、图像信号压缩图像信号的信息量特别巨大,这对图像信号的传输及存储都带来极大的不便。经过多年的研究,到20世纪80年代,图像信号压缩逐步进入建立标准的阶段。1989年 CCITT提出电视电话/会议电视的压缩标准H.261,其压缩比达到25:1到48:1左右。1991年CCITT与ISO联合提出的“多灰度静止图像压缩编码”标准JPEG,其压缩比为24:1。在运动图像方面
26、,运动图像专家组(MPEG)继成功定义了MPEG-1和MPEG-2之后,于1993年7月开始制订全新的MPEG-4标准,并分别于1999年初和2000年初正式公布了版本1和版本2。到2001年10月,MPEG-4定义了19个视党觉(Visual Profile),其中新定义的简单演播室类和核心演播室类使MPEG-4 对MPEG-2类别保留了一些形式上的兼容,其码率可高达2Gbit/s。随着MPEG-4标准的不断扩展它不但能支持码率低于64kbit/s的多媒体通信,也能支持广播级的视频。3、计算机文件的压缩由于数据库的广泛应用,存储计算机文件所需的存储量问题日益突出。在过去的二十多年中对计算机文
27、件的压缩已发展了至少二十余种不同的算法。目前,各种压缩其法已在计算机中得到广泛的应用。4、模拟话路中数据传输速率的提高50年代初计算机开始在美国联网,当时模拟话路是几乎唯一可用的信道。最早的调制解调器,其速率只有300 bit/s。信息论标称带宽4 kHz,信噪比25 dB的话路信道的极限速率应在25 k bit/s 在以后的三十多年中就开始了提高速率的长期的、极其成功的工作。 67年:速率为4800 bit/s ;71年:9600 bit/s;80年:开始进入14.4kbit/s85年:利用多维网格编码调制,速率达到19.2 kbit/s ,非常接近于理论极限5、降低信息传输所需的功率在远距
28、离无线通信,特别是深空通信中如何降低信息传输所需的功率至关重要。因为在这种情况下发送设备的功率和天线的尺寸都已成为设备生产和使用中的一个困难问题。正是在这个领域信息论获得了它第一批令人信服的成果。60年代后期起,NASA发射的所有深空探测器无一例外地在其通信设备中采取了信道编码措施。根据信息理论的分析,采用低码率的信道编码可以降低传送单位比特所需的能量Eb与噪声功率谱密度N0之比。现在利用不太复杂的信道编码就可以使同样误码率下所需的EbN0比不采用信道编码时低 6 dB左右。其中一些好的方案(如用RS码作为外码、卷积码作为内码的方案)可以使误码率在10-5的情况下所需的EbN0降到0.2 dB
29、,比不用信道编码时所需的10.5dB降低了近10dB。6、计算机网中数据传输可靠性的保证随着计算机技术的发展,计算机设备的布局变得愈来愈分散,各种终端及外围设备离主机也越来越远,这就产生了计算机网。近年来,由于计算机网还与分布式计算机系统相联系,因而变得更为重要。在用各种电缆连接而成的计算机网中电噪声和各种外界的电磁干扰是必须考虑的,因为它使传输的信息发生差错。一般情况下,局域网中的差错率在10-8左右,广域网中的差错率在10-310-5。这样高的差错率在实际应用中是无法接受的,目前普遍采用的解决办法是带自动重发请求的差错检测码。差错检测的方法从最简单的奇偶检验到比较复杂的循环冗余检验都被采用
30、,但规模较大的网一般都用循环冗余检验,这种方法已被各种网络通信协议采用并成为标准。例如ISO制定的高级数据链路协议(HDLC)就采用原 CCITT V.41的 CRC码进行循环冗余检验,HDLC在全世出已被广泛采用,这一标准有很广的应用领域,许多协议都是从它派生出来的。7、图像信号的复原与重建图像信号的复原与重建是图像信号处理的一个重要内容,在实用中有很大的价值。20世纪 80年代以来,最大熵方法在图像复原与重建中取得了很大的成功。在退化图像复原中,图像退化的原因是多种多样的,如由于景物的运动、光学系统的不理想、噪声等等。图像重构的形式也很多,如计算机层析图像、结晶学研究中用的光学干涉仪或无线
31、电干涉仪的图像、核磁共振波谱仪图像等。在这些应用中最大熵方法较其他方法优越的主要原因是其合理性,即所得结果是我们可以而且能够期望的最好结果。同时也有一些派生的好处,如在盲解卷时同时给出卷积函数,在重建图像中可以同时对仪器中的某些参数进行校正等等。虽然最大熵方法在这些应用中目前还不能给出性能的解析表达式,但算法已比较成熟,如常用的剑桥算法等。8、模式识别问题与树分类器的设计模式识别是一个在很多学科中都遇到的问题,具有相当普遍的意义。按照这一概念,相同类别的模式在空间中有较短的距离,但什么是距离一直是一个令人困惑的问题。从统计分类以及统计信息的观点来看,熵、鉴别信息(交叉熵)与互信息是各种不同情况下可以选用的比较合理的距离量度。20世纪80年代以来,这一观点在模式分类中得到广泛承认并有重要的应用。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1