信息性质在天气预告中的某些应用张学文Word下载.docx
《信息性质在天气预告中的某些应用张学文Word下载.docx》由会员分享,可在线阅读,更多相关《信息性质在天气预告中的某些应用张学文Word下载.docx(22页珍藏版)》请在冰豆网上搜索。
可以看到这些原理在气象统计上应用的严格性,比起动力学中地转风原则,甚至静力方程的严格性都有过之而无不及。
实际上它是能量不灭定律在动力学中的严格性相对应的。
上一章我们主要用“熵”这一把尺子对一些气象要素和要素场所荷带的信息的多少以及作为预告任务的大小粗略地计算了一下。
在这一章则侧重讨论一些概念和原理在气象预告中的应用。
1、用信息量度量天气预告质量的优劣
各种气象预告,其中心任务就是提供若干信息,用以消除人们对未来时段某种天气的不确知的程度。
不确知程度大,则熵大。
说明预告任务大。
而某种气象预告若是提供的信息多,则说明它消除的疑惑多,它提供的知识多,它的预告准确率要高一些。
如果一种天气预告它提供的信息量与天气预告的任务熵相等,那就说明它带来的信息消除了全部疑惑。
这是一朝完全准确的天气预告。
如果它提供的信息量小于预告任务熵,则这个预告不是每次都准,但它还是报准了不少次。
如果它提供的信息为零,则说明它与未来天气无关。
这种天气预告一文不值。
各种预告方法作的气象预告的优劣,长、中、短期不同预告单位发布的气象预告的优劣都可以,也都应该在这种几乎是绝对的标尺上衡量一下。
如若有某种预告方法,有某一预告时效或有某一预告单位,其预告信息量与零没有明显差别,那么至少应当在预告质量有了改进以后再从事公开的日常预告工作。
天气预告评分办法本来是个很复杂的问题。
方法也很多[9,25,26]。
这些不在此多讨论。
一般的评分中常难以排除各地各季气候差别对预告质量优劣的影响、以及人为规定的某些公式、算法对预告质量优劣的影响,但用信息量来评定预告质量不仅不受气候概率的影响,它也几乎不要作任何人为的规定(公式、算法)。
即它是不受主观因素和气候因素影响的单纯的预告质量优劣的测度方法。
不同预告时效的一般预告质量评分办法常不相同,因而无从对比不同时效的预告质量。
但用信息评分则完全可以不究评分细节而直接对比不同时效的预告信息量的变化。
不同省区或不同国家的评分办法不同,预告质量难以对比,但只要都用信息来衡量预告质量则可以不究评分细节直接对比不同省区或不同国家的预告质量。
信息论问世不足十年,就有人于1955年把信息评分引入气象上[9]。
1957年我国也有类似工作[19]。
如果以X表示预告对象(如气温),以Y表示预告值。
对于很多次预告来说X,Y都是随机变量。
这样Y提供的关于X的信息IY(X)即为(1.41)式
IY(X)=H(X)-H(X|Y)(1.41)
在现今的场合下H(X)就是天气预告任务的熵值。
H(X|Y)是在天气预告已知的条件下X的熵。
如H(X|Y)为零则表示已知天气预告后X值即完全确知,这时Y提供的信息即为H(X)。
即它是一种完全准确的预告。
由于计算信息就要知道概率分布,而没有足够多的样本个数不能很好地估计概率。
所以这种信息评分需要多次预告结果才好统计估算信息量。
如某地有雨占20%,某预告方法预告了1000次,成功与失败情况列于表3.1中。
现试计算此预告方法提供多少信息。
表3.1预告成败次数
预告
有雨(y1)
无雨(y2)
合计
实
况
有雨(x1)
100次
200次
无雨(x2)
50次
750次
800次
150次
850次
1000次
依(1.9)式先求H(X)
依条件熵公式(1.32)求H(X|Y)
H(X)=-p(x1)logp(x1)-p(x2)logp(x2)
H(X)=-0.2log0.2-0.8log0.8=0.72比特
H(X|Y)=0.58比特
代入(1.41)式即得预告提供的信息IY(X)为
IY(X)=0.72-0.58
IY(X)=0.14比特
即这种预告仅解决全部预告任务0.72中的0.14。
有时为了表示解决全部问题的相对多少用一个相对信息比R,即有
显然R介于0—1之间。
上例中的为19%。
即它近于解决了1/5的预告问题。
如有人自作聪明,他知道当地无雨情况占80%,他每次都预告无雨,那么在1000次预告中可以有800次正确。
即有80%的预告是正确的。
我们应当如何评价他的预告质量呢?
现我们就计算一下他的预告信息量。
表3.2是他的预告成败表。
仿前面的方法可以算得
H(X)=0.72比特
0次
由于
p(x1,y1)=p(x2,y1)=0
故条件熵公式中仅有两项,即
故信息IY(X)有
IY(X)=0.72-0.72=0
即信息为零。
这说明从表面上看,他有80%的场合是报对了,但他提供给我们的信息却是零。
确实,由于他本来没有任何预告技术。
把他的成败用信息表示为零比用准确率表示为80%显然要科学。
其他离散变量的预告信息量的计算不难仿此进行,这里不再重叙。
连续变量的预告信息量也是用(1.41)式计算。
只是熵和条件熵的算法有些差别。
现在以某气象台的最低气温预告为例说明之。
从历史资料的分析中可以事先算得无条件熵H(X)。
对气温来说,这一般可以假设其分布为正态然后根据标准差的值从附表3查出。
我们算得标准差为3.7℃时查得H(X)=3.9比特。
对春季184次的实际预告值与实况值的偏差(设此偏差的平均值为零)求标准差得其值为2.6℃。
实际上它就是Y已知时X的条件标准差,也设Y已知时的X服从正态分布,即也依附表3查得H(X|Y)=3.4比特。
代入(1.41)式求得IY(X)=0.5,即此气象台发布的最低气温预告中平均含有0.5比特的信息量。
完全预告准确要3.9比特,故信息比为0.5/3.9=13%。
这说明大家认为比较容易报准的气温预告,现在的实际水平仅只解决了全部预告问题的1/8左右。
要知道报准正负距平符号相当于有1比特的预告本领,而现今对预告时效约为18小时的气温,我们的本领仅是0.5比特左右水平。
连续变量的预告信息量只要知道它的概率分布,看来并不难求。
我们这里是设其分布为正态,算起来更方便。
由于实际上近于正态和无条件熵与条件熵都用于正态分布(有相互抵消系统误差的作用),我们估计这些计算的精度是够用的。
前面举的晴雨预告的例子中预告准确率为85%,而信息仅为0.14比特,后面的实际例子中相当于有64%的情况气温预告值与实况偏差在2.5℃之内,而信息仅为0.5比特。
这都说明用信息这把尺子度量现今的短期预告水平,还是相当低的。
由于用信息来衡量预告质量是一个科学的严格办法,今后讨论预告因子是否有用,讨论预告限度等问题时我们都以其信息是否大于零为准。
前面强调了预告质量之优劣应当用信息来衡量才科学、但由于准确率的概念很直观又常用,现在来分析它们间的一种关系。
设有预告因子Y和预告对象X。
我们把Y和X分别分成n,m个可辨状态y1,y2…,yn;
x1,x2…,xm时即可作离散变量处理它。
由于Y与X有一定关系,依某种预告方法作预告就可以得到一定的预告准确率。
现规定只有预告为xj实况恰为xj时为预告正确,否则为预告错了。
设以ei表示Y为yi时报错了的概率,那么把ei依yi的出现概率取加权平均,显然即得报错了的概率E。
即应有
(3.3)
不难推出,用这样定义的预告,错了的概率恰与出现了yj而未预告xj(j=1,2,…m)这种事件出现的概率是相等的。
E是报错的概率,那么自然预告准确率Q应当是
Q=1-E(3.4)
为研究信息量与准确率的关系,先研究当Y已知时X的条件熵H(X|Y)和E之间的关系。
我们把事件分成两类:
一类是出现了yi报对了预告对象xj,我们这时记为xij;
一类是出现了yi但没有报对预告对象。
这时x可能出现除xj以外的m-1个状态。
例如出现yi时报了有小雨(xj),但实况则出现了晴、阴、中雨、大雨或暴雨。
即报对的仅一个状态,报错的有m-1个状态。
如求已知Y为yi时X的条件熵,则可根据(1.13)式写成报对与否的熵和报错成不同结局的熵的加权和。
即有
(3.5)
式中第一、二项分别为报对、错的熵,第三项是错报成m-1个x状态的熵的和(求和手续是对xj状态以外的m-1个状态取的)。
如果现在再加一个条件即报错时各xk的出现概率相等,这对应前面说的报了小雨、但在报错的情况下,实况为晴、阴、中雨、大雨和暴雨的出现概率相等,则由于共有m-1个状态,故在等概率时第三项最后的括号中应为log(m-1)。
因为离散场合在等概率条件下熵最大故我们有
故对(3.5)式就有
(3.6)
这是Y=yi时X的条件熵,把它依各yi出现的概率取加权平均即得Y已知时X的条件熵H(X|Y)
(3.7)
依定义显然有
(3.8)
注意到对E的定义,再利用-xlogx这一凸函数的性质(参看[4]附录中的定理4)即可得出
或
(3.9)
这个式子联系了预告准确率Q和条件熵的关系。
说明条件熵不大于(3.9)式右侧的值。
它提供的信息IY(X)依(1.41)式应为
(3.10)
如X是等概率地分成m个状态,则H(X)达到极大值,即logm。
这时上式化为
(3.11)
这表示预告准确率为Q时,它提供的信息至少有上式右侧那么多。
如在报错时各x不是等概率出现的,则信息含量还要更大一些。
上式中信息量是m和Q的函数。
为了便于理解和应用,对m≤10的情况我们算出信息量与准确率的关系,绘于图3.1中。
它是在上式取等号时算得的。
它表示在这种准确率之下,至少带来这么多信息。
图3.1准确率(Q)与预告信息量(I)的关系
图上有一部分曲线没有画出来(即预告准确率下降下信息随之降到零以后Q再减小则信息反而增加的这一段曲线)。
在m=2时这一问题最突出。
此时事物被等概率地分成两种状态。
因而毫无预告技术的胡猜,可以报准50%。
此时信息为零。
故这种准确率为50%的预告实际是一文不值的。
但反过来说,如要求有80%,90%或100%报错了却反而成了一件难事。
没有预告本领实际无法使每次预告都错。
这在公式与全部曲线上的反映就是Q=0和Q=1时含有同样的信息。
如果一个人作预告仅有晴雨两种状态。
并肯定每次都报错,那么你使用他的预告时只要把晴理解为雨,把雨理解为晴,则就是一个完全准确的预告。
这时他提供的信息是1比特,仅只是表达方式不好,使Q=0。
当预告对象被等概率地划分成的个数m加大时,纯属胡猜的预告愈易报错。
Q=0时的I也随之愈小。
由于实际预告中不会人为的作这种蠢事,故这一部分曲线图上没有绘出。
从图上看,如某地晴雨各半(m=2)而能报准75%时,其预告中含有的信息仅0.2比特。
可见信息之贵重。
对一般使用者来说如给他的预告准确率太低,经如低于60%,则几乎无法应用。
此时这一簇曲线启示我们可以在预告本领(I)不变的情况下,用使预告语言粗糙化即减少m值的办法来相对地提高预告准确率。
如预告信息量仅为0.3比特,m=7,时预告准确率仅有40%;
但如把预告对象仅分成两个状态,则可使准确率提高到80%。
以上分析的仅是准确率与信息量关系中的一个特定情况。
它要求报错时在m-1个状态中那个实况的出现概率都相等,还要求预告对象被等概率地分成m个状态。
所以它不是适用于一切场合的关系。
不过我们从这里对Q与I的联系可以有一个较深入、直观的了解。
气象预告中时常遇到有众多个预告因子Y1,Y2…,Yn与某预告对象X有关。
现就来分析n个预告因子一共带来多少关于预告对象的信息IY(X)。
这里以矢量Y表示分量为Y1,Y2…,Yn的n个预告因子。
由于这个问题如果没有进一步的约束条件就得不出具体一些的结果,现讨论在如下两个约束条件下Y提供的总信息贡献问题。
1)设X与Y1,Y2…,Yn的联合概率密度分布服从正态分布。
2)设X与各个Y以及各个Y彼此之间的单相关系数都等于r,并且r大于零小于1。
这样我们可以直接利用(1.52)式计算Y1,Y2…,Yn提供的关于X的总信息。
在第一章已经介绍过,对变量进行一一对应的单值函数变换并不改变它提供的信息。
现在我们对X和各个Y都分别做一次线性变换,即俗称的标准化工作,以使每个变量的方差皆等于1(用方差除变量即可)。
这样对应于(1.52)式的相关矩阵就简化成
(3.12)
它是n+1阶的方阵,主对线元素全部为1,余下的诸元素都是r。
而(1.52)式中的|KXX|
(3.13)
这个行列式是n阶的。
将以上的(3.12)和(3.13)式代入(1.52)式,经计算(见附录)得
(3.14)
这就是n个预告因子Y1,Y2…,Yn(或Y)当它们与预告对象X以及它们彼此之间的单相关系数都为r时,而且它们的联合分布正态时各预告因子总共提供的关于X的信息公式。
要注意的是相关系数要满足-1<nr<n这个不等式。
它表明r为正值时对r没有进一步的限制。
但r为负值时它必需大于-1/n
在n=1时,表示仅有一个预告因子。
这时(3.14)式退化为
(1.49)
这就是(1.49)式。
当预告因子充分多时我们可在(3.14)式中令n→∞。
利用求极限手续可得
(3.15)
以上或者要求r>
此式告诉我们预告因子无限增多时,它们提供的关于X的信息(在前面的两个假充条件下)并不是无限多,而是一个有限值。
(3.14)式表明信息是预告因子个数n和单相关系数r的二元函数。
现以n取不同值为参数,将此函数绘于图3.2中(r>0部分)。
从图中可以看到,随着相关系数r的加大,信息量加大。
随着预告因子个数n的增多信息也加大。
例如为得到1比特信息,当用一个预告因子时,就要求相关系数r=0.87,当用10个预告因子时要求r=0.79。
而气象上要找到r=0.7-0.8的预告因子都不太容易。
当信息为2比特时,r值要大于0.9才有可能。
而我们在第二章曾计算出来为报准以℃为单位的气温,就需要3-4比特的信息才行。
图3.2正态相关的预告因子个数(n),单相系数(r)与预告信息量(I)的关系
由于电子数字计算机的广泛应用,人们有时设计一些程序,让机器代替人工,大量地挑选预告因子。
有时预告因子多达上百个、上千个。
这里有这样一种认识,即预告因子愈多,提供的信息量愈多。
但是在我们的模式中从公式(3.14)和(3.15)看,既便预告因子无限加多它提供的信息并不无限加多。
而是趋于一个有限值。
从图3.2看十几个预告因子提供的信息几乎与无限多个预告因子提供的信息相差无几。
即有上十个预告因子作预告指标与选上百个预告因子作预告指标并无多差别。
这一结论与近年的统计预告实践经验是吻合的。
现仍设预告因子Y1,Y2…,Yn与预告对象X遵守联合正态分布,但把上一节的等相关改成各预告因子之间互不相关,来分析一下它们提供了多少关于X的信息。
现在仍利用(1.52)式,并同样把每一变量都标准化以后我们类似地有
(3.16)
(3.17)
式中r1,r2…,rn分别代表Y1,Y2…,Yn与X的单相关系数。
将以上诸式代入(1.52)可算得
(3.18)
在n=1时此式也简化成(1.49)式。
这个关系式中要求各预告因子之间互不相关,对于一般与预告对象有关的因子要作到这一噗是不大可能的。
但是在数学上我们知道对n个彼此相关的变量只要经过线性变换[5],即可变成另外n个互相不相关的变量,从而可以对新变量应用(3.18)式。
同时在概率论中还告诉我们如变量遵守正态分布,那么经受线性变换后的互不相关的新变量仍然遵守正态分布[5]。
所以作这种变换后,没有超出我们的假设条件。
这个模型中各变量Y1,Y2…,Yn与X的相关系数不必相等,这是它比前一个模型的优点。
此外,只要确实有足够多互不相关的预告因子而它们又都与X有关,则
就可以与1充分接近,这样就可以提供非常多的信息。
这里指示我们尽量找那些彼此之间互不相关,但又与预告对象有关的预告因子对提供信息最有好外。
这应当成为我们找预告指标时的一个指导原则。
在我们寻找预告指标时还往往有这样一种指导思想:
如果找到的预告因子与预告对象关系并不好,那么就找一找它与其他因子配合起来使用时,是否会有所改进。
例如文献[25]中就有这种提法。
我们不妨在这个“正态、互不相关”的模型中对此问题作初步讨论。
在(3.18)式中看到任意一个与其他预告因子互不相关的预告因子(或作了数学变换后达到这种要求),如果它真能提供一些信息那就要求相关系数不为零。
反之如果有很多与预告对象的相关系数为零的预告因子,那它们的个数再多
仍为零。
即提供不了任何信息。
这就是我们掷掉这种预告因子损失不了信息,而拿来这种因子再做文章反而浪费人力而不会有收益。
(3.18)工也告诉我们任一预告因子如对某预告对象有预告能力,则相关系数不为零。
所以我们可以非常简单地进行单因子调查。
如它与预告对象的相关系数不为零则是有用的。
如r=0则无用,而且不必进行进一步的数学处理了。
就我们目前工作来看,一则对各个单独的预告因子的预告能力这一简单又重要的调查缺少系统性工作,而另一方面(十分可能)我们在一些本来没有预告能力的预告因子如何组合起来应用才好的问题上下了不少功夫。
从信息角度看后一个问题本来没有“解”,这就使我们在本来无解的问题上浪费了力量,而在有解的问题上反而下的功夫不够。
随着人们对各种天气预告方法的试用,如何综合各种天气预告方法的问题也突出出来了。
如有三种预告准确率为70%的预告方法,现综合应用效果如何?
这个问题不好回答。
因为三个准确率之间有着什么关系,如何综合等问题都不清楚。
近年提出了把预告方法按概率进行多元回归的所谓“预选集成”方法,但这仅是一个处理办法,不是一个理论结果。
我们在寻找预告方法中出现的另一个遗憾情况是经常找到(发明)一些预告方法,它对历史资料的拟合不错(本来从数学上讲拟合一段数据的数学方法有无限多),然而随着实用的次数的加多,预告失败的情况也加多。
以致最后报废。
过一阵又是一个预告方法出世,再重复这种过程。
当然作为科学实践是允许失败的。
但我们总希望经过努力能够对报准天气有些(那怕是很小)积极的贡献。
不希望这种所谓猴子搬包谷式的循环。
从信息角度能否使我们的进步过程表示清楚一些呢?
!
我们看到(1.48)式可以帮助我们分析这个问题。
因为它从理论上回答了多个预告因子提供的信息或条件信息的可加性问题(1.48)式为
(1.48)
它用信息的语言说明了n个预告因子Y1,Y2…,Yn提供的关于预告对象X的信息,为各预告因子提供的信息或条件信息之和。
这是用准确率之类的方式无法表达清楚的关系。
一旦这些信息和等于原预告问题的熵,则预告任务就全部解决。
这个公式也等于给了一个逐步前进的模型。
当只有一个预告因子时,我们可以求它提供的信息IY1(X)。
这时预告任务H(X)就解决了一部分。
余下的预告任务即为H(X|Y1)。
当另一预告因子Y2也提供信息之后,熵又从H(X|Y1)减小到H(X|Y1,Y2)。
如此而以H(X|Y1,Y2…,Yn)=0为目标。
这里预告本领的积累进程与信息增加的进程以及熵值减少的进程是一致的。
这好像是一个个的预告因子蚕食着预告任务。
这里我们看到把预告问题的提法从信息角度分析,那么那种一个个预告方法轮换地使用与报废的局面就可以结束。
而每一个预告因子在解决预告问题中的地位,都可以一个个定量地肯定下来。
它不会被你研究新的预告因子所取代,它永远在解决这个问题上占有一定地位。
这就为我们解决预告问题找到一个一步步前进的定量标尺。
气象预告以致地震、水文预告等的制作过程是千差万别的。
现在我们则从统计角度从信息角度对它们的共同特性作些分析。
这千差万别的制作预告过程中都涉及预告依据、预告方法、预告结论这三个环节。
为核实预告结论是否正确还要把它与预告对象的实况作对比。
由于预告依据(气象上称预告因子)预告结论和预告对象在不同场合有不同的取值,而且都有固定的概率分布,因而这三者实际上都是随机变量或随机矢量、随机场。
所以我们可以从统计学角度以及信息角度研究它们。
现在我们显然可以用符号表示之,例如对预告对象以X表示之、对预告因子以Y表示之、对预告结论以Z表示之。
致于预告方法,它并不是什么变量,每次预告过程它都是那个样子。
而它的作用就是使预告因子Y经过一番变换变成预告结论Z。
至此我们就用简练的语言对千差万别的预告过程作了综合。
现在进而利用第一章中介绍的信息在变换中的保守性,得出预告过程中信息的约制关系。
在第一章第八节已经讲明当Z与Y是一一对应的可逆的函数关系时,Z中含有关于X的信息IZ(X)恰好与Y中含有的关于X的信息IY(X)相等。
对预告过程而言,上述论断是说如果预告结论Z是经过某可逆的预告方法从预告因子Y变换而来的,那么预告结论Z中含有的关于预告对象X的信息恰好与预告因子Y中含有的关于预告对象的信息相等。
第一章第八节还讲明当变换是不可逆的时候,则IZ(X)<IY(X),即变换中要损失信息。
将之用于预告过程则表示在预告方法是不可逆的