第五章水文统计的基本知识及方法.docx
《第五章水文统计的基本知识及方法.docx》由会员分享,可在线阅读,更多相关《第五章水文统计的基本知识及方法.docx(26页珍藏版)》请在冰豆网上搜索。
第五章水文统计的基本知识及方法
第五章水文统计的基本知识及方法
研究内容:
主要有频率计算与相关分析。
频率计算,包括随机变量及其概率分布、水文频率曲线、适线法等;
相关分析,包括简相关与复相关。
研究目的:
研究河川径流的统计规律,预估径流的变化趋势,以满足水利水电工程规划、设计、施工和运行管理的需要。
第一节概述
概率论与数理统计是一门研究客观事物偶然性(随机性)规律的学科。
由于水文现象一般都具有偶然性的特点,所以,可以用数理统计的原理和方法分析研究它的变化规律。
这种方法称为水文统计法。
工程水文计算中运用水文统计法,不仅合理,而且是必要的。
例如,流域开发,首先要搞清未来河流水量的多少;设计拦河坝、堤防工程需要知道未来时期当地洪水的大小。
这些都要求对未来长期的径流形势做出估计。
如果所建工程计划使用100年,那么就要对未来100年的径流形势做出估计。
但是,由于影响径流的因素众多,难以基于必然现象的规律,应用成因分析法对径流做出这样长期的时序定量预报,而只能基于统计规律,运用数理统计方法对径流做出概率预估,以满足工程设计的需要。
第二节概率的基本概念
一、试验和事件
在概率论中,对随机现象的测验叫做随机试验,随机试验的特点是限定条件,重复做。
随机试验的结果称为事件。
根据事件发生的可能性,事件可以分为三类:
1、必然事件:
在一定试验条件下,试验结果中必然会发生的事件;
2、不可能事件:
在一定试验条件下,试验结果中决不会发生的事件;
3、随机事件:
在一定试验条件下,试验结果中可能发生也可能不发生的事件。
二、概率
随机事件出现的可能性或机率叫概率。
随机事件A发生的概率用P(A)表示,以百分数计。
显然,必然事件概率为1;不可能事件的概率为0;随机事件的概率介于0和1之间。
如果某试验可能发生的结果总数是有限的,并且所有结果出现的可能性是相等的,称之为古典概型事件。
在古典概型事件中,如果可能发生的结果总数为n,而事件A有其中的m个结果,则随机事件A发生的概率P(A)为:
P(A)=m/n5-1
水文事件一般不能归为古典概型事件。
它们的概率一般只能通过多次观测试验来推求,这种概率称为经验概率,也称频率。
三、频率
设事件A在n次重复试验中出现了m次,则比值:
W(A)=m/n5-2
称为事件A在n次试验中出现的频率。
频率在一定程度上反映了事件出现的可能性大小。
事件A发生的概率是理论值,而频率是经验值,在试验中事件发生的频率通常不等于概率。
但随着试验次数的增加,频率有趋近概率的规律。
这一点不仅可以从理论上证明,如大数定理,而且可以通过随机试验验证,如掷硬币试验。
因此,水文上常用事件发生的频率作为概率的近似值。
四、概率加法定理和乘法定理
1、概率加法定理
事件(A+B)表示事件A与B的和事件,包括事件A发生或事件B发生以及两事件同时发生。
加法定理公式:
P(A+B)=P(A)+P(B)-P(AB)5-3
式中:
P(A+B)-事件A与事件B的和事件发生的概率;
P(A)-事件A发生的概率;
P(B) -事件B发生的概率;
P(AB)-事件A与B同时发生的概率。
若事件A与B不可能同时发生,则称为互斥事件。
互斥事件加法定理公式:
P(A+B)=P(A)+P(B)5-4
2、概率乘法定理
两事件积的概率,表示两事件共同出现的概率,它等于其中一事件的概率乘以另一事件在前一事件发生的条件下发生的条件概率,即:
P(AB)=P(A)×P(B︱A)5-6
或P(AB)=P(B)×P(A︱B)5-7
若事件A的发生对事件B发生的概率没有影响,即:
P(B︱A)=P(B)或P(A︱B)=P(A),则称这两个事件是相互独立的;它们共同出现的概率等于事件A的概率乘以事件B的概率,即
P(AB)=P(A)×P(B)5-5
第三节随机变量及其概率分布
一、随机变量
表示随机试验结果的量称为随机变量,常用大写英文字母来表示,并用相应的小写字母来表示随机变量的具体取值。
随机变量可分为两类:
即离散型随机变量和连续型随机变量。
1、离散型随机变量:
若随机变量仅能取得某区间内的一些间断的数值,则称为离散型随机变量;
2、连续性随机变量:
若随机变量可以取得某区间内的任何数值,则称为连续性随机变量。
随机变量取值的全体称为总体,总体中的一部分称为样本。
二、随机变量的概率分布
随机变量可以取得总体中的任何值,但是取某一值都有一定的概率,随机变量的取值与取该值的概率之间有一定的对应关系。
这种对应关系称为概率分布。
1、离散型随机变量概率分布的表示
离散型随机变量的概率分布一般以分布列表示,如表5-3-1。
表5-3-1离散型随机变量及其概率分布
X
x1
x2
……
xi
……
P(X=xi)
p1
p2
……
pi
……
2、连续型随机变量概率分布的表示
对于连续型随机变量,其取值是无限多的,恰好取某个值的概率都非常小,趋近于零,因此,讨论这样的问题没有意义,一般研究区间概率问题。
水文学关心随机变量取值大于等于某一定值的概率,即P(X≥x),而该概率是x的函数,由此,定义了分布函数和密度函数。
①、分布函数
设事件X≥x的概率用P(X≥x)来表示,它是随随机变量取值x而变化的,所以p(X≥x)是x的函数,称为随机变量x的分布函数,记为F(x),即:
F(x)=P(X≥x)
它代表随机变量X取值大于等于某一定值x的概率。
其几何图形如图5-4(b)所示,图中纵坐标表示变量x,横坐标表示概率分布函数值F(x),在数学上称此曲线为概率分布曲线,水文统计中称为频率曲线。
②密度函数
为了应用方便,人们又定义了密度函数。
分布函数一阶导数的负值称为密度函数,记为f(x),即:
密度曲线的图形习惯以纵坐标表示变量x,横坐标表示概率密度函数值f(x),如5-4(a)所示。
显然,分布函数与密度函数有以下关系:
F(x)=P(X≥x)=
(5-10)
其对应关系可在图5-4中看出来。
图5-4(a)概率密度函数(b)概率分布函数
三、随机变量的统计参数
表示随机变量统计特征的数字,称为随机变量的统计参数。
统计参数有总体统计参数与样本统计参数之分。
水文计算中常用的统计参数有均值、离差系数和偏差系数。
1、均值(平均数)
均值表示随机变量的平均水平,反映其位置特征。
对于离散型随机变量其均值为 :
(5-11)
式中xi-随机变量的某一具体取值;
Pi-随机变量取第i个值的概率。
如果取值为等概率,其均值即为算术平均数:
对于连续型随机变量,其均值用期望值E(x)表示:
E(x)=
(5-12)
式中a是总体的最小值,b是是总体中的最大值
2、离差系数
随机变量的离散特征一般用均方差表示:
(5-13)
均方差越大表示离散程度越大。
但是,当随机变量量纲不同时,均方差则难以反映离散程度的大小。
因此,水文学定义离差系数表示离散程度。
水文计算中用均方差与均值之比作为衡量系列相对离散程度的一个参数,称为离差系数,用Cv表示,其计算式为:
(5-14)
式中Ki=xi/,称为模比系数。
3、偏差系数
偏差系数作为衡量随机变量取值对称特征的参数,用CS表示,其计算式为:
(5-15)
当随机变量取值对于对称时,CS=0;当随机变量取值对于不对称时,称为有偏。
这时,CS≠0;若CS>0,称为正偏;若CS<0,称为负偏。
三、几种常用的概率分布曲线
水文上把常用的随机变量概率分布曲线称为水文频率曲线,我国统计中广泛应用的频率曲线有两种类型,即正态分布和皮尔逊Ⅲ型分布。
我国水文计算中常用的频率分布线型为皮尔逊Ⅲ型(P-Ⅲ型)。
(一)正态分布
正态分布具有如下形式的概率密度函数:
其中:
(-∞﹤x﹤+∞)(5-16)
式中:
—均值;
σ–均方差;
e-自然对数的底。
正态分布的密度曲线有以下几个特点:
①单峰;
②对于平均数对称,CS=0;CS>0,正偏;CS<0,负偏;
③曲线两端趋于±∞,即以x轴为渐近线。
正态分布密度函数中只包含两个参数:
均值和均方差σ。
可以证明:
①
②
上式说明
±σ区间的面积占全面积的68.3%(见图5-10),
±3σ区间的面积占全面积的99.7%。
换言之,服从正态分布的随机变量,取值在
±σ区间的概率为68.3%,取值在
±3σ区间的概率为99.7%。
正态分布的上述性质经常用于误差分析。
图5-10正态分布密度曲线
(二)皮尔逊Ⅲ(P-Ⅲ)型曲线
1、皮尔逊Ⅲ型曲线的概率密度函数
皮尔逊Ⅲ型曲线是一条一端有限一端无限的不对称单峰、正偏曲线(见图5-11),其概率密度函数为:
(4-4-2)
式中:
Γ(α)―α的伽玛函数;
α、β、a0―分别为皮尔逊Ⅲ型分布的三个参数。
图5-11皮尔逊Ⅲ型概率密度曲线
显然,三个参数确定以后,该密度函数随之确定。
可以推证,这三个参数与常用的三个参数、Cv、CS具有如下关系:
因此,皮尔逊Ⅲ型频率曲线的密度函数可表示为以
、Cv、CS为参数的函数
。
2、皮尔逊Ⅲ型频率曲线及其绘制
水文计算中,一般需要求出指定频率P所对应的随机变量取值xp,这就需要对密度函数进行积分,确定其下限xp,即:
(5-18)
令
,可变换成下面的积分形式 :
(5-19)
式(5-19)中被积函数只含有一个待定参数CS,其它两个参数
、Cv都包含在
中,是标准化变换。
因此,只需要给定一个Cs值,便可从式(4-4-7)通过积分求出P与
之间的关系值。
对于若干个给定的Cs值,P与
的对应值可制成表,该表已先后由美国福斯特和前苏联雷布京制作出来,见附表2皮尔逊Ⅲ型频率曲线的离均系数值表,查表可由CS求出相应频率的
值,进而可计算出该频率对应的x值:
附表2皮尔逊Ⅲ型频率曲线的离均系数
值表(摘录)
P(%)Cs
0.1
1
5
20
50
80
95
99
99.9
0.0
3.09
2.33
1.64
0.84
0.00
-0.84
-1.64
-2.33
-3.09
0.1
3.23
1.67
2.0
0.84
-0.02
-0.85
-1.62
-2.25
-2.95
0.2
3.38
2.47
1.70
0.83
-0.03
-0.85
-1.59
-2.18
-2.81
0.3
3.52
2.54
1.73
0.82
-0.05
-0.85
-1.55
-2.10
-2.67
0.4
3.67
2.62
1.75
0.82
-0.07
-0.85
-1.52
-2.03
-2.54
0.5
3.81
2.68
1.77
0.81
-0.08
-0.85
-1.40
-1.96
-2.40
0.6
3.96
2.75
1.80
0.80
-0.10
-0.85
-1.45
-1.88
-2.27
0.7
4.10
2.82
1.82
0.79
-0.12
-0.85
-1.42
-1.81
-2.14
0.8
4.24
2.89
1.84
0.78
-0.13
-0.85
-1.38
-1.74
-2.02
0.9
4.39
2.96
1.86
0.77
-0.15
-0.85
-1.35
-1.66
-1.90
1.0
4.53
3.02
1.88
0.76
-0.16
-0.85
-1.32
-1.59
-1.79
例题:
(1)已知某地区多年平均年降雨量
=1000mm,Cv=0.5,Cs=1.0,设年降雨量的概率分布符合皮尔逊Ⅲ型,试求概率P为1%的年雨量值。
由CS=1.0,P=1%查Φ值表,得Φ1%=3.02,所以
X1%=(Φ1%Cv+1)=(3.02×0.5+1)×1000mm=2510mm
(2)已知某流域最大1日雨量的
=80.0mm,Cv=0.5,Cs=3.5Cv,则该流域P=1%的最大一日雨量为多少?
由CS=3.5Cv=1.75,P=1%查Φ值表,得Φ1%=2.74,所以
X1%=(Φ1%Cv+1)
=(2.74×0.5+1)×80mm=189.6mm
3、皮尔逊Ⅲ型频率曲线的应用
在频率计算时,由已知的CS值,查
值表得出不同的P的
值,然后利用已知的
、Cv,通过公式 即可求出与各种P相应的x值,从而可绘制出皮尔逊Ⅲ型频率曲线。
当Cs等于Cv的一定倍数时,为了应用方便,P-Ⅲ型频率曲线的模比系数KP也已制成表格,见附表3皮尔逊Ⅲ型频率曲线的模比系数KP值表。
频率计算时,由已知的CS和CV可以从附表2中查出与各种频率P相对应的KP值,然后即可算出与各种频率对应的xp=KP
。
如上例,由CS=2Cv,Cv=0.5,P=1%,查KP值表,可得K1%=2.51,所以X1%=K1%
=2.51×1000mm=2510mm。
有了P和x的一些对应值,即可绘制出皮尔逊Ⅲ型频率曲线。
附表3皮尔逊Ⅲ型频率曲线的模比系数KP值表(摘录,Cs=2Cv)
P(%)Cs
0.1
1
5
20
50
75
90
95
99
0.05
1.16
1.12
1.08
1.04
1.00
0.97
0.94
0.92
0.89
0.10
1.34
1.25
1.17
1.08
1.00
0.93
0.87
0.84
0.78
0.20
1.73
1.52
1.35
1.16
0.99
0.86
0.75
0.70
0.59
0.30
2.19
1.83
1.54
1.24
0.97
0.78
0.64
0.56
0.44
0.40
2.70
2.15
1.74
1.31
0.95
0.71
0.53
0.45
0.30
0.50
3.27
2.51
1.94
1.38
0.92
0.64
0.44
0.34
0.21
0.60
3.89
2.89
2.15
1.44
0.89
0.56
0.35
0.26
0.13
0.70
4.56
3.29
2.36
1.50
0.85
0.49
0.27
0.18
0.08
0.80
5.30
3.71
2.57
1.54
0.80
0.42
0.21
0.12
0.04
0.90
6.08
4.15
2.78
1.58
0.75
0.35
0.15
0.08
0.02
1.00
6.91
4.61
3.00
1.61
0.69
0.29
0.11
0.05
0.01
第四节统计参数估算
在概率分布函数中一般都有一些参数,例如皮尔逊III型分布曲线中就包含有均值
、变差系数Cv、偏态系数Cs三个统计参数。
为了确定概率分布函数,就得估计出这些参数。
一、矩法
矩法是通过矩和参数之间的关系,来估计频率曲线参数的一种方法。
无偏估计公式如下:
二、三点法
三点法是在绘制的经验频率曲线上任取三点,其坐标为(x1,p1)、(x2,p2)和(x3,p3),由式(4-4-12)可以建立3个方程,联解三个方程组成的方程组,便可以求得三个参数。
从理论上讲,P1、P2、P3可以任取,但在实际工作中一般取:
P1=5%,P2=50%,P3=95%。
图5-4-1三点法在经验频率曲线上取点示意图
在解方程组的过程中,引入一个系数S,该系数称为偏度系数
显然,S是Cs的函数,其关系已制成表-P=5~50~95%时S与Cs关系表,计算出s后,就可从表中查出相应的Cs值。
解方程组可得:
(4-5-7)
而
(4-5-8)式中
值可由
值表中查出,由此得到皮尔逊Ⅲ型频率曲线的三个统计参数。
附表4三点法用表P=5~50~95%时S与Cs关系表
S
0
1
2
3
4
5
6
7
8
9
0.0
0.00
0.04
0.08
0.12
0.16
0.20
0.24
0.27
0.31
0.35
0.1
0.38
0.41
0.45
0.48
0.52
0.55
0.59
0.63
0.66
0.70
0.2
0.73
0.76
0.80
0.84
0.87
0.90
0.94
0.98
1.01
1.04
0.3
1.08
1.11
1.14
1.18
1.21
1.25
1.28
1.31
1.35
1.38
0.4
1.42
1.46
1.49
1.52
1.56
1.59
1.63
1.66
1.70
1.74
0.5
1.78
1.81
1.85
1.88
1.92
1.95
1.99
2.03
2.06
2.10
0.6
2.13
2.17
2.20
2.24
2.28
2.32
2.36
2.40
2.44
2.48
0.7
2.53
2.57
2.62
2.66
2.70
2.76
2.81
2.86
2.91
2.97
0.8
3.02
3.07
3.13
3.19
3.25
3.32
3.38
3.46
3.52
3.60
0.9
3.70
3.80
3.91
4.03
4.17
4.32
4.49
4.72
4.94
5.43
三、抽样误差
用样本的统计参数来估计总体统计参数时存在一定的误差,这种误差是由于抽样引起的,称为抽样误差。
误差的均方差称为均方误。
显然,均方误越大,抽样误差也越大。
皮尔逊Ⅲ型分布用矩法估算参数时,可用
、
、
、
分别代表、
、Cv和Cs的均方误,其计算公式为:
(5-28)
(5-29)
(5-30)
(5-31)
由上述公式可见,各式的分母中都含有n,n为样本容量。
可见,样本容量越大,其抽样误差就越小。
第五节现行水文频率计算方法—适线法
一、经验频率
由实测资料计算的频率称为经验频率,经验频率计算采用公式:
式中:
m为水文变量由大到小排列并按自然数顺序编出的序号
n为样本容量。
二、重现期
由于"频率"较为抽象,水文上常用"重现期"来代替"频率"。
所谓重现期是指某随机变量重复出现的平均周期,单位为年,用符号T表示。
重现期为T,习惯上又称作T年一遇。
频率P与重现期T的关系如下:
1、暴雨、洪水问题,关心的是超概率事件,则:
(年) (5-32)
例如P=0.5%的设计洪水,用式5-32计算,其重现期为200年,可称此洪水为200年一遇的设计洪水。
例如某堤防按20年一遇防洪标准设计,其相应的设计频率P=1/T×100%,即P=1/20×100%=5%。
2、干旱、枯水问题,关心的是不及概率事件,则
(年) (5-33)
例如P=80%的枯水流量,用式5-33计算,其重现期为5年,可称此为5年一遇的枯水流量。
3、有关说明
100年一遇暴雨或洪水,是指大于或等于这样的暴雨或洪水在长时期内平均100年可能发生1次,而不能认为每隔100年必然遇上1次。
三、机率格纸
频率计算所用的格纸称为机率格纸,此种格纸横坐标的两端分格较稀而中间较密,纵坐标为均匀分格。
之所以采用这样的机率格纸,是因为将频率曲线绘在普通方格纸上,实际意义较大的两端特别陡峭,应用起来极不方便,而绘在机率格纸上,两端的坡度变缓,使用起来就比较方便了。
这种机率格纸的分格是按正态分布曲线能绘制成直线来划分的,所以,当Cs=0时,频率曲线在机率格纸上为一直线。
四、统计参数对频率曲线形状的影响
为了避免配线时调整参数的盲目性,必须了解皮尔逊Ⅲ型分布的统计参数对频率曲线形状的影响。
1、均值对频率曲线形状的影响
当皮尔逊Ⅲ型频率曲线的Cv和Cs不变时,均值增大,频率曲线会升高。
如下图所示。
不同均值对频率曲线的影响图
2、变差系数cv对频率曲线形状的影响
当皮尔逊Ⅲ型频率曲线的均值和Cs不变时,Cv增大,频率曲线会变陡。
如下图所示。
图5-12Cs=1.0时,各变差系数Cv对频率曲线的影响
3、偏态系数Cs对频率曲线形状的影响
当皮尔逊Ⅲ型频率曲线的均值和Cv不变时,Cs增大,频率曲线会上部陡、下部缓、中间弯。
如下图所示。
图5-13偏态系数Cs对频率曲线的影响
五、适线法的步骤
1、点绘经验频率点据(把资料从大到小排列,按自然数顺序编号,按P=
计算经验频率,以变量值为纵坐标、以相应的经验频率值为横坐标,在机率格纸上点绘出点据);
2、用无偏估计公式计算均值、变差系数;
3、假定一个Cs(年径流问题Cs=2~3Cv,暴雨、洪水问题Cs=2.5~4Cv);
4、选定线型,一般用皮尔逊Ⅲ型;
5、根据三个统计参数查Ф值表或K值表,计算出各频率对应的变量值,点绘出一条皮尔逊Ⅲ型曲线;
6、分析皮尔逊Ⅲ型曲线与经验点据的拟合情况,如果满意,则该曲线对应的三个统计参数就作为总体参数的估计值。
如果不满意,则修改参数,再画一条皮尔逊Ⅲ型曲线拟合,直到满意为止。
适线法软件介绍:
用EXCEL软件分析计算(见例题)
第六节相关分析
一、概述
1.相关分析及其目的
分析和建立随机变量之间相互关系的过程称为相关分析。
相关分析可以用来延长和插补短系列资料。
2.相关的种类
按照随机变量的个