8第五章大数定律和中心极限定理.docx
《8第五章大数定律和中心极限定理.docx》由会员分享,可在线阅读,更多相关《8第五章大数定律和中心极限定理.docx(15页珍藏版)》请在冰豆网上搜索。
![8第五章大数定律和中心极限定理.docx](https://file1.bdocx.com/fileroot1/2022-10/29/eedbb410-8d61-4665-8f1a-e6e1a1de580d/eedbb410-8d61-4665-8f1a-e6e1a1de580d1.gif)
8第五章大数定律和中心极限定理
第五章大数定律和中心极限定理
大数定律和中心极限定理是概率论中两类极限定理的统称,前者是从理论上证明随机现象的“频率稳定性”,并进一步推广到“算术平均值法则”;而后者证明了独立随机变量标准化和的极限分布是正态分布或近似正态分布问题,这两类极限定理揭示了随机现象的重要统计规律,在理论和应用上都有很重要的意义。
§5.1大数定律
设是互相独立的一列随机变量,每个随机变量取值于二元集合{0,1},并有相同的概率分布函数
易计算它们的数学期望和方差为
如果取这些的部分和
并考虑它们的平均值,易知它的数学期望和方差为
利用定理4.2.13给出的切比雪夫不等式可知:
对任何一个正数有
令,有
即
(5.1.1)
可见当很大时,部分和的平均值与相距超过任何一个数的概率都很小,而当时,这个概率趋于0。
(5.1.1)式的结果称为弱大数定律,也称伯努利大数定律,因为这个定律是伯努利在1713年首先证明的,是从理论上证明随机现象的频率具有稳定性的第一个定律。
注意式(5.1.1)等价于
(5.1.2)
把它完整地叙述如以下定理:
定理5.1.1(伯努利大数定律)设是互相独立的取值于二元集合{0,1}的一列随机变量,并有相同的概率分布函数
又设
则
或等价地
。
伯努利大数定律说明了概率论中一个重要的事实,设是伯努利试验中事件出现的概率,则是重伯努利试验中事件发生的次数,是事件出现的相对频率,当很大时事件出现的相对频率与事件出现的概率的偏差超过任何一个正数的可能性很小。
“概率很小的随机事件在个别事件中是几乎不可能发生的”这一原理称为小概率事件的实际几乎不可能原理,有广泛的应用,至于“小概率”小到什么程度才能看作实际上几乎不可能发生,则要视具体情况而定。
例如,自动车床加工零件出现次品的概率为0.01,若零件的重要性不大且价格很低,则完全允许有1%的次品率,可以忽视100个零件中出现一个次品的可能性。
但对于飞机或更昂贵的航天器来说,出现次品的概率应当几乎为零,1%的次品率是绝对不允许的。
伯努利大数定律提供了通过试验来确定事件的概率的方法。
既然相对频率与事件出现的概率有较大偏差的可能性很小,因此在实践中可以通过做试验确定某事件出现的相对频率作为该事件出现的概率的近似估计,这种方法称为参数估计,它是数理统计中的重要方法,它的一个重要理论基础就是大数定律。
伯努利大数定律可以推广为以下形式的弱大数定律。
定理5.1.2(弱大数定律)设是互相独立的一列随机变量,并有相同的概率分布函数,它们公共的数学期望和方差为
设,则
则(5.1.3)
或等价地
。
(5.1.4)
对任何成立。
该定理的证明可以利用定理4.2.13给出的切比雪夫不等式类似伯努利大数定律证之,把它留给读者。
本定律使算术平均值的法则有了理论依据,比如要测量某个物理量,在客观条件不变的情况下重复测量次,得到个测量值,显然可以把它们看作个独立同分布的随机变量,有数学期望,由大数定律知,当充分大时,次测量的平均值可作为的近似估计,即
由此所产生的误差很小。
弱大数定律可以进一步推广为以下形式的切比雪夫大数定律。
定理5.1.3(切比雪夫弱大数定律)设是互相独立的一列随机变量,每一个随机变量都有数学期望和有限方差,并且它们有公共的上界,设,则对任何有
(5.1.5)
或等价地
(5.1.6)
证因互相独立,所以
又因为,由切比雪夫不等式可得
令,有
由俄国数学家切比雪夫证明的上述定律是关于大数定律的一个相当普遍的结论,前两个弱大数定律都是它的特例。
弱大数定律涉及一列概率的收敛性,此种收敛称为依概率收敛,定义如下:
定义5.1.4设是互相独立的一列随机变量,是一个常数,如果对任意正数,有
(5.1.7)
或等价地
(5.1.8)
则称序列依概率收敛于。
依概率收敛的更一般的定义如下:
定义5.1.5(依概率收敛)设是一列随机变量,是一个随机变量,如果对任意正数,有
(5.1.9)
或等价地
(5.1.10)
则称序列依概率收敛于。
通常记为.
弱定律只涉及一列概率的收敛性,对应地一个强定律则给出了一列随机变量的极限情况,它涉及的收敛性为几乎处处收敛,或依概率1收敛,其定义如下:
定义5.1.6设是互相独立的一列随机变量,是一个常数,如果对任意正数,有
(5.1.11)
或等价地
(5.1.12)
则称序列几乎处处收敛于(或依概率1收敛于)。
几乎处处收敛的更一般的定义如下:
定义5.1.7(几乎处处收敛)设是一列随机变量,是一个随机变量,如果对任意正数,有
(5.1.13)
或等价地
(5.1.14)
则称序列几乎处处收敛于(或依概率1收敛于)。
通常记为.
注几乎处处收敛的定义(5.1.13)和(5.1.14)与依概率收敛的定义中(5.1.9)和(5.1.10)形式上的区别是将极限号和概率符号交换了,但这却是本质上的区别,因为一般情况下是不能交换的。
几乎处处收敛要强于依概率收敛,即若随机变量序列几乎处处收敛于,则必定也依概率收敛于。
但反之不成立。
在几乎处处收敛意义下的大数定律称为强大数定律,通常强定律的证明要比弱定律的证明困难得多,以下不给证明地给出强大数定律。
定理5.1.8(强大数定律)设是互相独立同分布的一列随机变量,有数学期望和有限方差,设
,
则对任何有
(5.1.15)
或等价地
(5.1.16)
注意弱大数定律和强大数定律的区别不仅仅是一个法则的不同,不能简单地把极限号从概率号中移出来,这两个定律描述的是相当不同的事情,弱定律描述的是一列概率的收敛性,而强大数定律说的是一列随机变量收敛到一个常数。
正是强大数定律最有力地保证了用事件出现的相对频率作为事件出现概率的估计的正确性。
下面举一个信息论中应用的例子说明大数定律的重要性。
定理5.1.9设是互相独立同分布、取值于同一个有限字母集的一列随机变量,它们的公共分布记为,则依概率收敛的意义下有
其中
称为分布的熵,当式中对数是以2为底时,熵的单位为比特(bit),当式中对数是以e为底的自然对数时,熵的单位为奈特(nat)。
证设,由于是互相独立同分布,它们的函数也是互相独立同分布的随机变量,
根据大数定律,依概率收敛到的数学期望
这里用到了求随机变量函数数学期望的(4.1.3)式,由此定理得证。
□
这个定理称为熵定理,在信息论和数据压缩中有重要应用。
以上介绍了概率论中的两种重要的收敛性:
依概率收敛和几乎处处收敛,下面再简要介绍概率论中另外两种常见的收敛性:
依分布收敛和矩收敛。
定义5.1.10(分布函数弱收敛)设是一列分布函数,如果存在一个非降函数,对它的每个连续点,都有
则称分布函数列弱收敛于,记为.
定义5.1.11(依分布收敛)设随机变量序列和随机变量的分布分别为和,如果弱收敛于,则称依分布收敛于,记为.
定义5.1.12(矩收敛)设对随机变量序列和随机变量有
其中为常数,如果
则称随机变量序列阶矩收敛于随机变量,.
在阶矩收敛中最重要的是的情形,这时称为均方收敛。
以上介绍了随机变量序列的4种收敛性,它们之间有什么关系呢,哪种强一些,哪种弱一些呢?
下面用图5.1表示它们的关系:
()
图5.1随机变量序列的四种收敛性的关系
其中“”表示由命题A可以推出命题B,上述逆命题一般不成立。
此外在“阶矩收敛”和“几乎处处收敛”之间不存在确定的隐含关系。
以上各种收敛性的关系的证明以及逆命题不成立的例子已超出本书范围,读者可以参考有关的文献或教材。
§5.2中心极限定理
在5.1节中讨论的大数定律虽然证实了“频率的稳定性”,但并未给出独立随机变量和的分布是什么,而这正是本节要讨论的问题,这个问题就引出了概率论中最重要的一类定理──称之为中心极限定理,这类定理有很多推广的或一般化的形式,这里只讨论其中一种适合于大多数应用情形的形式。
为了描述问题,设是互相独立同分布的一列随机变量,有数学期望和有限方差,且每个的矩母函数在0点的一个邻域中都存在,考虑部分和
,
中心极限定理说明了当充分大时,无论各个的分布是什么,这个部分和的分布是近似正态的。
显然这个结论是十分重要的,因为在概率统计和实际应用中会经常遇到这种独立随机变量和的情形。
为了严格地描述上述结论,考虑的标准化变量。
因为,标准化后的随机变量
有数学期望0和方差1。
定理5.2.1(中心极限定理)设的分布函数为,则
(5.2.1)
(右式即是标准正态分布的分布函数)。
证只给出证明的主要思路。
设为标准化随机变量的矩母函数,则
其中(i)是矩母函数的定义,(ii)利用泰勒展开,(iii)是因为标准化后的随机变量有数学期望0和方差1,(iv)右端的代表幂次为及以上的所有项的和(将公因子提出来)。
在定理的假设条件下,在附近是连续有界的。
现在设为的矩母函数,则
利用们的独立性和数学期望的线性性可得
对每个固定的,小于1,从而当时趋于0;又因为当时,趋于,从而是有界的。
因此当时,这项充分小,可以忽略不计,于是可以简记
(5.2.2)
由微积分中众所周知的结果
用于(5.2.2)式可得
右式就是标准正态分布的矩母函数。
□
注意到在证明过程中用到了“当时,这项充分小,可以忽略不计”这个结论,事实上只要通过更精细但并不太困难的推导,可以得到这项的上界估计,这里把这个过程省略了。
此外,也要注意为使中心极限定理成立,各个须满足的不太强的条件,即它们的矩母函数要存在,否则就不能保证结论的正确性。
中心极限定理说明了当充分大时,无论各个的分布是什么,这个部分和的分布是近似正态的。
为更直观地了解的极限分布趋于正态分布的情况,下面举一个例子。
例5.2.1设是互相独立的一列随机变量,每个都服从上的均匀分布,易计算得它们的数学期望,方差D[,考虑部分和,标准化后得,可以精确计算它的分布函数,图5.2显示了及时分布的图形,最初它的分布远不是正态的,但随着的增大而逐步趋向正态。
图5.2及时分布的图形
定理5.2.2(棣美弗-拉普拉斯(DeMoivre-Laplace)定理)设随机变量服从二项分布,则对于任意区间,恒有
证由于服从二项分布的随机变量可以看作个相互独立的、服从同一参数的两点分布的随机变量,即
,
其中,由定理5.2.1可得
于是对于任意区间有
□
此定理表明,正态分布是二项分布的极限分布,当趋向无穷时,服从二项分布的随机变量的概率计算可用正态分布的概率来近似。
例5.2.2设有2500个同一年龄段和同一社会阶层的人参加了某保险公司的人寿保险,在一年中每个人死亡的概率为0.002,每个人在年初向保险公司交纳保费1200元,而在死亡时家属可以从保险公司领到200000元,问:
(1)保险公司亏本的概率是多少?
(2)保险公司获利不少于1000000元的概率是多少?
用两种方法来讨论此题,以便让读者体会中心极限定理的一些用途。
解法一通过二项分布的概率分布律求解,参见第二章例2.3.3.
当然要算出上述概率的精确值是困难的,以下可以用中心极限定理计算它们的近似值。
解法二设表示2500人中死亡人数,则服从的二项分布,这时
(1)由解法一知
(保险公司亏本)=(多于15人死亡)
(2)保险公司获利不少于1000000元意味着,则
(保险公司获利不少于1000000元)=(死亡人数不多于10)
□
注意,在以上的计算中用到了中心极限定理作近似估计,请读者自己体会是怎么