ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:129.50KB ,
资源ID:9634432      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9634432.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第三章概率与概率分布.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第三章概率与概率分布.docx

1、第三章 概率与概率分布第三章 概率与概率分布第一节 随机事件及其概率一、随机试验与随机事件1、必然现象与偶然现象具有确定变化规律的现象是必然现象,一定条件必然导致一定结果。事先不确定结果的现象是随机现象/偶然现象,在一定条件下可能出现这种结果也会出现那种结果,随机而定。但随机现象的随机性中也蕴含着某种规律性。例如:个人寿命有长有短,无法确切预测,但某一地区人口平均寿命是比较稳定的。随机现象的这种规律就是统计规律。2、随机试验为了研究随机现象的规律性,就要进行随机试验,以获取有关信息,例如抛硬币记录正反面,从任意一批货中抽取一件来检查质量是否合格。严格意义的随机试验必须满足三个条件:试验在相同条

2、件下可重复进行;每次试验的可能结果不止一个,但所有可能结果试验前已知;每次试验只能观测到一个可能结果,但在试验结束之间无法肯定出现哪一个。3、随机事件随机试验的每一个可能结果被称为一个随机事件。随机事件分类:基本事件(不能再分解)和复合事件(由两个或多个基本事件组成)。随机事件可用样本空间的集合来表示,每一个基本事件称为样本点,所有样本点构成样本空间,如上例=甲胜,乙胜,平局。二、随机事件的概率用来度量随机事件发生的可能性大小的是随机事件发生的概率,随机事件A发生的概率记为P(A),对于一般的随机事件,0发生的概率1。等于1则为必然事件,等于零则为不可能事件。1、古典概率概率论发源于人们对抽签

3、、抛硬币、掷筛子等随机游戏和赌博问题的研究,计算此类概率较简单直观。例如筛子有六面,每一面出现的概率均等都是1/6。这类试验具有两个特点:试验的基本事件总数有限,即样本空间包含有限多个样本点;每个事件出现的可能性相同。概率的古典定义:P(A)=事件A中包含的基本事件数/样本空间中基本事件总数=m/n例1:有50件产品,其中有5件次品,现从50件中任取两件,求抽到两件均为合格品的概率是多少?两件均为次品的概率是多少?解:P(A)= (C452C500)/C502 =0.8082 P(B)=(C450C52)/C502=0.00822、统计概率一些事件的各种结果发生的可能性不同,不能通过一两次试验

4、来判断结果(如射击),只有充分多次,事件发生的频率才稳定,即概率的统计定义。P(A)=pm/n在相同条件下重复进行n次试验,事件A发生了m次,当试验次数n很大时,事件A发生的频率m/n在某一常数p上下波动,而且这种波动的幅度会随试验次数增加而缩小。例2:某地区近几年新生婴儿性别资料如表1,估计该地区新生儿为男婴的概率。年份新生婴儿数男婴数男婴比例%200016248270.509200112056220.516200215127740.512200314077150.508解:当试验次数(观察的新生儿个数)充分多时,男婴出现的频率稳定在0.511左右,因此可以估计生男婴的概率为0.511。当观

5、测次数很多时,频率和概率非常接近,频率(真实的发生比例)可作为概率(可能发生比例)的近似值,次数越多,越接近真实概率。此方法也称概率的统计方法或频率方法。3、主观概率依据人们的主观判断而估计的随机事件发生可能性大小称为主观概率,但并非随意猜想,是基于经验、专业知识、对事件发生的条件和影响因素进行分析而得出的。4、概率的基本性质(1)任一事件A的概率是一个介入0和1之间的数值。(2)必然事件的概率为1,不可能事件的概率为0。(3)若A与B不可能同时发生/互斥事件,则至少有一个发生的概率等于各自概率之和。P(AB)=P(A)+P(B)三、概率的运算法则1、加法公式计算两个事件中至少有一个发生的概率

6、,AB事件。(1)互斥事件的加法公式A发生,B就不可能发生例3:有50件产品,其中有5件次品,现从中任取两件,求至少抽到一件次品的概率。解1:至少抽到1件次品就是两件均为次品和只有1件次品两个事件的和。P(AB)=P(A)+P(B)=C451C51/C502+C450C52/ C502=0.1918解2:利用互补事件概率关系计算。互补事件,不可能同时发生而又必然有一个会发生的两事件,如中靶和脱靶,合格与不合格。利用P(A)+P()=1,可得P(至少抽到一件次品)=1-P(未抽到次品)=1-C452- C502=0.1918(2)相容事件的加法公式两事件可能同时发生例4:将分别写有09这十个数的

7、小球放入容器内,任意摇出一个小球,求出现奇数或大于等于4的数的概率。解:奇数或大于等于4的数就是奇数(A)和大于等于4的数(B)这两个事件和。样本空间包括从0到9的10个数,A=1、3、5、7、9,B=4、5、6、7、8、9,由于每个样本点出现的可能性相同,所以P(A)=5/10,P(B)=6/10。由于A和B之间有交集,AB(简写AB)=5、7、9,所以P(AB)=5/10+6/10-3/10=0.8对于相容事件:P(AB)=P(A)+P(B) -P(AB)2、乘法公式计算许多事件同时发生的概率(1)条件概率作随机试验时,如果附加一些条件,计算的概率就是条件概率,如在已知事件B发生的条件下求

8、A发生的概率,用P(AB)表示。公式P(AB)= P(AB)/ P(B) P(B)0例5:某公司下属的甲乙两厂生产同种产品,甲厂生产产品400件,其中一级品为280件;乙厂生产600件,其中一级品360件。若要从该公司全部产品中任意抽取一件,求已知抽出产品为一级品的条件下该产品出自甲厂的概率。解:设A=甲厂产品,B=一级品,则P(A)=0.4, P(B)=0.64 P(AB)=0.28 P(AB)= 280/1000/640/1000=0.438该题等同于计算从全厂的一级品中抽到甲厂产品的概率,即全部一级品中甲厂产品的比例。(2)乘法公式和事件的独立性由条件概率公式可推导出:P(AB)=P(A

9、)P(BA) 或 P(AB)=P(B)P(AB),表示两个事件同时发生的概率等于其中一个发生概率乘以另一个事件的条件概率。这里要求两个事件之间有相关性,否则,如果事件B的发生不影响事件A的发生,那么P(AB)= P(A),这种情况称为A、B为独立事件。独立事件的乘法公式简化为P(AB)=P(A) P(B)例6:50件产品中任取两件,求抽到两件均为合格品的概率和两件均为次品的概率。分两次抽取,每次只抽一件,则两种情况:不放回抽样和放回抽样。解:设A1=第一次抽到合格品,A2=第二次抽到合格品,A1A2=抽到两件均为合格品,12=抽到两次均为次品。在不放回抽样中:两次不独立,相互影响,用不独立公式

10、:P(AB)=P(A)P(BA)P(A1A2)=P(A1)P(A2A1)=45/5044/490.8082P(12)=P(1)P(21)=5/504/490.0082在放回抽样中,两次抽取相互独立,样本空间都是50,用独立公式P(AB)=P(A) P(B)P(A1A2)=P(A1) P(A2)=45/5045/50=0.81P(12)= P(1)P(2)=5/505/50=0.013、全概率公式与贝叶斯公式例7:有一道四选一的题,某学生知道正确答案的概率为2/3,不知道正确答案时才对的概率是1/4,求该学生做出正确选择的概率?解:设A=知道正确答案,B=选择正确,显然,选择正确的概率可分解为两

11、种情况“知道正确答案而选择正确即AB”“不知道正确答案但选择正确即B”的和,而这两个事件又分别是另外两个事件的积。P(B)=P(AB)+P(B)= P(A)P(BA)+ P()P(B)=2/31+1/31/4=3/4将上例推广到一般情况就是全概率公式:有i条路可以达到目的地,A1、A2. Ai互不相容,也只有这i条路可达到目的地,它们构成了所有的可能性集合,则称事件A1、A2. Ai为完备事件组。要达到目的地(事件B),总是要选择Ai中的一条路,与其同时发生。 P(B)= P(A1B)+P(A2B)+ P(AiB)= P(A1)P(BA1)+ P(A2)P(BA2)+ P(Ai)P(BAi)

12、= P(Ai)P(BAi)直观意义:每一个Ai发生都可能导致B发生,每一个Ai地发生导致B发生的概率为P(AiB)= P(Ai)P(BAi),因此作为结果的事件B发生的概率是各个原因A1引发的概率的和。由全概率公式推导出贝叶斯公式 ,也称后验概率公式:P(AiB)= P(AiB)/ P(B)= P(Ai)P(BAi)/ P(Ai) P(BAi)实际等同于计算在给定B条件下Ai的条件概率公式。应用十分广泛,是在观察到B已发生情况下,确定导致B发生的各个原因Ai的概率,常用来寻找事件发生的最可能原因。例8/练习题:在例6中,若学生回答正确,则其纯属猜对的概率是多少?解:就是要求在答对的情况下B,不

13、知道答案的概率是多少。 P(B)= P(B)/ P(B)= P()P(B)/P(A) P(BA)+ P() P(B)=1/31/4/2/31+1/31/40.111第二节 随机变量及其概率分布一、随机变量的概念如果随机试验的每个可能结果都用一个数值表示,那么所有结果就可用一个变量表示,即随机变量。随机变量的取值是随机的,事先不确定。随机变量通常用大写字母表示,具体取值用小写字母表示。例如,检查产品合格率,出现次品的件数可能是0、1、2、3件,出现次品的件数就是一个随机变量X,它有4个取值x1x2x3x4,分别对应4个事件。随机变量X取值为xi的概率用P(X=xi)来表示。根据取值的特点,将随机

14、变量分为离散型和连续型。二、随机变量的概率分布随机变量取值的规律,即取各个值的概率分布1、离散型随机变量的概率分布例9:将一均匀筛子投掷20次、100次、无数次,用X表示筛子落下时面朝上的点数,做出各种情况下X的相对频率分布表和分布图。表:筛子出现点数的相对频率分布出现的点数X相对频率f/nn=20n=100n=10.200.181/620.100.171/630.300.151/640.150.151/650.100.201/660.150.151/6 f/n n=20 f/n n=10 f/n=P(x) n=0.3 0.3 0.30.2 0.2 0.20.1 0.1 0.1 1 2 3 4

15、 5 6 1 2 3 4 5 6 1 2 3 4 5 6当样本较小时,相对频率剧烈波动,随着样本量增加,相对频率趋于稳定,最后稳定在一个极限分布上,即随机变量X的概率分布。通过离散型随机变量的概率分布图形,可以知道该变量有可能有哪些取值及每个可能取值出现的频率。每个取值的相对频率之和等于1,概率之和也等于1:P(x)=12、连续型随机变量的概率密度表:200名男生身高的频数分布组限组中值频数相对频率相对概率密度148-15415140.020.003154-160157120.060.010160-166163440.220.037166-172169640.320.053172-178175

16、560.280.047178-184181160.080.013184-19018740.020.003合计2001.001.00如画出条形图,柱条高度之和为1。如果将组距缩小一倍,3厘米,则条形图形状如下:148-151149.520.010.003151-154152.520.010.003154-157155.560.030.010157-170158.560.030.010合计2001.00随着组距的减小,相对频率分布图越来越扁,柱条的宽度越来越窄,所有柱条高度之和仍为1。如果将纵轴刻度改为相对频率密度=相对频率/组距,画出直方图,就使得柱状图不受组距大小影响,而成为一个标准化的图。这

17、时柱条面积总和等于1。样本量增加、组距减小时的变化:随样本量增大,随机因素影响减小,相对频率趋向于概率。同时样本增大也可以更精细地分组,于是在面积固定为1时,相对频率密度近似变成一条曲线,称为密度函数,简称概率分布。离散型随机变量分布图形是一个阶梯形,连续型变量是一条曲线。三、随机变量的数字特征1、随机变量的数学期望均值它描述随机变量的概率分布的中心位置。例10:赌博中的掷筛子 n =20n =100n=Xf/nX(f/n)f/nX(f/n)f/n= P(X)X P(X)10.200.20.180.181/61/620.100.20.170.341/62/630.300.90.150.451/

18、63/640.150.60.150.601/64/650.100.50.201.001/65/660.150.90.150.901/66/6=3.30=3.47=21/6=3.50随样本量增大,样本均值趋向于某一极限值,称为概率分布的均值或总体均值,也叫随即变量X的均值,用E(x)或表示。= X P(X)E(x)只是重复多次试验后所能期望得到的平均意义上的值,不一定是真实出现的值,所以也叫期望值。2、随机变量的方差和标准差例11:按照上表中最后一列的概率分布计算均方差MSD和方差XP(X)(x-)(x-)2(x-)2 P(X)11/6-2.506.251.0421/6-1.502.250.38

19、31/6-0.500.250.0441/60.500.250.0451/61.502.250.3861/62.506.251.04=3.50MSD=2.92方差和均方差的差别仅在于除数是n-1而不是n,但当总体趋于无穷大时,两者相同。方差=MSD=2.92;标准差=1.71。极限情况下的方差称为概率分布的方差或总体方差,用2表示,公式: 2=MSD=(X-) 2P(X)3、总体矩和样本矩总体均值和方差也叫做总体的一阶矩和二阶距,与样本均值和样本方差的比较:样本矩总体矩样本均值=X(f/n)总体均值= X P(X)样本方差S2=MSD=(X-)2f/n总体方差2=MSD=(X-) 2P(X)四、

20、常见的概率分布模型1、二项分布离散型随机变量针对二项变量,即每次实验只有两种可能结果的变量,如性别、抛硬币正反面。这类试验的两种可能结果通常用“成功”和“失败”表示,用p和1-p表示成功概率和失败概率,每次都有相同的成功概率和失败概率,且每次实验是独立的。N次这样的重复试验中成功的总次数X就称为二项变量。二项变量的例子:试验成功失败pNX=k投掷均匀硬币国徽朝上国徽朝下1/2投掷次数国徽朝上的总次数随机抽取一居民女性 男性总体中女性居民的比例样本量样本中的女性人数多项选择题答案猜测(5个选项)正确错误1/5试题数回答正确题数二项变量X的概率分布就是二项分布,概率分布公式为:P(X=k)=Cnk

21、pk(1-p)n-k k=0,1,2,3.例12:在一个男女居民各半的大居民中,抽取一个n=10的随机样本,问1)样本中正好有4位女性居民的概率是多少?2)样本中至少有2为女性居民的概率是多少?假定有放回抽样(其实不放回时误差也很小,因为总体很大而样本很小)。解: n=10,k=4,p=0.51) P(X=4)=C104(0.5)4(0.5)6=0.20512) P(X2)= P(X=2) +P(X=3) +P(X=4).+ P(X=10)=0.9893可以查询表二项概率分布表或二项分布的右侧尾部累计概率表。二项分布的性质:二项分布可简写为B(n,p),n是独立实验的次数,p是事件A在每次实验

22、中发生的概率。二项分布的数学期望为np,二项分布方差为npq。当p=0.5时,分布图形是对称的,当不等于0.5时非对称,n越大非对称性越不明显。2、正态分布连续型随机变量,写作N(, 2)许多连续型随机变量的概率分布是一种呈钟形的对称曲线,叫做正态曲线或高斯曲线,统计中最普通也最常用的分布。正态分布的特征:单峰,对称众数、中位数和均值相等。正态分布的常用性质:(1)正态曲线以x轴为渐近线,但是永远不会与x相交。(2)正态分布是一条关于x=对称的钟形曲线,平均值位于正态曲线的中心。(3)标准差决定陡峭或扁平程度,越小,越陡峭,越大,越扁平。(4)任何正态分布都适用689599.7规则,即:大约有

23、68.27%的数据落在距平均值一个标准差的范围内,即距均值一个标准差的范围面积占总面积的68%;大约有95.45%的数据落在距平均值两个标准差的范围内;大约有99.73%的数据落在距平均值三个标准差的范围内。2.1 标准正态分布,写作N(0,1)由于不同的变量的各自分布形状不同,同一变量采用不同度量单位也会产生不同正态分布。所以可转换为统一的分布:标准正态分布,=0, =1的正态分布,也叫Z分布。将随机变量X转化为Z值,Z=,表示X值与均值的距离是标准差的几倍。则随机变量Z服从标准正态分布N(0,1)。标准分的实际意义:例子:A同学数学考了90分,平均分是70分;B同学政治考了90分,平均分8

24、5分,两个同学的成绩一样吗?设标准差相等都为10分。Z(A)=90-70/10=2Z(B)=90-85/10=0.5 则A优于BC同学数学考了70分,标准分为70-70/10=0,但不等于真实成绩为0。如果数学和政治平均分都为70分,数学成绩标准差为20,政治成绩标准差为10,则A同学和B同学孰优孰劣? Z(A)=90-70/20=1Z(B)=90-70/10=2 则B优于A学习正态分布和标准正态分布的作用:计算某个变量在某一范围内取值的概率。例13:练习查表,p(Z1.96) ;p(Z-1.96); p(-1.96Z1.96); p(-1.0Z1.5)p(Z1.96)=0.025; p(Z-

25、1.96)= p(Z1.96)=0.025; p(-1.96Z1.96)=1-2 p(Z1.96)=0.95; p(-1.0Z1.5)= 1- p (Z-1.0)- p(Z1.5)= 1-p(Z1.0)- p(Z1.5)=0.7745p(-1.0Z1.5)= p (Z1.5)-(1- p(Z1.0))=0.7745例14:某企业员工平均收入X服从=1750元,标准差=350元的正态分布,求该企业员工收入超过2200元的比例是多少?低于1500元的比例有多少?也就是说,随机抽取一位员工其平均收入超过2200元或不到1500元的概率是多少?解:1)Z=(2200-1750)/3501.29,p(Z

26、1.29)=0.09589.6% 2)Z=(1500-1750)/350=-0.71,p(Z-0.71)= p(Z0.71)=0.239824% 第三节 大数定理与中心极限定理 大数定理是阐明大量同类随机现象平均结果的稳定性的一系列定理;中心极限定理是研究在什么条件下,随机变量之和的分布可以近似为正态分布的一系列定理。两种定理奠定了统计推断的理论依据。一、大数定律1、独立同分布大数定律设随机变量X1、X2.Xn相互独立且服从同一分布,且存在有限的数学期望/平均值和方差2,则对任意小的正数,有 表明,当n充分大时,相互独立且服从于同一正态分布的X1、X2.Xn的算术平均数,与其数学期望值的偏差任

27、意小的概率/可能性接近1or100%。该定理指出了平均数具有稳定性的特征,从而使得可以在抽样调查中用样本均值来估计总体均值。2、贝努利大数定律设m是n次独立重复试验(贝努利实验)中事件A发生的次数,p是每次实验中事件A发生的概率,则对任意的0,有表明,当重复试验次数n充分大时,事件A发生的频率与概率之间的差任意小的概率为1,即事件A发生的频率有着接近其概率的趋势。说明了频率具有稳定性,奠定了用频率来估计概率的理论依据。二、中心极限定理1、独立同分布的中心极限定理设随机变量X1、X2.Xn是相互独立且服从同一分布,且存在有限的数学期望/平均值和方差2,那么当n趋于无穷大时,n项总和或均值的分布趋近于正态分布: XiN(n,n2) 或 N(, 2/n)由此可知:不论总体服从何种分布,只要其数学期望和方差存在,对这一总体进行重复抽样时,只要样本量n无穷大,Xi或就趋于正态分布。在抽样调查中的意义:被研究的总体分布未知,但只要样本量足够大,样本均值的分布接近正态分布,为均值的抽样推断奠定依据。2、棣莫佛-拉普拉斯中心极限定理设随机变量X服从二项分布,那么当n趋于无穷大时,X接近均值为np,方差为npq的正态分布,即:XN(np,npq)表明,当n很大时,np和npq也都不太小时,二项分布可以近似表示为正态分布。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1