第三章概率与概率分布.docx

资源描述

第三章概率与概率分布.docx

《第三章概率与概率分布.docx》由会员分享，可在线阅读，更多相关《第三章概率与概率分布.docx（17页珍藏版）》请在冰豆网上搜索。

第三章概率与概率分布.docx

第三章概率与概率分布

第一节随机事件及其概率

一、随机试验与随机事件

1、必然现象与偶然现象

具有确定变化规律的现象是必然现象，一定条件必然导致一定结果。

事先不确定结果的现象是随机现象/偶然现象，在一定条件下可能出现这种结果也会出现那种结果，随机而定。

但随机现象的随机性中也蕴含着某种规律性。

例如：

个人寿命有长有短，无法确切预测，但某一地区人口平均寿命是比较稳定的。

随机现象的这种规律就是统计规律。

2、随机试验

为了研究随机现象的规律性，就要进行随机试验，以获取有关信息，例如抛硬币记录正反面，从任意一批货中抽取一件来检查质量是否合格。

严格意义的随机试验必须满足三个条件：

试验在相同条件下可重复进行；每次试验的可能结果不止一个，但所有可能结果试验前已知；每次试验只能观测到一个可能结果，但在试验结束之间无法肯定出现哪一个。

3、随机事件——随机试验的每一个可能结果被称为一个随机事件。

随机事件分类：

基本事件（不能再分解）和复合事件（由两个或多个基本事件组成）。

随机事件可用样本空间的集合来表示，每一个基本事件称为样本点，所有样本点构成样本空间，如上例Ω=｛甲胜，乙胜，平局｝。

二、随机事件的概率

用来度量随机事件发生的可能性大小的是随机事件发生的概率，随机事件A发生的概率记为P（A），对于一般的随机事件，0＜发生的概率＜1。

等于1则为必然事件，等于零则为不可能事件。

1、古典概率

概率论发源于人们对抽签、抛硬币、掷筛子等随机游戏和赌博问题的研究，计算此类概率较简单直观。

例如筛子有六面，每一面出现的概率均等都是1/6。

这类试验具有两个特点：

试验的基本事件总数有限，即样本空间包含有限多个样本点；每个事件出现的可能性相同。

概率的古典定义：

P（A）=事件A中包含的基本事件数/样本空间中基本事件总数=m/n

例1：

有50件产品，其中有5件次品，现从50件中任取两件，求抽到两件均为合格品的概率是多少？

两件均为次品的概率是多少？

解：

P（A）=（C452C500）/C502=0.8082P（B）=（C450C52）/C502=0.0082

2、统计概率

一些事件的各种结果发生的可能性不同，不能通过一两次试验来判断结果（如射击），只有充分多次，事件发生的频率才稳定，即概率的统计定义。

P（A）=p≈m/n

在相同条件下重复进行n次试验，事件A发生了m次，当试验次数n很大时，事件A发生的频率m/n在某一常数p上下波动，而且这种波动的幅度会随试验次数增加而缩小。

例2：

某地区近几年新生婴儿性别资料如表1，估计该地区新生儿为男婴的概率。

年份

新生婴儿数

男婴数

男婴比例%

2000

1624

827

0.509

2001

1205

622

0.516

2002

1512

774

0.512

2003

1407

715

0.508

解：

当试验次数（观察的新生儿个数）充分多时，男婴出现的频率稳定在0.511左右，因此可以估计生男婴的概率为0.511。

当观测次数很多时，频率和概率非常接近，频率（真实的发生比例）可作为概率（可能发生比例）的近似值，次数越多，越接近真实概率。

此方法也称概率的统计方法或频率方法。

3、主观概率

依据人们的主观判断而估计的随机事件发生可能性大小称为主观概率，但并非随意猜想，是基于经验、专业知识、对事件发生的条件和影响因素进行分析而得出的。

4、概率的基本性质

（1）任一事件A的概率是一个介入0和1之间的数值。

（2）必然事件的概率为1，不可能事件的概率为0。

（3）若A与B不可能同时发生/互斥事件，则至少有一个发生的概率等于各自概率之和。

P（A∪B）=P（A）+P（B）

三、概率的运算法则

1、加法公式——计算两个事件中至少有一个发生的概率，A∪B事件。

（1）互斥事件的加法公式—A发生，B就不可能发生

例3：

有50件产品，其中有5件次品，现从中任取两件，求至少抽到一件次品的概率。

解1：

至少抽到1件次品就是两件均为次品和只有1件次品两个事件的和。

P（A∪B）=P（A）+P（B）=C451C51/C502+C450C52/C502=0.1918

解2：

利用互补事件概率关系计算。

互补事件，不可能同时发生而又必然有一个会发生的两事件，如中靶和脱靶，合格与不合格。

利用P（A）+P（Ā）=1，可得

P（至少抽到一件次品）=1-P（未抽到次品）=1-C452-C502=0.1918

（2）相容事件的加法公式——两事件可能同时发生

例4：

将分别写有0~9这十个数的小球放入容器内，任意摇出一个小球，求出现奇数或大于等于4的数的概率。

解：

奇数或大于等于4的数就是奇数（A）和大于等于4的数（B）这两个事件和。

样本空间包括从0到9的10个数，A=｛1、3、5、7、9｝，B=｛4、5、6、7、8、9｝，由于每个样本点出现的可能性相同，所以P（A）=5/10，P（B）=6/10。

由于A和B之间有交集，A∩B（简写AB）=｛5、7、9｝，所以P（A∪B）=5/10+6/10-3/10=0.8

对于相容事件：

P（A∪B）=P（A）+P（B）-P（AB）

2、乘法公式——计算许多事件同时发生的概率

（1）条件概率

作随机试验时，如果附加一些条件，计算的概率就是条件概率，如在已知事件B发生的条件下求A发生的概率，用P（A∣B）表示。

公式P（A∣B）=P（AB）/P（B）P（B）＞0

例5：

某公司下属的甲乙两厂生产同种产品，甲厂生产产品400件，其中一级品为280件；乙厂生产600件，其中一级品360件。

若要从该公司全部产品中任意抽取一件，求已知抽出产品为一级品的条件下该产品出自甲厂的概率。

解：

设A=甲厂产品，B=一级品，则

P（A）=0.4，P（B）=0.64P（AB）=0.28P（A∣B）=280/1000/640/1000=0.438

该题等同于计算从全厂的一级品中抽到甲厂产品的概率，即全部一级品中甲厂产品的比例。

（2）乘法公式和事件的独立性

由条件概率公式可推导出：

P（AB）=P（A）P（B∣A）或P（AB）=P（B）P（A∣B），表示两个事件同时发生的概率等于其中一个发生概率乘以另一个事件的条件概率。

这里要求两个事件之间有相关性，否则，如果事件B的发生不影响事件A的发生，那么P（A∣B）=P（A），这种情况称为A、B为独立事件。

独立事件的乘法公式简化为P（AB）=P（A）P（B）

例6：

50件产品中任取两件，求抽到两件均为合格品的概率和两件均为次品的概率。

分两次抽取，每次只抽一件，则两种情况：

不放回抽样和放回抽样。

解：

设A1=第一次抽到合格品，A2=第二次抽到合格品，A1A2=抽到两件均为合格品，Ā1Ā2=抽到两次均为次品。

在不放回抽样中：

两次不独立，相互影响，用不独立公式：

P（AB）=P（A）P（B∣A）

P（A1A2）=P（A1）P（A2∣A1）=45/50×44/49≈0.8082

P（Ā1Ā2）=P（Ā1）P（Ā2∣Ā1）=5/50×4/49≈0.0082

在放回抽样中，两次抽取相互独立，样本空间都是50，用独立公式P（AB）=P（A）P（B）

P（A1A2）=P（A1）P（A2）=45/50×45/50=0.81

P（Ā1Ā2）=P（Ā1）P（Ā2）=5/50×5/50=0.01

3、全概率公式与贝叶斯公式

例7：

有一道四选一的题，某学生知道正确答案的概率为2/3，不知道正确答案时才对的概率是1/4，求该学生做出正确选择的概率？

解：

设A=知道正确答案，B=选择正确，显然，选择正确的概率可分解为两种情况“知道正确答案而选择正确即AB”“不知道正确答案但选择正确即ĀB”的和，而这两个事件又分别是另外两个事件的积。

P（B）=P（AB）+P（ĀB）=P（A）P（B∣A）+P（Ā）P（B∣Ā）=2/3×1+1/3×1/4=3/4

将上例推广到一般情况就是全概率公式：

有i条路可以达到目的地，A1、A2….Ai互不相容，也只有这i条路可达到目的地，它们构成了所有的可能性集合，则称事件A1、A2….Ai为完备事件组。

要达到目的地（事件B），总是要选择Ai中的一条路，与其同时发生。

P（B）=P（A1B）+P（A2B）+……+P（AiB）=P（A1）P（B∣A1）+P（A2）P（B∣A2）+…+P（Ai）P（B∣Ai）

P（Ai）P（B∣Ai）

直观意义：

每一个Ai发生都可能导致B发生，每一个Ai地发生导致B发生的概率为P（AiB）=P（Ai）P（B∣Ai），因此作为结果的事件B发生的概率是各个原因A1引发的概率的和。

由全概率公式推导出贝叶斯公式，也称后验概率公式：

P（Ai∣B）=P（AiB）/P（B）=P（Ai）P（B∣Ai）/

P（Ai）P（B∣Ai）

实际等同于计算在给定B条件下Ai的条件概率公式。

应用十分广泛，是在观察到B已发生情况下，确定导致B发生的各个原因Ai的概率，常用来寻找事件发生的最可能原因。

例8/练习题：

在例6中，若学生回答正确，则其纯属猜对的概率是多少？

解：

就是要求在答对的情况下B，不知道答案Ā的概率是多少。

P（Ā∣B）=P（ĀB）/P（B）=P（Ā）P（B∣Ā）/｛P（A）P（B∣A）+P（Ā）P（B∣Ā）｝=1/3×1/4/2/3×1+1/3×1/4≈0.111

第二节随机变量及其概率分布

一、随机变量的概念

如果随机试验的每个可能结果都用一个数值表示，那么所有结果就可用一个变量表示，即随机变量。

随机变量的取值是随机的，事先不确定。

随机变量通常用大写字母表示，具体取值用小写字母表示。

例如，检查产品合格率，出现次品的件数可能是0、1、2、3件，出现次品的件数就是一个随机变量X，它有4个取值x1x2x3x4，分别对应4个事件。

随机变量X取值为xi的概率用P（X=xi）来表示。

根据取值的特点，将随机变量分为离散型和连续型。

二、随机变量的概率分布——随机变量取值的规律，即取各个值的概率分布

1、离散型随机变量的概率分布

例9：

将一均匀筛子投掷20次、100次、无数次，用X表示筛子落下时面朝上的点数，做出各种情况下X的相对频率分布表和分布图。

表：

筛子出现点数的相对频率分布

出现的点数X

相对频率f/n

n=20

n=100

n=∞

0.20

0.18

1/6

0.10

0.17

1/6

0.30

0.15

1/6

0.15

1/6

0.10

0.20

1/6

0.15

1/6

f/n

n=20f/nn=10f/n=P（x）n=∞

0.30.30.3

0.20.20.2

0.10.10.1

123456123456123456

当样本较小时，相对频率剧烈波动，随着样本量增加，相对频率趋于稳定，最后稳定在一个极限分布上，即随机变量X的概率分布。

通过离散型随机变量的概率分布图形，可以知道该变量有可能有哪些取值及每个可能取值出现的频率。

每个取值的相对频率之和等于1，概率之和也等于1：

∑P（x）=1

2、连续型随机变量的概率密度

表：

200名男生身高的频数分布

组限

组中值

频数

相对频率

相对概率密度

148-154

151

0.02

0.003

154-160

157

0.06

0.010

160-166

163

0.22

0.037

166-172

169

0.32

0.053

172-178

175

0.28

0.047

178-184

181

0.08

0.013

184-190

187

0.02

0.003

合计

200

1.00

如画出条形图，柱条高度之和为1。

如果将组距缩小一倍，3厘米，则条形图形状如下：

148-151

149.5

0.01

0.003

151-154

152.5

0.01

0.003

154-157

155.5

0.03

0.010

157-170

158.5

0.03

0.010

合计

200

1.00

随着组距的减小，相对频率分布图越来越扁，柱条的宽度越来越窄，所有柱条高度之和仍为1。

如果将纵轴刻度改为相对频率密度=相对频率/组距，画出直方图，就使得柱状图不受组距大小影响，而成为一个标准化的图。

这时柱条面积总和等于1。

样本量增加、组距减小时的变化：

随样本量增大，随机因素影响减小，相对频率趋向于概率。

同时样本增大也可以更精细地分组，于是在面积固定为1时，相对频率密度近似变成一条曲线，称为密度函数，简称概率分布。

离散型随机变量分布图形是一个阶梯形，连续型变量是一条曲线。

三、随机变量的数字特征

1、随机变量的数学期望—均值

它描述随机变量的概率分布的中心位置。

例10：

赌博中的掷筛子

n=20

n=100

n=∞

f/n

X（f/n）

f/n

X（f/n）

f/n=P（X）

XP（X）

0.20

0.2

0.18

1/6

0.10

0.2

0.17

0.34

1/6

2/6

0.30

0.9

0.15

0.45

1/6

3/6

0.15

0.6

0.15

0.60

1/6

4/6

0.10

0.5

0.20

1.00

1/6

5/6

0.15

0.9

0.15

0.90

1/6

6/6

=3.30

=3.47

μ=21/6=3.50

随样本量增大，样本均值趋向于某一极限值，称为概率分布的均值或总体均值，也叫随即变量X的均值，用E（x）或μ表示。

μ=∑XP（X）

E（x）只是重复多次试验后所能期望得到的平均意义上的值，不一定是真实出现的值，所以也叫期望值。

2、随机变量的方差和标准差

例11：

按照上表中最后一列的概率分布计算均方差MSD和方差

P（X）

（x-μ）

（x-μ）2

（x-μ）2P（X）

1/6

-2.50

6.25

1.04

1/6

-1.50

2.25

0.38

1/6

-0.50

0.25

0.04

1/6

0.50

0.25

0.04

1/6

1.50

2.25

0.38

1/6

2.50

6.25

1.04

μ=3.50

MSD=2.92

方差和均方差的差别仅在于除数是n-1而不是n，但当总体趋于无穷大时，两者相同。

方差=MSD=2.92；标准差=

=1.71。

极限情况下的方差称为概率分布的方差或总体方差，用

2表示，

公式：

2=MSD=∑（X-μ）2P（X）

3、总体矩和样本矩

总体均值和方差也叫做总体的一阶矩和二阶距，与样本均值和样本方差的比较：

样本矩

总体矩

样本均值

=∑X（f/n）

总体均值

μ=∑XP（X）

样本方差

S2=MSD=∑（X-

）2f/n

总体方差

2=MSD=∑（X-μ）2P（X）

四、常见的概率分布模型

1、二项分布——离散型随机变量

针对二项变量，即每次实验只有两种可能结果的变量，如性别、抛硬币正反面。

这类试验的两种可能结果通常用“成功”和“失败”表示，用p和1-p表示成功概率和失败概率，每次都有相同的成功概率和失败概率，且每次实验是独立的。

N次这样的重复试验中成功的总次数X就称为二项变量。

二项变量的例子：

试验

成功

失败

X=k

投掷均匀硬币

国徽朝上

国徽朝下

1/2

投掷次数

国徽朝上的总次数

随机抽取一居民

女性

男性

总体中女性居民的比例

样本量

样本中的女性人数

多项选择题答案猜测（5个选项）

正确

错误

1/5

试题数

回答正确题数

二项变量X的概率分布就是二项分布，概率分布公式为：

P（X=k）=Cnkpk（1-p）n-kk=0,1,2,3…..

例12：

在一个男女居民各半的大居民中，抽取一个n=10的随机样本，问1）样本中正好有4位女性居民的概率是多少？

2）样本中至少有2为女性居民的概率是多少？

假定有放回抽样（其实不放回时误差也很小，因为总体很大而样本很小）。

解：

n=10，k=4，p=0.5

1）P（X=4）=C104（0.5）4（0.5）6=0.2051

2）P（X≤2）=P（X=2）+P（X=3）+P（X=4）…….+P（X=10）=0.9893

可以查询表二项概率分布表或二项分布的右侧尾部累计概率表。

二项分布的性质：

二项分布可简写为B（n,p），n是独立实验的次数，p是事件A在每次实验中发生的概率。

二项分布的数学期望为np，二项分布方差为npq。

当p=0.5时，分布图形是对称的，当不等于0.5时非对称，n越大非对称性越不明显。

2、正态分布——连续型随机变量，写作N（μ,

2）

许多连续型随机变量的概率分布是一种呈钟形的对称曲线，叫做正态曲线或高斯曲线，统计中最普通也最常用的分布。

正态分布的特征：

单峰，对称——众数、中位数和均值相等。

正态分布的常用性质：

（1）正态曲线以x轴为渐近线，但是永远不会与x相交。

（2）正态分布是一条关于x=μ对称的钟形曲线，平均值μ位于正态曲线的中心。

（3）标准差

决定陡峭或扁平程度，

越小，越陡峭，

越大，越扁平。

（4）任何正态分布都适用68—95—99.7规则，即：

大约有68.27%的数据落在距平均值一个标准差的范围内，即距均值一个标准差的范围面积占总面积的68%；

大约有95.45%的数据落在距平均值两个标准差的范围内；

大约有99.73%的数据落在距平均值三个标准差的范围内。

2.1标准正态分布，写作N（0，1）

由于不同的变量的各自分布形状不同，同一变量采用不同度量单位也会产生不同正态分布。

所以可转换为统一的分布：

标准正态分布，μ=0，

=1的正态分布，也叫Z分布。

将随机变量X转化为Z值，Z=

，表示X值与均值的距离是标准差的几倍。

则随机变量Z服从标准正态分布N（0，1）。

标准分的实际意义：

例子：

A同学数学考了90分，平均分是70分；B同学政治考了90分，平均分85分，两个同学的成绩一样吗？

设标准差相等都为10分。

Z（A）=90-70/10=2

Z（B）=90-85/10=0.5则A优于B

C同学数学考了70分，标准分为70-70/10=0，但不等于真实成绩为0。

如果数学和政治平均分都为70分，数学成绩标准差为20，政治成绩标准差为10，则A同学和B同学孰优孰劣？

Z（A）=90-70/20=1

Z（B）=90-70/10=2则B优于A

学习正态分布和标准正态分布的作用：

计算某个变量在某一范围内取值的概率。

例13：

练习查表，p（Z＞1.96）;p（Z＜-1.96）;p（-1.96＜Z＜1.96）;p（-1.0＜Z＜1.5）

p（Z＞1.96）=0.025;p（Z＜-1.96）=p（Z＞1.96）=0.025;p（-1.96＜Z＜1.96）=1-2p（Z＞1.96）=0.95;p（-1.0＜Z＜1.5）=1-p（Z＜-1.0）-p（Z＞1.5）=1-p（Z＞1.0）-p（Z＞1.5）=0.7745

p（-1.0＜Z＜1.5）=p（Z＜1.5）-（1-p（Z＜1.0））=0.7745

例14：

某企业员工平均收入X服从μ=1750元，标准差=350元的正态分布，求该企业员工收入超过2200元的比例是多少？

低于1500元的比例有多少？

也就是说，随机抽取一位员工其平均收入超过2200元或不到1500元的概率是多少？

解：

1）Z=（2200-1750）/350≈1.29，p（Z＞1.29）=0.0958≈9.6%

2）Z=（1500-1750）/350=-0.71，p（Z＜-0.71）=p（Z＞0.71）=0.2398≈24%

第三节大数定理与中心极限定理

大数定理是阐明大量同类随机现象平均结果的稳定性的一系列定理；中心极限定理是研究在什么条件下，随机变量之和的分布可以近似为正态分布的一系列定理。

两种定理奠定了统计推断的理论依据。

一、大数定律

1、独立同分布大数定律

设随机变量X1、X2….Xn相互独立且服从同一分布，且存在有限的数学期望/平均值μ和方差

2，则对任意小的正数

，有

表明，当n充分大时，相互独立且服从于同一正态分布的X1、X2….Xn的算术平均数

，与其数学期望值μ的偏差任意小的概率/可能性接近1or100%。

该定理指出了平均数具有稳定性的特征，从而使得可以在抽样调查中用样本均值来估计总体均值。

2、贝努利大数定律

设m是n次独立重复试验（贝努利实验）中事件A发生的次数，p是每次实验中事件A发生的概率，则对任意的

＞0，有

表明，当重复试验次数n充分大时，事件A发生的频率

与概率之间的差任意小的概率为1，即事件A发生的频率有着接近其概率的趋势。

说明了频率具有稳定性，奠定了用频率来估计概率的理论依据。

二、中心极限定理

1、独立同分布的中心极限定理

设随机变量X1、X2….Xn是相互独立且服从同一分布，且存在有限的数学期望/平均值μ和方差

2，那么当n趋于无穷大时，n项总和或均值的分布趋近于正态分布：

Xi~N（nμ,n

2）或

~N（μ,

2/n）

由此可知：

不论总体服从何种分布，只要其数学期望和方差存在，对这一总体进行重复抽样时，只要样本量n无穷大，∑Xi或

就趋于正态分布。

在抽样调查中的意义：

被研究的总体分布未知，但只要样本量足够大，样本均值的分布接近正态分布，为均值的抽样推断奠定依据。

2、棣莫佛-拉普拉斯中心极限定理

设随机变量X服从二项分布，那么当n趋于无穷大时，X接近均值为np，方差为npq的正态分布，即：

X~N（np,npq）

表明，当n很大时，np和npq也都不太小时，二项分布可以近似表示为正态分布。

展开阅读全文