数理统计讲义doc.docx

上传人:b****5 文档编号:28424879 上传时间:2023-07-13 格式:DOCX 页数:190 大小:1.46MB
下载 相关 举报
数理统计讲义doc.docx_第1页
第1页 / 共190页
数理统计讲义doc.docx_第2页
第2页 / 共190页
数理统计讲义doc.docx_第3页
第3页 / 共190页
数理统计讲义doc.docx_第4页
第4页 / 共190页
数理统计讲义doc.docx_第5页
第5页 / 共190页
点击查看更多>>
下载资源
资源描述

数理统计讲义doc.docx

《数理统计讲义doc.docx》由会员分享,可在线阅读,更多相关《数理统计讲义doc.docx(190页珍藏版)》请在冰豆网上搜索。

数理统计讲义doc.docx

数理统计讲义doc

 

《数理统计》

 

教案

 

第一章统计量及其抽样分布

 

第一节总体与样本

教学目的:

要求学生理解数理统计的两个基本概念:

总体

 

和样本,以及与这两个基本概念相关的统计基本思想和样本分布。

教学重点:

掌握数理统计的基本概念和基本思想.

教学难点:

掌握数理统计的基本概念和基本思想.

 

一、总体与个体

 

在一个统计问题中,我们把研究对象的全体称为总体,构成总体的每个成员称为个体。

对多数实际问题。

总体中的个体是一些实在的人或物。

比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。

事实上,每个学生有许多特征:

性别、年龄、身高、体重、民族、籍贯等。

而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不予以

 

考虑。

这样,每个学生(个体)所具有的数量指标值——身高就是个体,而将所有身高全体看成总体。

这样一来,若抛开实际背景,总体就是一堆数,这堆数中有大

 

有小,有的出现的机会多,有的出现的机会少,因此用一个概率分布去描述和归纳总体是恰当的。

从这个意义上看,总体就是一个分布,而其数量指标就是服从这个分布的随机变量。

以后说“从总体中抽样”与“从某分布中抽样”是同一个意思。

例1.考察某厂的产品质量,将其产品只分为合格品与不合格品,并以0记合格

 

品,以1记不合格品,则

 

总体={该厂生产的全部合格品与不合格品}={由0或1组成的一堆数}。

 

若以p表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表

 

示:

 

不同的p反映了总体间的差异。

例如,两个生产同类产品的工厂的产品总体分布为:

 

我们可以看到,第一个工厂的产品质量优于第二个工厂。

 

实际中,分布中的不合格品率是未知的,如何对之进行估计是统计学要研究的问题。

 

二、样本

 

为了了解总体的分布,我们从总体中随机地抽取

n个个体,记其指标值为

x1,

 

x2,,xn,则x1,x2,,xn称为总体的一个样本,n称为样本容量,或简称样本量,样本中的个体称为样品。

 

我们首先指出,样本具有所谓的二重性:

一方面,由于样本是从总体中随机抽

取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X1,X2,,

 

Xn表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一

组数值。

此时用小写字母x1,x2,,xn表示是恰当的。

简单起见,无论是样本还是

 

其观测值,本书中样本一般均用x1,x2,,xn表示,读者应能从上下文中加以区别。

 

例2.啤酒厂生产的瓶装啤酒规定净含量为640g,,由于随机性,事实上不可能

 

使得所有的啤酒净含量均为640g,现从某厂生产的啤酒中随机抽取10瓶测定其净含

 

量,得到如下结果:

 

641635640637642638645643639640

 

这是一个容量为10的样本的观测值。

对应的总体为该厂生产的瓶装啤酒的净含

 

量。

 

从总体中抽取样本时,为使样本具有代表性,抽样必须是随机抽样。

通常可以用随机数表来实现随机抽样。

还要求抽样必须是独立的,即每次的结果互不影响。

在概率论中,在有限总体(只有有限个个体的总体)中进行有放回抽样,是独立的随机抽样;然而,若为不放回抽样,则是不独立的抽样。

 

当总体容量N很大但样本容量n较小时,不放回抽样可以近似地看做放

 

回抽样,即可近似看做独立随机抽样。

 

下面,我们假定抽样方式总满足独立随机抽样的条件。

 

从总体中抽取样本可以有不同的抽法,为了能由样本对总体做出较可靠的推断,

 

就希望样本能很好地代表总体。

这就需要对抽样方法提出一些要求,最常用的

 

“简单随机抽样”有如下两个要求:

(1)样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本,这便意味着每一样品xi与总体X有相同的分布。

(2)样本要有独立性,即要求样本中每一样品的取值不影响其他样品的取值,

 

这意味着x1,x2,,xn相互独立。

 

用简单随机抽样方法得到的样本称为简单随机样本,也简称样本。

除非特别

 

指明,本书中的样本皆为简单随机样本。

 

于是,样本x1,x2,,xn可以看成是相互独立的具有同一分布的随机变量,其共同分布即为总体分布。

设总体X具有分布函数F(x),x1,x2,,xn为取自该总体的容量为n的样本,

 

则样本联合分布函数为:

 

若总体具有密度函数f(x),则样本的联合密度函数为

 

若总体X为离散型随机变量,则样本的(联合)概率函数为

 

显然,通常说的样本分布是指多维随机变量(x1,x2,,xn)的联合分布。

例3.为估计一物件的重量μ,用一架天平重复测量n次,得样本x1,x2,,xn,由于是独立重复测量,x1,x2,,xn是简单随机样本。

总体的分布即x1的分布(x1,

x2,,xn分布相同)。

由于称量误差是均值(期望)为零的正态变量,所以x1可认

 

2

为服从正态分布N(μ,σ)(X1等于物件重量μ)加上称量误差,即x1的概率密度

 

这样,样本分布密度为

 

 

例4.设某种电灯泡的寿命X服从指数分布E(λ),其概率密度为:

 

则来自这一总体的简单随机样本x1,x2,,xn的样本分布密度为

 

例5.考虑电话交换台一小时内的呼唤次数X。

求来自这一总体的简单随机样本x1,x2,,xn的样本分布。

 

解由概率论知识,X服从泊松分布P(λ),其概率函数

 

(其中x是非负整数{0,1,2,,k,}中的一个)。

从而,简单随机样本

 

x1,x2,,xn的样本分布为:

 

第二节统计量及其分布

 

教学目的:

要求学生理解数理统计的基本概念:

统计量,熟练掌握样本均值、样本

 

方差、样本原点矩、样本中心矩等常用统计量的计算公式,掌握次序统计量及其抽

样分布。

能用R软件来计算这些常用统计量,能用R软件来产生分布的随机数以进

 

行随机模拟。

 

教学重点:

样本均值、样本方差、样本原点矩、样本中心矩等常用统计量的求法;次序统计量的抽样分布。

 

教学难点:

次序统计量的抽样分布。

 

一、统计量与抽样分布

 

样本来自总体,样本的观测值中含有总体各方面的信息,但这些信息较为分散,有时显得杂乱无章。

为将这些分散在样本中有关总体的信息集中起来以反映总体的

 

各种特征,需要对样本进行加工。

最常用的加工方法是构造样本的函数,不同的函数反映总体的不同特征。

定义1.设x1,x2,,xn为取自某总体的样本,若样本函数T=T(x1,x2,,xn)中不含有任何未知参数,则称T为统计量。

统计量的分布称为抽样分布。

 

按照这一定义,若x12

n

为样本,则

2

,x,,x

都是统计量,而当μ,σ

未知时,

等均不是统计量。

 

二、样本均值及其抽样分布

 

定义2.设x1,x2,,xn为取自某总体的样本,其算术平均值称为样本均值,一般

 

 

表示,即。

 

例6.某单位收集到20名青年人某月的娱乐支出费用数据:

 

79

84

84

88

92

93

94

97

98

99

100

101

101

102

102108

110

113

118

125

则该月这20名青年的平均娱乐支出为

 

对于样本均值的抽样分布,我们有下面的定理。

 

定理1.设x1,x2,,xn是来自某个总体X的样本,为样本均值。

 

(1)若总体分布为

2

N(μ,σ),则的精确分布为

(2)若总体X分布未知(或不是正态分布),且

2

E(X)=μ,D(X)=σ,则当样

 

本容量n较大时,的渐近分布为,这里的渐近分布是指n较大时的

近似分布。

 

证明

(1)由于为独立正态变量线性组合,故仍服从正态分布。

另外,

 

 

(2)易知为独立、同分布的随机变量之和,且

 

由中心极限定理,

 

 

其中Φ(x)为标准正态分布。

这表明n较大时的渐近分布为。

 

三、样本方差与样本标准差

 

定义3.设x1,x2,,xn为取自某总体的样本,则它关于样本均值的平均偏差平方和

 

称为样本方差,其算术根称为样本标准差。

相对样本方差而言,样本标准差通常更

 

有实际意义,因为它与样本均值具有相同的度量单位。

 

在上面定义中,n为样本容量,称为偏差平方和,

 

它有3个不同的表达式:

 

事实上,

 

偏差平方和的这3个表达式都可用来计算样本方差。

 

例7.在例6中,我们已经算得,其样本方差与样本标准差为

 

 

 

方法二

∴s=31

 

通常用第二种方法计算s2方便许多。

下面的定理给出样本均值的数学期望和方差以及样本方差的数学期望,它不依赖于总体的分布形式。

这些结果在后面的讨论中是有用的。

 

定理2.设总体X具有二阶矩,即

 

E(x)=μ,D(X)=σ2<+∞

x1

2

n

为从该总体得到的样本,

2

分别是样本均值和样本方差,则

,x,,x

和s

 

此定理表明,样本均值的均值与总体均值相同,而样本均值的方差是总体方差

 

的。

 

证明由于

 

(1)

 

(2)

 

且有:

 

,而

 

于是

 

 

两边各除以n-1,即得证。

 

值得读者注意的是:

本定理的结论与总体服从什么分布无关。

 

四、样本矩及其函数

 

样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。

 

定义4.设x1,x2,,xn是样本,则统计量

 

称为样本k阶原点矩,特别地,样本一阶原点矩就是样本均值。

统计量

 

称为样本k阶中心矩。

常见的是k=2的场合,此时称为二阶样本中心矩。

本书中我

们将其记为sn2,以区别样本方差S2。

 

五、极大顺序统计量和极小顺序统计量

 

定义5.设总体X具有分布函数F(x),分布密度f(x),x1,x2,,xn

 

为其样本,我们分别称

X

(1)=min{x1,x2,xn},x(n)=max{x1,x2,xn}为极小顺序统计量和极大顺序统计量。

 

定理3.若x

(1),x(n)分别为极小、极大顺序统计量,则

(1)x

(1)

1

n

(1)

1

n-1

f(x)

的分布函数

F(x)=1-(1-F(x)),x

的分布密度f(x)=n-(1-F(x))

 

(2)x(n)的分布函数Fn(x)=[F(x)]n,x(n)的分布密度fn(x)=n[F(x)]n-1f(x)

 

证明先求出x

(1)及x(n)的分布函数F1(x)及Fn(x):

 

 

分别对F1(x),Fn(x)求导即得

 

六、正态总体的抽样分布

 

有很多统计推断是基于正态总体的假设的,以标准正态变量为基石而构造的三

 

个著名统计量(其抽样分布分别为x2分布,t分布和F分布)在实践中有着广泛的

应用。

这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有“明确

 

的表达式”,它们被称为统计中的“三大抽样分布”。

1.x2分布(卡方分布)

定义6.设X1,X2,,Xn独立同分布于标准正态分布N(0,1),

2

2

2

的分布称为自由度为

2

2

2

(n)。

则x

1

n

n的x

分布,记为x~x

=x+x

 

x2(n)分布的密度函数见图1-4

 

当随机变量

2

2

(n)时,对给定的

2

2

2

x

~x

α(0<α<1),称满足p{x

>xα(n)}=α的xα

(n)}是自由度为n的开方分布的α分位数。

分位数xα2(n)}可以从附表4中查到。

例如n=10,α=,那么从附表4中查得x2(10)=

p(x)2>(10)=p{x2>=

注:

请读者注意x2~x2(n)时,n是自由度,不是容量。

 

分布

 

定义7.设x1

2

2

2

1

2

独立,则称

的分布是自由度

~x(m),x~x(n)X

与X

为m与n的F分布,记为F~F(m,n),其中m称为分子自由度,n称为分母

 

自由度。

 

自由度为m与n的F分布的密度函数的图像是一个只取非负值的偏态分布(见

 

图6-5)。

 

当随机变量F~F(m,n)时,对给定的α(0<α<1),称满足P{F>Fα}(m,n)=α

的数Fα(m,n)是自由度为m与n的F分布的α分位数。

 

当F~F(m,n)时,有下面性质(不证)

 

这说明

 

对小的α,分位为Fα(m,n)可以从附表5中查到,而分位数F1-α(m,n)则

 

可通过上式得到。

 

例8.若取m=10,则n=5,α=,那么从附表5上(m=n1,n=n2)查得(10,5)=

 

利用()式可得到

 

分布

定义8.设随机变量与X1与X2独立且X1~N(0,1),X2~X2(n),

 

则称的分布为自由度为n的t的分布,记为t~t(n).

 

t分布密度函数的图像是一个关于纵轴对称的分布(如下图),与标准正态分布

 

的密度函数形态类似,只是峰比标准正态分布低一些,尾部的概率比标准正态分布

 

的大一些。

 

t分布与N(0,1)的密度函数

当随机变量t~t(n)时,称满足P{t>tα(n)}=α的tα(n)是自由度为n的t分布的α分位数,分位数tα(n)可以从附表3中查到,例如当n=10,α=时,从附表

 

3上查得

(10)=

 

由于t分布的密度函数关于0对称,故其分位数有如下关系:

 

t1-α(n)=-tα(n)

 

例如,

(10)=(10)=

 

当n很大时,(n≥30),t分布可以用N(0,1)近似

 

P(t>-tα)=1-α,p(t>t1-α)=1-α,∴t1-α=-tα

 

4.一些重要结论

来自一般正态总体的样本均值和样本方差S2的抽样分布是应用最广的抽样分布,下面我们加以介绍。

定理4.设X1,X2,Xn是来自正态总体N(μ,2σ)的样本,其样本均值和样本方差分别为:

 

则有

(1)与s2相互独立;

 

(2)

 

特别,若

(不证)

2

2

2

并记

推论:

设,σ1

2

 

 

(不证)

 

本章小结

 

本章的基本要求:

 

(一)知道总体、样本、简单样本和统计量的概念

(二)知道统计量和s2的下列性质:

 

22

E(s)=σ

(三)若x的分布函数为F(x),分布函数为f(x),则样本(x1,x2,xn)的联合分布函数为F(x1)F(x2)F(xn)样本(x1,x2,xn)的联合分布密度为f(x1)f

(x2)f(xn),样本(x1,x2,xn)的概率函数,p(x1,x2,xn)=p(X=x1)p(X=x2)p

 

(X=xn)因而顺序统计量x

(1),x(n)中

 

X

(1)的分布函数为1-(1-F(x))n

X(n)的分布函数为[F(x)]n

 

(四)掌握正态总体的抽样分布

2

若X~N(μ,σ)则有

 

(1)

 

(2)

 

(3)

 

(4)若

 

=>

 

当时,。

 

(五)知道样本原点矩与样本中心矩的概念

 

第二章参数估计

从本章开始我们介绍统计推断,所谓统计推断就是由样本推断总体,统计推断包括

 

参数估计和假设检验两部分,它们是统计推断最基本而且是互相有联系的两部分,

 

本章介绍统计推断的第一部分参数估计。

参数通常指总体分布中的特征值和和各种分布中的参数,例如二点分布B

(1,P)中的p,泊松分布P()中的,正态分布N(、)的、等,习惯用表示参数,通常参数是未知的。

参数估计的形式有两类,设x1,x2,,xn是来自总体的样本。

我们用一个统计量的取值作为参数的估计值,则称为的点估计(量),就是参数的点

 

估计,如果对参数的估计需要对估计作出可靠性判断,就需要对这一可靠性给出可靠性区间或置信区间,叫区间估计。

 

下面首先介绍点估计

 

第一节点估计

 

教学目的:

要求学生了解参数点估计的基本思想,理解参数点估计的基本概念,熟练运用替换原理、矩法估计和最大似然估计对参数进行估计。

教学重点:

矩法估计、最大似然估计.

 

教学难点:

运用矩法估计、最大似然估计对参数进行估计.

 

直接用来估计未知参数的统计量称为参数的点估计量,简称为点估计,人们可以运用各种方法构造出很多的估计,本节介绍两种最常用的点估计方法。

它们是:

矩法和极大似然法。

 

一、替换原理和矩法估计

 

用下面公式表示的方法叫矩法

 

例1.对某型号的20辆汽车记录每5L汽油的行驶里程(km),观测数据如下:

 

这是一个容量为20的样本观测值,对应总体是该型号汽车每5L汽油的行驶里

 

程,其分布形式尚不清楚,可用矩法估计其均值,方差,本例中经计算有

 

=,=

 

由此给出总体均值,方差的估计分别为即

 

矩法估计的统计思想(替换原理)十分简单明确,众人都能接受,使用场合甚

 

广。

例2.设总体为指数分布,其密度函数为

 

x1

n

,亦即

,故的矩法估计为

,x是样本,由于

 

例3.设x1n

的样本,>0为未

,x是来自服从区间(0,)上的均匀分布

知参数。

求的矩估计。

解:

易知总体X的均值为

 

由矩法的矩估计为

 

比如,若样本值为,,,1,,,,则的估计值

 

=2×(+++1+++)=2

例4.在一批产品取样n件,发现其中有m件次品,试用此样本求该批产品的次品率p的矩估计。

 

解:

因为

 

例如抽样总数n=100,其中次品m=5.

 

例5.电话总机在一分钟间隔内接到呼唤次数X~P()。

观察一分种接到呼唤次数共观察40次,结果如下

 

接到呼唤次数

0

1

2

3

4

5

观察次数

5

10

12

8

3

2

求未知参数

的矩估计

解:

(1)∵X~P()

 

∴EX=

 

由矩法

 

 

(2)计算(0×5+1×10+2×12+3×8+4×3+5)=×2

∴=2

 

二、极大似然估计

 

为了叙述极大似然原理的直观想法,先看例6

 

例6.设有外表完全相同的两个箱子,甲箱中有99个白球和1个黑球,乙箱中有

 

99个黑球和1个白球,现随机地抽取一箱,并从中随机抽取一球,结果取得白球,

 

问这球是从哪一个箱子中取出的

 

解:

不管是哪一个箱子,从箱子中任取一球都有两个可能的结果:

A表示取出

 

白球,B表示取出黑球,如果我们取出的是甲箱,则

A发生的概率为,而如果取出

 

的是乙箱,则

A发生的概率为,现在一次试验中结果

A发生了,人们的第一印象就

 

是:

“此白球(A)最像从甲箱取出的”,或者是说,应该认为试验条件对事件

A出现

 

有利,从而可以推断这球是从甲箱中取出的,这个推断很符合人们的经验事实,这

 

里“最像”就是“极大似然”之意。

 

本例中假设的数据很极端,一般地,我们可以这样设想,在两个箱子中各有100

个球,甲箱中白球的比例是P1,乙箱中白球的比例是P2,已知P1>P2,现随机地

 

抽取一个箱子并从中抽取一球,假定取到的是白球,如果我们要在两个箱子中进行

 

选择,由于甲箱中白球的比例高于乙箱,根据极大似然原理,我们应该推断该球来

 

自甲箱。

 

下面分别给出离散型随机变量和连续型随机变量的极大似然估计求未知参数

 

的估计的步骤

 

(一)离散型随机变量

 

第一步,从总体X取出样本x1,x2,,xn

 

第二步,构造似然函数

 

L(x1,x2,,xn,)=P(X=x1)P(X=x2)P(X=xn)

第三步,计算lnL(x1,x2,,xn,)并化简

 

第四步,当=时lnL(x1,x2,,xn,)取最大值则取=

 

常用方法是微积分求最值的方法。

 

(二)连续型随机变量

 

若X~f(x,)

 

第一步从总体X取出样本x1,x2,,xn

 

第二步构造似然函数

 

12

n

1

2

n

,)

L(x,x,,x,)=f(x,)f(x,)f(x

第三步

计算lnL(x1

2

n

x,

x,)并化简

第四步

当=时lnL(x12n

x,,x,)取最大值则取

常用方法是微积分求最值的方法

 

例7.设总体X~B(1,P)即

 

设P(A)=,从总体X中抽样x1,x2,,xn,问最大似然法求

 

解:

当X~B(1,P)时,应有

 

∴P(X=1)=P,P(X=0)=1-P

 

第一步构造似然函数

 

L(x1,x2,,xn,P)=P(X=x

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1