样本及抽样分布.pptx

上传人:j*** 文档编号:30803628 上传时间:2024-01-29 格式:PPTX 页数:69 大小:1.24MB
下载 相关 举报
样本及抽样分布.pptx_第1页
第1页 / 共69页
样本及抽样分布.pptx_第2页
第2页 / 共69页
样本及抽样分布.pptx_第3页
第3页 / 共69页
样本及抽样分布.pptx_第4页
第4页 / 共69页
样本及抽样分布.pptx_第5页
第5页 / 共69页
点击查看更多>>
下载资源
资源描述

样本及抽样分布.pptx

《样本及抽样分布.pptx》由会员分享,可在线阅读,更多相关《样本及抽样分布.pptx(69页珍藏版)》请在冰豆网上搜索。

样本及抽样分布.pptx

第六章样本及抽样分布,第一节总体与样本第二节样本分布函数直方图第三节样本函数与统计量第四节抽样分布,前面五章我们讲述了概率论的基本内容,随后的四章将讲述数理统计。

数理统计是具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。

数理统计的内容包括:

如何收集、整理数据资料;如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断。

后者就是我们所说的统计推断问题。

本书只讲述统计推断的基本内容。

本章我们介绍总体、随机样本及统计量等基本概念,并着重介绍几个常用统计量及抽样分布。

第一节总体与样本,我们知道,虽然从理论上讲,对随机变量进行大量的观测,被研究的随机变量的概率特征一定能显现出来,可是实际进行的观测次数只能是有限的,有的甚至是少量的。

因此,我们关心的问题就是怎样有效地利用收集到的有限的资料,尽可能地对被研究的随机变量的概率特征作出精确而可靠的结论。

例如,我们考察某厂生产的电视机显像管的质量,在正常生产情况下,显像管的质量主要表现为它们的平均寿命是稳定的。

然而,由于生产中各种随机因素的影响,各个显像管的寿命是不完全相同的。

因为受到人力、物力等的限制,特别是测定显像管寿命这类的试验具有破坏性,所以我们不可能对生产的全部显像管一一进行测试,一般只是从整批显像管中取出一些显像管来测试,然后根据得到的这些显像管寿命的数据来推断整批显像管的平均寿命。

我们把被研究的对象的全体称为总体(或母体),而把组成总体的各个元素称为个体。

在上面的例子中,该厂生产的所有显像管的寿命就是总体,而每一个显像管的寿命就是个体。

代表总体的指标(如显像管的寿命)是一个随机变量,所以总体就是指某个随机变量可能取的值的全体。

从总体中抽取一个个体,就是对代表总体的随机变量进行一次试验(或观测),得到的一个试验数据(或观测值)。

从总体中抽取一部分个体,就是对随机变量进行若干次试验(观测)。

从总体中抽取若干个个体的过程称为抽样。

抽样结果得到的一组试验数据(观测值),称为样本(或子样);样本中所含个体的数量称为样本容量。

假设满足下述两个条件:

(1)随机性为了使样本具有充分的代表性,抽样必须是随机的,应使总体中的每一个个体都有同等的机会被抽取到,通常可以用编号抽签的方法或利用随机数表来实现。

(2)独立性各次抽样必须是相互独立的,即每次抽样的结果既不影响其它各次抽样的结果,也不受其它各次抽样结果的影响。

这种随机的、独立的抽样方法称为简单随机抽样,由此得到的样本称为简单随机样本。

例如,从总体中进行放回抽样,显然是简单随机抽样,得到的样本就是简单随机样本。

从有限总体(即其中只含有有限多个个体的总体)中,进行不放回抽样,,虽然不是简单随机抽样,但是正如在前面我们已知的,若总体容量很大而样本容量较小(),则可以近似地看作是放回抽样,,因而也就可以近似地看作是简单随机抽样,得到的样本可以近似地看作是简单随机样本。

今后,凡是提到抽样与样本,都是指简单随机抽样与简单随机样本而言。

我们指出,从总体中抽取容量为的样本,就是对代表总体的随机变量随机地、独立地进行次试验(观测),每次试验的结果可以看作是一个随机变量,次试验的结果就是个随机变量,这些随机变量相互独立,并且与总体服从相同的分布。

设得到的样本观测值分别是,则可以认为抽样的结果是个相互独立的事件发生了,若将样本,看作是一个维随机变量,则

(1)当总体是离散随机变量,若记其分布率为,则样本的分布律为:

(1),

(2)当总体是连续随机变量,且具有概率密度函数时,样本的概率密度为,1.设是来自两点分布总体的样本,的分布为:

3.设电话交换台一小时内的呼唤次数服从泊松分布,求来自这一总体的简单随机样本的样本分布律。

求样本分布律。

2.设有个产品,其中有个次品,个正品,进行放回抽样,定义如下:

求样本的分布律。

4.设某种电灯泡的寿命服从指数分布,求来自这一总体的简单随机样本的联合概率密度。

5.设是来自均匀分布总体的样本,求样本的联合概率密度。

第二节样本分布函数直方图,一、样本分布函数,我们把总体的分布函数称为总体分布函数.从总体中抽取容量为的样本得到个样本观测值,若样本容量较大,则相同的观测值可能重复出现若干次,为此,应当把这些观测值整理,并写出下面的样本频率分布表:

其中,定义设函数,其中和式是对小于或等于的一切的频率求和,则称为样本分布函数,经验分布函数。

易知样本分布函数具有下列性质:

(2)是非减函数;,

(1),(3),(4)在每个观测值处是右连续的,点是的跳跃间断点,在该点的跃度就等于频率,样本分布函数的图形如图61所示,图6-1,对于任意的实数总体分布函数是事件的概率;样本分布函数是事件的频率。

根据伯努利大数定理可知,当时,对于任意的正数,有,格利文科(Glivenko)进一步证明了当时,样本分布函数与总体分布函数之间存在着更密切的近似关系的结论。

这些结论就是我们在数理统计中可以依据样本来推断总体的理论基础。

二、直方图,数理统计中研究连续随机变量的样本分布时,通常需要作出样本的频率直方图(简称直方图),作直方图的步骤如下:

1找出样本观测值中的最小值与最大值,分别记作与,即,2适当选取略小于的数与略大于的数,并用分点把区间分成个子区间第个子区间的长度为,此外,为了方便起见,分点应比样本观测值多取一位小数。

各子区间的长度可以相等,也可以不等;若使各子区间的长度相等,则有,子区间的个数一般取为8至15个,太多则由于频率的随机摆动而使分布显得杂乱,太少则难于显示分布的特征。

3把所有样本观测值逐个分到各子区间内,并计算样本观测值落在各子区间内的频数及频率,4在轴上截取各子区间,并以各子区间为底,,所有小矩形的面积的和,这样作出的所有小矩形就构成了直方图。

因为样本容量充分大时,随机变量落在各个子区间内的频率近似等于其概率即所以直方图大致地描述了总体的概率分布。

例测量100个某种机械零件的质量,得到样本观测值如下(单位:

g)246251259254246253237252250251249244249244243246256247252252250247255249247252252242245240260263254240255250256246249253246255244245257252250249255248258242252259249244251250241253250265247249253247248251251249246250252256245254258248255251249252254246250251247253252255254247252257258247252264248244写出零件质量的频率分布表并作直方图。

解,因为样本观测中最小值为237,最大值为265,,所以我们把数据的分布区间确定为(236.5,266.5),并把这个区间等分为10个子区间,(236.5,239.5),(239.5,242.5),(263.5,266.5),由此得到零件质量的频率分布表:

零件质量/频数频率236.5239.510.01239.5242.550.05242.5245.590.09245.5248.5190.19248.5251.5240.24251.5254.5220.22254.5257.5110.11257.5260.560.06260.5263.510.01263.5266.520.02总计1001.00,直方图如图62所示,图62,习题62,1.某射手进行20次独立、重复的射击,击中靶子的环数如下表:

环数45678910频数2049032求经验分布函数,并作图。

第三节样本函数与统计量,为了借助于对样本观测值的整理、分析、研究,从而对总体的某些概率特征作出推断,往往需要考虑各种适用的样本函数因为一组样本可以看作是一个维随机变量所以任何样本函数都是维随机变量的函数。

显然也是随机变量.根据样本的观测值计算得到的函数值就是样本函数的观测值.,定义若样本函数中不含有任何未知量,则称这类样本函数为统计量。

1样本均值

(1),观测值记为

(2),2样本方差(3),观测值记为(4),数理统计中最常用的统计量及其观测值有:

3、样本标准差(5)它的观测值记为(6)4、样本阶原点矩(7)它的观测值记为(8)显然,样本的一阶原点矩就是样本均值。

5、样本阶中心矩(9)它的观测值记为(10)显然,样本一阶中心矩恒等于零。

当样本容量较大时,相同的样本观测值往往可能重复出现,为了使计算简化,应先把所得的数据整理,设得到下表:

观测值总计频数其中.于是样本均值,样本方差样本二阶中心矩可以分别按下列公式计算:

(1),

(2),(3),若总体的阶矩存在,独立且与同分布。

故有,则当时,进而由第五章中关于依概率收敛的序列的性质知道,其中为连续函数,这就是下一章所要介绍的矩估计法的理论根据。

从而由第五章的大数定理知,习题63,1.从某工人生产的铆钉中随机抽取5只,测得其直径分别为(单位:

毫米):

13.713.0813.1113.1113.13

(1)写出总体、样本、样本值、样本容量

(2)求样本观测值的均值、方差。

2设抽样得到样本观测值为38.240.242.437.639.241.044.043.238.840.6计算样本均值、样本标准差、样本方差与样本二阶中心矩。

5.从总体中抽取两组样本,其容量分别为及,设两组的样本均值分别为及样本方差分别为及把这两组样本合并为一组容量为的联合样本,证明:

(1)联合样本的样本均值

(2)联合样本的样本方差,第四节抽样分布,统计量的分布称为抽样分布。

在使用统计量进行统计推断时常需知道它的分布。

当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的。

本节介绍来自正态总体的几个常用统计量的分布。

今后,我们将看到这些分布在数理统计中有重要的应用。

一、三个重要分布,为了讨论正态总体下的抽样分布,先引入由正态分布导出的统计中的三个重要分布,即分布,分布,分布。

1、分布设是来自总体的样本,则称统计量

(1)服从自由度为的分布,记为,此处,自由度是指

(1)式右端包含独立变量个数,分布的概率密度为,的图形如图63所示。

(2),图63,此结论可推广:

设且相互独立,分布的可加性,(证明略),则,若,则有,分布的数学期望和方差,因,故,因此,又,于是,则称点为的上分位点,分布的分位点,定义设有分布函数对给定的,若有,(6),当有密度函数时,式(6)可写成,(7),由上述定义得分布的上分位点为,(8),如图64所示,对于不同的上分位点的值已制成表格,可以查用(参见附表4)。

图64,例如对于,查得但该表只详列到费歇(R.A.Fisher)曾证明,当充分大时,近似地有(9)其中是标准正态分布的上分位点。

利用(8)式可以求得当时,分布的上分位点的近似值,例如由(9)式可得(由更详细的表得),2、分布,设,且独立,服从自由度为的分布,记为,分布又称为学生氏(student)分布,分布的概率密度函数为,(11),图65,的点为分布的上分位点。

(见图6-6),分布的分位点,对于给定的,称满足条件,(13),图6-6,由分布上分位点的定义及图形的对称性知,在时,对于常用的的值,就用正态近似,(14),分布的上分位点可自附表查得。

(15),3.分布,记为,(16),的概率密度为,(17),图67中画出了的图形,由定义可知,若则(18),图67,分布的分位点,对于给定的称满足条件,(19),的点为分布的上分位点(图6-8),图6-8,容易证明等式:

(20),利用这个等式,查附录表,可以计算当,时的的值,例如,F分布的上分位点有表格可查(见附表5),二、正态总体统计量分布,研究数理统计的问题时,往往需要知道所讨论的统计量的分布。

一般说来,要确定某个统计量的分布是困难,有的甚至是不可能的。

然而,对于总体服从正态分布的情形已经有了详尽的研究。

下面我们讨论服从正态分布的总体的统计量的分布,假设是来自正态总体的样本,即它们是独立同分布的皆服从分布,样本均值与样本方差分别是,定理1设总体服从正态分布,,(21),即,则,因为随机变量相互独立且与总体服从相同的正态分布,证,所以,由正态分布的性质可知,它们的线性组合服从,正态分布,即,这个定理的证明从略,我们仅对自由度作一些说明,虽然是个随机变量的平方和,但是这些随机变量不是相互独立的。

因为它们的和恒等于零:

由样本方差的定义易知,所以统计量,由于受到一个条件的约束,所以自由度为,上述两定理是正态总体统计推断的基础,因而是十分重要的,下面列举其应用(有些结论我们放在习题64中),由定理1知,统计量,又由定理2知,统计量,因为与相互独立,证,于是,由分布的定义可知,统计量,例2设来自,是来自的两个独立样本,记,由定理1可知,统计量,证,且与相互独立,由正态分布的性质知,即,又由定理2知:

因为与相互独立,与相互独立,所以统计量与也相互独立,因为与相互独立,所以由分布的可加性可知,统计量,于是,由分布定义可知,统计量,由假设,、相互独立,则由分布的定义,证,由定理2,知,注:

若两个正态分布的方差与不相等,,则统计量,本节所介绍的几个分布以及几个重要结论,在下面各章中都起着重要的作用。

应注意,它们都是在总体为正态这一基本假定下得到的。

习题64,1设总体服从分布,是已知常数是来自总体的一个容量为的简单随机样本,证明:

统计量服从自由度为的分布。

服从自由度为的分布,2设总体服从正态分布,总体服从正态分布,则统计量,6设,求常数,使7求总体的容量分别为10,15的两独立样本均值差的绝对值大于0.3的概率。

8设为的一个样本,求9设在总体中抽取一容量为16的样本,这里均为未知,

(1)求,其中为样本方差,

(2)求,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1