数理统计学基本概念_精品文档PPT文档格式.pptx

资源描述

数理统计学基本概念_精品文档PPT文档格式.pptx

《数理统计学基本概念_精品文档PPT文档格式.pptx》由会员分享，可在线阅读，更多相关《数理统计学基本概念_精品文档PPT文档格式.pptx（66页珍藏版）》请在冰豆网上搜索。

数理统计学基本概念_精品文档PPT文档格式.pptx

1.研究对象的全体2.数据3.分布,6.1总体与个体,6.1,例6.1.1考察某厂的产品质量，以0记合格品，以1记不合格品，则总体=该厂生产的全部合格品与不合格品=由0或1组成的一堆数若以p表示这堆数中1的比例（不合格品率），则该总体可由一个二点分布表示：

比如：

两个生产同类产品的工厂的产品的总体分布：

样本从总体中抽取的部分个体.,称为总体X的一个容量为n的样本观测值,或称样本的一个实现.,用表示,n为样本容量.,个体组成总体的每一个元素,样品、样本、样本量:

样本具有两重性,一方面，由于样本是从总体中随机抽取的，抽取前无法预知它们的数值，因此，样本是随机变量，用大写字母X1,X2,Xn表示；

另一方面，样本在抽取以后经观测就有确定的观测值，因此，样本又是一组数值。

此时用小写字母x1,x2,xn表示是恰当的。

例6.1.2啤酒厂生产的瓶装啤酒规定净含量为640克。

由于随机性，事实上不可能使得所有的啤酒净含量均为640克。

现从某厂生产的啤酒中随机抽取10瓶测定其净含量，得到如下结果：

641,635,640,637,642,638,645,643,639,640,这是一个容量为10的样本的观测值，对应的总体为该厂生产的瓶装啤酒的净含量。

这样的样本称为完全样本。

例6.1.3考察某厂生产的某种电子元件的寿命，选了100只进行寿命试验，得到如下数据：

表6.1.2100只元件的寿命数据,表5.1.2中的样本观测值没有具体的数值，只有一个范围，这样的样本称为分组样本。

寿命范围元件数寿命范围元件数寿命范围元件数（0244（1922166（3844084（24488（2162403（4084324（48726（2402643（4324561（72965（2642885（4564802（961203（2883125（4805042（1201444（3123363（5045283（1441685（3363605（5285521（1681924（360184155213,独立性:

样本中每一样品的取值不影响其它样品的取值-X1,X2,Xn相互独立。

要使得推断可靠，对样本就有要求，使样本能很好地代表总体。

通常有如下两个要求：

随机性:

总体中每一个个体都有同等机会被选入样本-Xi与总体X有相同的分布。

-也称代表性，同分布性。

样本的要求：

简单随机样本,若总体X的样本满足:

一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是,

（1）与X有相同的分布,

（2）相互独立,则称为简单随机样本.,简单随机样本,N/n10.,设总体X的分布函数为F（x）,则样本,若总体X的密d.f.为f（x）,则样本,的联合d.f.为,的联合分布函数为,6.2.1经验分布函数,6.2样本数据的整理与显示,设X1,X2,Xn是取自总体分布函数为F（x）的样本，若将样本观测值由小到大进行排列,为x

（1）,x

（2）,x（n），则称X

（1）,X

（2）,X（n）为有序样本，用有序样本定义如下函数,大数定律的应用,则Fn（x）是一非减右连续函数，且满足,Fn（）=0和Fn（）=1,由此可见，Fn（x）是一个分布函数，并称Fn（x）为经验分布函数。

例6.2.1某食品厂生产听装饮料，现从生产线上随机抽取5听饮料，称得其净重（单位：

克）351347355344351,x

（1）=344,x

（2）=347,x（3）=351,x（4）=354,x（5）=355,这是一个容量为5的样本，经排序可得有序样本：

其经验分布函数为,由伯努里大数定律：

只要n相当大，Fn（x）依概率收敛于F（x）。

0，x3440.2，344x347Fn（x）=0.4，347x3510.8，344x3471，x355,更深刻的结果也是存在的，这就是格里纹科定理。

定理6.2.1（格里纹科定理）设X1,X2,Xn是取自总体分布函数为F（x）的样本,Fn（x）是其经验分布函数，当n时，有,PsupFn（x）F（x）0=1,格里纹科定理表明：

当n相当大时，经验分布函数是总体分布函数F（x）的一个良好的近似。

经典的统计学中一切统计推断都以样本为依据，其理由就在于此。

6.2.2频数-频率分布表,样本数据的整理是统计研究的基础，整理数据的最常用方法之一是给出其频数分布表或频率分布表。

例6.2.2为研究某厂工人生产某种产品的能力，我们随机调查了20位工人某天生产的该种产品的数量，数据如下,

（1）对样本进行分组：

作为一般性的原则，组数通常在520个:

K=1+3.3log（n）,

（2）确定每组组距：

近似公式为组距d=（最大观测值最小观测值）/组数;

（3）确定每组组限：

各组区间端点为a0,a1=a0+d,a2=a0+2d,ak=a0+kd,形成如下的分组区间-含下不含上a0,a1）,a1,a2）,ak-1,ak）,对这20个数据（样本）进行整理,具体步骤如下:

其中a0略小于最小观测值,ak略大于最大观测值.,（4）统计样本数据落入每个区间的个数频数，并列出其频数频率分布表。

表6.2.1例6.2.2的频数频率分布表,组序分组区间组中值频数频率累计频率（%）1147，157）15230.15152157，167）16290.45603167，177）17250.25854177，187）18220.10955187，197）19210.05100合计201,6.2.3样本数据的图形显示,一、直方图,直方图是频数分布的图形表示，它的横坐标表示所关心变量的取值区间，纵坐标有三种表示方法：

频数，频率，最准确的是频率/组距，它可使得诸长条矩形面积和为1。

凡此三种直方图的差别仅在于纵轴刻度的选择，直方图本身并无变化。

把每一个数值分为两部分，前面一部分（百位和十位）称为茎，后面部分（个位）称为叶，然后画一条竖线，在竖线的左侧写上茎，右侧写上叶，就形成了茎叶图。

如：

二、茎叶图,数值分开茎和叶11211|211和2,例5.2.3某公司对应聘人员进行能力测试，测试成绩总分为150分。

下面是50位应聘人员的测试成绩（已经过排序）：

我们用这批数据给出一个茎叶图，见下页。

图5.2.3测试成绩的茎叶图,在要比较两组样本时，可画出它们的背靠背的茎叶图。

注意：

茎叶图保留数据中全部信息。

当样本量较大，数据很分散，横跨二、三个数量级时，茎叶图并不适用。

6.3.1统计量与抽样分布,6.3统计量及其分布,当人们需要从样本获得对总体各种参数的认识时，最好的方法是构造样本的函数，不同的函数反映总体的不同特征。

定义6.3.1设X1,X2,Xn为取自某总体的样本，若样本函数T=T（X1,X2,Xn）中不含有任何未知参数。

则称T为统计量。

统计量的分布称为抽样分布。

设是取自总体X的一个样本,为一实值连续函数,且不含有未知参数,称,定义,例是未知参数,若,已知,则为统计量,是一样本,是统计量,其中,则,常用的统计量,为样本均值,为样本方差,为样本标准差,为样本的k阶原点矩,为样本的k阶中心矩,例如,（5）顺序统计量与极差,为样本值,且,定义r.v.,其中,（6）样本分位数与样本中位数,样本中位数也是一个很常见的统计量，它也是次序统计量的函数，通常如下定义：

更一般地，样本p分位数mp可如下定义：

通常，样本均值在概括数据方面具有一定的优势。

但当数据中含有极端值时，使用中位数比使用均值更好，中位数的这种抗干扰性在统计中称为具有稳健性。

（7）五数概括与箱线图,次序统计量的应用之一是五数概括与箱线图。

在得到有序样本后，容易计算如下五个值：

最小观测值xmin=x

（1）,最大观测值xmax=x（n）,中位数m0.5,第一4分位数Q1=m0.25,第三4分位数Q3=m0.75.,所谓五数概括就是指用这五个数：

xmin,Q1,m0.5,Q3,xmax,来大致描述一批数据的轮廓。

Rcode:

Summary（）,boxplot（）,注样本方差与样本二阶中心矩的不同,故,推导,2）,例1从一批机器零件毛坯中随机地抽取10件,测得其重量为（单位:

公斤）:

210,243,185,240,215,228,196,235,200,199求这组样本值的均值、方差、二阶原点矩与二阶中心矩.,解,令,例1,则,例2在总体中,随机抽取一个容量为36的样本,求样本均值落在50.8到53.8之间的概率.,解,故,例2,按照统计量定义：

若X1,X2,Xn为样本，则以及经验分布函数Fn（x）都是统计量。

而当,2未知时，X1,X1/等均不是统计量。

尽管统计量不依赖于未知参数，但是它的分布一般是依赖于未知参数的。

下面介绍一些常见的统计量及其抽样分布。

6.3.2样本均值及其抽样分布,思考：

在分组样本场合，样本均值如何计算？

二者结果相同吗？

X=（X1+Xn）/n,定理6.3.2数据观测值与均值的偏差平方和最小，即在形如（Xic）2的函数中，,样本均值的基本性质：

定理6.3.1若把样本中的数据与样本均值之差称为偏差，则样本所有偏差之和为0，即,最小，其中c为任意给定常数。

样本均值的抽样分布：

定理6.3.3设X1,X2,Xn是来自某个总体的样本，,为样本均值。

（1）若总体分布为N（,2），则,的精确分布为N（,2/n）;

XAN（,2/n）,这里渐近分布是指n较大时的近似分布.,若总体分布未知或不是正态分布，但E（X）=,Var（X）=2,则n较大时的渐近分布为N（,2/n）,常记为。

6.3.3样本方差与样本标准差,称为样本标准差。

定义6.3.3,称为样本方差，,其算术平方根,在n不大时，常用作为样本方差,其算术平方根也称为样本标准差。

在这个定义中，,（XiX）2,n1称为偏差平方和的自由度。

其含义是：

能自由取值，因为,只有n1个数据可以自由变动，而第n个则不,（XiX）=0.,称为偏差平方和，,中,样本偏差平方和有三个不同的表达式：

（XiX）2=Xi2（Xi）2/n=Xi2nX,它们都可用来计算样本方差。

思考：

分组样本如何计算样本方差？

样本均值的数学期望和方差，以及样本方差的数学期望都不依赖于总体的分布形式。

定理6.3.4设总体X具有二阶矩，即E（X）=,Var（X）=2,X1,X2,Xn为从该总体得到的样本，,X,和S2分别是样本均值和样本方差，则,E（X）=,Var（X）=2/n,E（S2）=2,当总体关于分布中心对称时，我们用,和S,刻画样本特

展开阅读全文