数理统计学基本概念_精品文档PPT文档格式.pptx

上传人:b****2 文档编号:15492530 上传时间:2022-11-02 格式:PPTX 页数:66 大小:834.09KB
下载 相关 举报
数理统计学基本概念_精品文档PPT文档格式.pptx_第1页
第1页 / 共66页
数理统计学基本概念_精品文档PPT文档格式.pptx_第2页
第2页 / 共66页
数理统计学基本概念_精品文档PPT文档格式.pptx_第3页
第3页 / 共66页
数理统计学基本概念_精品文档PPT文档格式.pptx_第4页
第4页 / 共66页
数理统计学基本概念_精品文档PPT文档格式.pptx_第5页
第5页 / 共66页
点击查看更多>>
下载资源
资源描述

数理统计学基本概念_精品文档PPT文档格式.pptx

《数理统计学基本概念_精品文档PPT文档格式.pptx》由会员分享,可在线阅读,更多相关《数理统计学基本概念_精品文档PPT文档格式.pptx(66页珍藏版)》请在冰豆网上搜索。

数理统计学基本概念_精品文档PPT文档格式.pptx

1.研究对象的全体2.数据3.分布,6.1总体与个体,6.1,例6.1.1考察某厂的产品质量,以0记合格品,以1记不合格品,则总体=该厂生产的全部合格品与不合格品=由0或1组成的一堆数若以p表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:

比如:

两个生产同类产品的工厂的产品的总体分布:

样本从总体中抽取的部分个体.,称为总体X的一个容量为n的样本观测值,或称样本的一个实现.,用表示,n为样本容量.,个体组成总体的每一个元素,样品、样本、样本量:

样本具有两重性,一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X1,X2,Xn表示;

另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一组数值。

此时用小写字母x1,x2,xn表示是恰当的。

例6.1.2啤酒厂生产的瓶装啤酒规定净含量为640克。

由于随机性,事实上不可能使得所有的啤酒净含量均为640克。

现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果:

641,635,640,637,642,638,645,643,639,640,这是一个容量为10的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。

这样的样本称为完全样本。

例6.1.3考察某厂生产的某种电子元件的寿命,选了100只进行寿命试验,得到如下数据:

表6.1.2100只元件的寿命数据,表5.1.2中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。

寿命范围元件数寿命范围元件数寿命范围元件数(0244(1922166(3844084(24488(2162403(4084324(48726(2402643(4324561(72965(2642885(4564802(961203(2883125(4805042(1201444(3123363(5045283(1441685(3363605(5285521(1681924(360184155213,独立性:

样本中每一样品的取值不影响其它样品的取值-X1,X2,Xn相互独立。

要使得推断可靠,对样本就有要求,使样本能很好地代表总体。

通常有如下两个要求:

随机性:

总体中每一个个体都有同等机会被选入样本-Xi与总体X有相同的分布。

-也称代表性,同分布性。

样本的要求:

简单随机样本,若总体X的样本满足:

一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是,

(1)与X有相同的分布,

(2)相互独立,则称为简单随机样本.,简单随机样本,N/n10.,设总体X的分布函数为F(x),则样本,若总体X的密d.f.为f(x),则样本,的联合d.f.为,的联合分布函数为,6.2.1经验分布函数,6.2样本数据的整理与显示,设X1,X2,Xn是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为x

(1),x

(2),x(n),则称X

(1),X

(2),X(n)为有序样本,用有序样本定义如下函数,大数定律的应用,则Fn(x)是一非减右连续函数,且满足,Fn()=0和Fn()=1,由此可见,Fn(x)是一个分布函数,并称Fn(x)为经验分布函数。

例6.2.1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重(单位:

克)351347355344351,x

(1)=344,x

(2)=347,x(3)=351,x(4)=354,x(5)=355,这是一个容量为5的样本,经排序可得有序样本:

其经验分布函数为,由伯努里大数定律:

只要n相当大,Fn(x)依概率收敛于F(x)。

0,x3440.2,344x347Fn(x)=0.4,347x3510.8,344x3471,x355,更深刻的结果也是存在的,这就是格里纹科定理。

定理6.2.1(格里纹科定理)设X1,X2,Xn是取自总体分布函数为F(x)的样本,Fn(x)是其经验分布函数,当n时,有,PsupFn(x)F(x)0=1,格里纹科定理表明:

当n相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。

经典的统计学中一切统计推断都以样本为依据,其理由就在于此。

6.2.2频数-频率分布表,样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。

例6.2.2为研究某厂工人生产某种产品的能力,我们随机调查了20位工人某天生产的该种产品的数量,数据如下,

(1)对样本进行分组:

作为一般性的原则,组数通常在520个:

K=1+3.3log(n),

(2)确定每组组距:

近似公式为组距d=(最大观测值最小观测值)/组数;

(3)确定每组组限:

各组区间端点为a0,a1=a0+d,a2=a0+2d,ak=a0+kd,形成如下的分组区间-含下不含上a0,a1),a1,a2),ak-1,ak),对这20个数据(样本)进行整理,具体步骤如下:

其中a0略小于最小观测值,ak略大于最大观测值.,(4)统计样本数据落入每个区间的个数频数,并列出其频数频率分布表。

表6.2.1例6.2.2的频数频率分布表,组序分组区间组中值频数频率累计频率(%)1147,157)15230.15152157,167)16290.45603167,177)17250.25854177,187)18220.10955187,197)19210.05100合计201,6.2.3样本数据的图形显示,一、直方图,直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:

频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。

凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。

把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。

如:

二、茎叶图,数值分开茎和叶11211|211和2,例5.2.3某公司对应聘人员进行能力测试,测试成绩总分为150分。

下面是50位应聘人员的测试成绩(已经过排序):

我们用这批数据给出一个茎叶图,见下页。

图5.2.3测试成绩的茎叶图,在要比较两组样本时,可画出它们的背靠背的茎叶图。

注意:

茎叶图保留数据中全部信息。

当样本量较大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。

6.3.1统计量与抽样分布,6.3统计量及其分布,当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。

定义6.3.1设X1,X2,Xn为取自某总体的样本,若样本函数T=T(X1,X2,Xn)中不含有任何未知参数。

则称T为统计量。

统计量的分布称为抽样分布。

设是取自总体X的一个样本,为一实值连续函数,且不含有未知参数,称,定义,例是未知参数,若,已知,则为统计量,是一样本,是统计量,其中,则,常用的统计量,为样本均值,为样本方差,为样本标准差,为样本的k阶原点矩,为样本的k阶中心矩,例如,(5)顺序统计量与极差,为样本值,且,定义r.v.,其中,(6)样本分位数与样本中位数,样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:

更一般地,样本p分位数mp可如下定义:

通常,样本均值在概括数据方面具有一定的优势。

但当数据中含有极端值时,使用中位数比使用均值更好,中位数的这种抗干扰性在统计中称为具有稳健性。

(7)五数概括与箱线图,次序统计量的应用之一是五数概括与箱线图。

在得到有序样本后,容易计算如下五个值:

最小观测值xmin=x

(1),最大观测值xmax=x(n),中位数m0.5,第一4分位数Q1=m0.25,第三4分位数Q3=m0.75.,所谓五数概括就是指用这五个数:

xmin,Q1,m0.5,Q3,xmax,来大致描述一批数据的轮廓。

Rcode:

Summary(),boxplot(),注样本方差与样本二阶中心矩的不同,故,推导,2),例1从一批机器零件毛坯中随机地抽取10件,测得其重量为(单位:

公斤):

210,243,185,240,215,228,196,235,200,199求这组样本值的均值、方差、二阶原点矩与二阶中心矩.,解,令,例1,则,例2在总体中,随机抽取一个容量为36的样本,求样本均值落在50.8到53.8之间的概率.,解,故,例2,按照统计量定义:

若X1,X2,Xn为样本,则以及经验分布函数Fn(x)都是统计量。

而当,2未知时,X1,X1/等均不是统计量。

尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。

下面介绍一些常见的统计量及其抽样分布。

6.3.2样本均值及其抽样分布,思考:

在分组样本场合,样本均值如何计算?

二者结果相同吗?

X=(X1+Xn)/n,定理6.3.2数据观测值与均值的偏差平方和最小,即在形如(Xic)2的函数中,,样本均值的基本性质:

定理6.3.1若把样本中的数据与样本均值之差称为偏差,则样本所有偏差之和为0,即,最小,其中c为任意给定常数。

样本均值的抽样分布:

定理6.3.3设X1,X2,Xn是来自某个总体的样本,,为样本均值。

(1)若总体分布为N(,2),则,的精确分布为N(,2/n);

XAN(,2/n),这里渐近分布是指n较大时的近似分布.,若总体分布未知或不是正态分布,但E(X)=,Var(X)=2,则n较大时的渐近分布为N(,2/n),常记为。

6.3.3样本方差与样本标准差,称为样本标准差。

定义6.3.3,称为样本方差,,其算术平方根,在n不大时,常用作为样本方差,其算术平方根也称为样本标准差。

在这个定义中,,(XiX)2,n1称为偏差平方和的自由度。

其含义是:

能自由取值,因为,只有n1个数据可以自由变动,而第n个则不,(XiX)=0.,称为偏差平方和,,中,样本偏差平方和有三个不同的表达式:

(XiX)2=Xi2(Xi)2/n=Xi2nX,它们都可用来计算样本方差。

思考:

分组样本如何计算样本方差?

样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。

定理6.3.4设总体X具有二阶矩,即E(X)=,Var(X)=2,X1,X2,Xn为从该总体得到的样本,,X,和S2分别是样本均值和样本方差,则,E(X)=,Var(X)=2/n,E(S2)=2,当总体关于分布中心对称时,我们用,和S,刻画样本特

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 笔试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1