用样本均值估计总体均值.docx

资源描述

用样本均值估计总体均值.docx

《用样本均值估计总体均值.docx》由会员分享，可在线阅读，更多相关《用样本均值估计总体均值.docx（15页珍藏版）》请在冰豆网上搜索。

用样本均值估计总体均值.docx

用样本均值估计总体均值

（经典版）

编制人：

__________________

审核人：

__________________

审批人：

__________________

编制学校：

__________________

编制时间：

____年____月____日

序言

　　下载提示：

该文档是本店铺精心编制而成的，希望大家下载后，能够帮助大家解决实际问题。

文档下载后可定制修改，请根据实际需要进行调整和使用，谢谢!

　　并且，本店铺为大家提供各种类型的经典范文，如幼儿教案、小学教案、中学教案、教学活动、评语、寄语、发言稿、工作计划、工作总结、心得体会、其他范文等等，想了解不同范文格式和写法，敬请关注!

Downloadtips:

Thisdocumentiscarefullycompiledbythiseditor.Ihopethatafteryoudownloadit,itcanhelpyousolvepracticalproblems.Thedocumentcanbecustomizedandmodifiedafterdownloading,pleaseadjustanduseitaccordingtoactualneeds,thankyou!

Inaddition,thisshopprovidesyouwithvarioustypesofclassicsampleessays,suchaspreschoollessonplans,elementaryschoollessonplans,middleschoollessonplans,teachingactivities,comments,messages,speechdrafts,workplans,worksummary,experience,andothersampleessays,etc.IwanttoknowPleasepayattentiontothedifferentformatandwritingstylesofsampleessays!

用样本均值估计总体均值

　　这是用样本均值估计总体均值，是优秀的数学教案文章，供老师家长们参考学习。

　　用样本均值估计总体均值第1篇

　　1）只要谈估计，那就是告诉我们一种方法，利用这个方法可以管中规豹似的获取某个统计量（这个统计量很可能限于人力物力无法真正获取，而我们又很想知道）。

　　2）只要是谈估计，那就告诉我们这个估计量本身也是个随机变量，它自身也存在统计特性；

　　首先，要严格区分均值和期望两个概念！

　　期望公式:

　　E（X）=\sum_{i=1}^{n}x_{i}p（i）

　　均值公式:

　　\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_{i}

　　显然，它们是不一样的，一个是和元素出现的概率相关，另一个是小学级别的简单粗暴的求平均。

　　接下来，脑海中，我们可以假设有这么一个集合{y_{1},y_{2},...,y_{N}},大括号里就是这个集合的所有元素。

　　总体均值就是求的整个集合的均值（假设集合大小是N）:

　　\bar{Y}=\frac{1}{N}\sum_{i=1}^{N}y_{i}

　　显然\bar{Y}值在集合（也就是我们要研究的对象）和集合大小固定的情况下是一个固定的、并天然就存在的定数（它不是随机变量，好比是一个常数），尽管我们可能并不知道确切的值是多少！

因为过我们可能由于费用问题无法将所有个体都进行统计然后求平均。

因此，引入抽样的概念。

样本均值\bar{y}就是从整个集合中抽取出n个，然后对其就平均:

　　\bar{y}=\frac{1}{n}\sum_{i=1}^{N}y_{i}\delta{i}，

　　其中\delta{i}为抽样函数：

　　\delta{i}=\begin{cases}1&\text{if}y_{i}\is\selected\\0&\text{if}y_{i}\is\not\selected\end{cases}，并且

　　\sum_{i=1}^{N}\delta_{i}=n

　　这里额外进行解释：

　　1）显然，根据组合原理，从N个元素中抽取n个元素的种类一共是C_{N}^{n}中，也就是\bar{y}的值有C_{N}^{n}种可能。

　　2）显然\bar{y}值会随着我们实际抽取到的n个样本的不同而不同，因此\bar{y}本身可以被视为随机变量，既然\bar{y}是随机变量，那么它就存在统计量，也就是说讨论\bar{y}的期望和方差是有意义的。

　　3）这里给出的公式，可能和有些书上的写的不太一样，有些书直接写为\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}，严格意义说写的不够确切，符号y_{i}在总体均值和样本均值中都用到了，容易混乱，致使公式不清、概念不清。

本文的样本均值公式体现了抽样概念，更加严格。

　　在讨论样本均值的期望之前，我们先讨论样本和\sum_{i=1}^{N}y_{i}\delta{i}（其中，\sum_{i=1}^{N}\delta_{i}=n）的期望，我们令H=\sum_{i=1}^{N}y_{i}\delta{i}，显然H也是个随机变量，也就是讨论E（H）的值。

　　前面已经讨论过，从N个元素中抽取n个元素的形成的样本种类是C_{N}^{n}种，因为我们这里讨论的是简单随机抽样，因此每种不同h_{k}（即，H取值h_{k}）的概率就是\frac{1}{C_{N}^n}=\frac{n!

（N-n）!

}{N!

}。

　　E（H）=\frac{1}{C_{N}^{n}}\sum_{k=1}^{C_{N}^n}h_{k}

　　为了确定E（H）求和公式中某个特定元素y_{i}（即，i取特定值，y_{i}的系数）的系数：

　　所有包含y_{i}的抽样样本集合，肯定包含n-1个其他元素，那么这n-1个其他元素的组合数目就是E（H）求和公式中某个特定元素y_{i}的系数。

这个剩余的n-1个元素可以来自剩余的N-1个元素，因此求和公式中存在y_{i}的系（个）数是C_{N-1}^{n-1}。

　　因此有：

　　E（H）=\frac{n!

（N-n）!

}{N!

}\frac{（N-1）!

}{（n-1）!

（N-n）!

}\sum_{i=1}^{N}y_{i}

　　=\frac{n}{N}\sum_{i=1}^{N}y_{i}

　　因此，我们可以得出这么一个结论：

　　定理1样本和的期望是总体总值的\frac{n}{N}.

　　那么，样本均值的期望就很好求了：

　　E（\bar{y}）=E（\frac{H}{n}）=\frac{1}{N}\sum_{i=1}^{N}y_{i}=\bar{Y}

　　由此，得出新的结论：

　　定理2样本均值\bar{y}是总体均值\bar{Y}的无偏估计量。

　　讲一些方便理解的废话，既然研究了样本均值的期望，那么上面的两个定理的结论应当是限制在简单随机抽样的条件下得出来的。

　　定理1的结论实际上在抽样理论中更容易被忽视，这个定理需要扩大脑思路，假如要求\sum_{i=1}^{N}（y_{i}-6）^3\delta_{i}的期望：

　　那么我们要将（y_{i}-6）^3整体看做样本，而不是把y_{i}看做样本，H=\sum_{i=1}^{N}（y_{i}-6）^3\delta_{i}这个求和本身也是一个变量，它的期望可以根据定理1得出是样本总值\sum_{i=1}^{N}（y_{i}-6）^3的\frac{n}{N}:

　　E（H）=\frac{n}{N}\sum_{i=1}^{N}（y_{i}-6）^3

　　定理2则告诉我们当总体均值比较难以获取的时候，要估计总体均值可以拿样本均值来替代，这个样本均值在估计方法上还是无偏的。

　　再回到问题本身，我们一般是无法知道整个集合的总值和均值的，定理2就是告诉我们存在无偏的估计方法，求总体均值，可以拿样本均值来估计总体均值，同样的，如果要估计总体值，只要将样本均值乘以N就可以的。

　　我们可以得到下面的推论（很容易证明）

　　推论\hat{Y}=N\bar{y}是总体总值Y的无偏估计。

　　用样本均值估计总体均值第2篇

　　总体均值的区间估计

　　通常使用样本的均值对总体均值进行估计。

样本均值的分布规律阐述如下：

　　①当为大样本时（n>=30），样本均值\barx服从期望值为总体均值μ，方差为\frac{\sigma^2}{n}的正态分布

　　②在小样本，总体服从正态分布的前提下：

若总体的\sigma已知，则样本均值仍然服从正态分布，标准化后服从标准正态分布；若总体的\sigma未知，则样本均值经过标准化后服从自由度为n-1的t分布。

　　基于以上关于样本均值统计量的分布，其各种具体的区间估计描述如下。

　　1.大样本时

　　总体均值\mu在1-\alpha的置信水平下的置信区间为：

\barx\pmz_{\alpha/2}\frac{\sigma}{\sqrtn}

　　其中\barx为样本的均值，无需赘述

　　z_{\alpha/2}为标准正态分布的α/2分位点，相当于给样本均值的标准差提供一个系数，实际使用时一般是查分为表

　　当总体的\sigma未知时，使用样本的标准差s代替，此时区间为：

\barx\pmz_{\alpha/2}\frac{s}{\sqrtn}

　　2.小样本时

　　2.1总体的\sigma已知

　　总体均值\mu在1-\alpha的置信水平下的置信区间为：

\barx\pmz_{\alpha/2}\frac{\sigma}{\sqrtn}。

跟大样本时一毛一样

　　2.2总体的\sigma未知

　　均值经标准化后服从自由度为n-1的t分布，即t=\frac{\barx-\mu}{s/\sqrtn}~t（n-1），所以置信水平为1-α的置信区间为\barx\pmt_{\alpha/2}\frac{s}{\sqrtn}。

可以看到跟大样本且\sigma未知的情况形式很类似，只是从正态分布变成了t分布。

　　t分布也有分位数表可查。

　　用样本均值估计总体均值第3篇

　　第二十四课总体均值的估计

　　对于样本来自正态总体和方差齐性的基本假设，根据观察结果（结果变量或反映变量）的水平数，一元时基本的分析方法有检验、检验，多元时用多元检验（或Wilks’∧检验）。

　　一、计量资料的统计指标

　　测定每个观察单位某项指标值的大小，所得的资料称为计量资料（measurementdata）又称测量资料，这类资料一般具有计量单位。

计量资料的统计指标分成两大类：

　　l表达计量资料集中位置的指标，用以描述观察值的平均水平，如算术均值、几何均值、调和均值、中位数、众数、百分位数。

　　l表达计量资料变异的指标，又称离散指标，用以描述观察值间参差不齐的程度，即离散度或称变异度，如全距、标准差、方差、标准误差、变异系数、四分位数间距等。

　　设原始观察值为，第组频数记为，组中值记为。

在不发生混淆的场合，有时将下标省略，如，有时简记为。

　　1．集中位置的指标

（1）算术平均值

　　算术平均值（arithmeticmean）简称为均值（mean），总体均值用希腊字母表示，样本均值用表示。

算术平均值的具体计算方法分为简单算术平均和加权算术平均两种。

简单算术平均为：

　　（24.1）

　　加权算术平均为：

　　（24.2）

　　算术平均值有两个重要的数学性质：

①各个变量值与平均值离差之和等于零，②各个变量值与平均值的离差平方之和为最小值。

（2）几何均值

　　几何均值（geometricmean）用表示，为观察值的总乘积开次方根。

根据资料是否分组，也分为简单几何平均和加权几何平均两种方法。

简单几何平均为：

　　（24.3）

　　为避免溢出及方便计算，常用对数计算，也称对数平均值，两边取对数有：

　　（24.4）

　　（3）加权几何平均

　　（24.5）

　　几何均值适用于表达呈对数正态分布资料的平均水平。

也常用于速度、比率等变量的平均。

　　（4）调和均值

　　调和均值（harmonicmean）用表示，为观察值的倒数求平均，然后再取倒数而得到的平均值，也称倒数平均值。

调和平均值有简单调和平均值与加权调和平均值两种。

简单调和平均值为：

　　（24.5）

　　加权调和平均值为：

　　（24.6）

　　调和均值适用于表达呈极严重的正偏态分布资料的平均水平。

　　（5）中位数

　　中位数（median）用表示，它将总体或样本的全部观察值分成两部分，每部分各有50%的观察值，其计算方法为：

先将原始观察值按由小到大顺序排列后，位次处于中间的那个观察值为中位数。

观察值为奇数时，处于中间的那个数为中位数。

偶数时处于中间的两个数的均值为中位数。

　　中位数是位置平均值，它不受极端值的影响，在具有个别极大或极小值的分布数列中，中位数比算术平均值更具有代表性。

　　（6）众数

　　频数最大的变量值称为众数（mode），列为频数表的资料，频数最大的组的组中值为众数。

适用于粗略地表示呈单峰分布资料的集中趋势。

当数据个数较少时，众数就是出现次数最多的个数据。

　　（7）百分位数

　　百分位数（percentile）以表示，它将总体或样本的全部观察值分成两个部分，其中有的观察值小于，（100－）%个观察值大于。

如百分之25分位数或称第25百分位数，表示有25%个观察值小于；75%个观察值大于。

中位数就是百分之50分位数。

　　2．离散程度的指标

（1）全距

　　全距（range）也称极差是一种离散指标，是最大与最小观察值之差。

用极差反映总体分布的离散程度虽然简便，但它只从两端数值考察，忽略了中间数据的变动情况，不能说明整体的差异程度，尤其是存在极端值情况下，使用极差往往会造成错误的结论。

（2）标准差与方差

　　标准差（standarddeviation）与方差（variance）是一种常用的离散指标，结合均值能给出正态分布的特征。

标准差的平方为方差，标准差（或方差）越大，表示观察值的分布越分散；反之，标准差（或方差）越小，表示观察值的分布越集中。

如果标准差为0，表示这组观察值都为一个相同的值。

实际应用时常以均值±标准差的写法综合观察值的集中和离散特征。

　　总体的标准差和方差分别以和表示，样本的标准差和方差分别以和表示，当用样本标准差作为的估计值时，有：

　　（24.7）

　　其中，为样本含量，称为离均差平方和，也可以如下计算：

　　（24.8）

　　如用频数表资料，有：

　　（24.8）

　　（3）变异系数

　　变异系数（coefficientofvariantion）是一种离散指标，简记为，它是标准差与均值之比，用百分数表示：

　　（24.9）

　　由于无量度单位，而且消除了原始资料的平均水平的影响，因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。

　　（4）标准误差

　　标准误差（standarderror）是统计量的标准差。

因为统计量是样本观察值的函数，一旦样本改变，统计量的取值也会随之改变。

为了避免与样本观察值的标准差相混淆，在统计学上，把反映一群性质相同的统计量离散程度大小的量称为标准误差。

从理论上来说，只要给出了一个统计量，就有其相应的标准误差。

在参数估计中，用样本的统计量去估计参数时，统计量的标准误差越小，表示抽样误差小，统计量较稳定，与参数较接近。

　　用、、、分别表示统计量（样本均值）、（样本率）、（样本相关系数）、（变异系数）的标准误差，它们的计算公式分别为：

　　（24.10）

　　（24.11）

　　（24.12）

　　（24.13）

　　（5）四分位数间距

　　四分位数间距（interquartilerange）是一种离散指标，它是第3个四分位数与第1个四分位数之差，即。

　　（6）偏度系数

　　偏度系数（skewness）返回分布的偏斜度，简记为SKEW。

偏斜度反映以平均值为中心的分布的不对称程度。

正偏斜度表示不对称部分的分布更趋向正值。

负偏斜度表示不对称部分的分布更趋向负值。

偏斜度的计算公式为样本观察值消除量纲影响的三阶中心矩，然后按样本数进行无偏修正，定义如下：

　　（24.14）

　　式中，为样本的标准差。

　　（7）峰度系数

　　峰度系数（kurtosis）返回数据集的峰值，简记为KURT。

峰值反映与正态分布相比某一分布的尖锐度或平坦度。

正峰值表示相对尖锐的分布。

负峰值表示相对平坦的分布。

峰值的计算为样本观察值消除量纲影响的四阶中心矩减去3（因为标准正态分布的四阶原点矩为3），然后按样本数进行无偏修正，公式如下：

　　（24.15）

　　式中，为样本的标准差。

　　二、正态性检验

　　用于判断总体分布是否为正态分布的检验称为正态性检验。

检验资料是否服从正态分布的主要方法有：

Wilk－Shapiro（威尔克斯-夏皮罗）的检验和Dagustino的检验。

原假设为总体服从正态分布。

　　1．小样本的检验

　　在观察值为小样本时，Wilk与Shapiro提出用如下的统计量：

　　（24.16）

　　它可以看成是数对（）相关系数的平方，所以的取值在0和1之间。

系数按标准正态分布构造，均值为0，标准差为1，且是对称值。

不同的样本数有不同的系列值。

可以证明，在原假设为真时，的取值应接近于1。

　　2．大样本的检验

　　在观察值为大样本时，Dagustino建议用以下的统计量：

　　（24.17）

　　在原假设为真时，统计量的标准化后渐近分布为标准正态分布。

　　三、总体均值的估计和检验

　　1．总体均值的估计

　　总体均值用表示，总体均值的估计包括点估计和区间估计。

点估计即用样本均值来估计总体均值：

。

点估计虽然简单，但未考虑抽样误差。

区间估计即按一定的概率估计总体均值在哪个范围内，这个范围称为置信区间，这个概率称为可信度或置信度，用表示，常取95%（）或99%（），按此确定的可信区间分别称之为95%或99%可信区间。

总体均值的区间估计因研究的问题和已知条件不同而用不同的方法。

主要分成三种情况：

（1）正态总体方差已知

　　如果总体服从正态分布且总体的方差已知，于是样本的均值分布为：

　　（24.18）

　　对变量作标准化处理，得到统计量：

　　（24.19）

　　称为检验。

则总体均值的可信区间为：

　　（24.20）

　　是抽样误差，为一定倍数的抽样误差，称为极限误差，或误差范围。

其意义是在给定的置信度的条件下对总体参数进行区间估计所允许的最大误差。

（2）正态总体方差未知

　　实际上，总体均值未知而总体方差已知的情况是不常有的，通常的情况是和都未知。

设总体服从正态分布且总体的方差未知。

在这种情况下，可用样本标准差来代替总体标准差，这样就得到了统计量：

　　（24.21）

　　称为检验。

则总体均值的可信区间为：

　　（24.22）

　　2．非正态总体

　　在大多数实际问题中，不能假定总体服从或近似服从正态分布。

但是，根据中心极限定理，只要样本容量足够大，样本均值的抽样分布就近似为正态分布。

若方差已知（通常根据历史资料或经验得到），则可用公式（24.20）来计算总体均值的可信区间。

若未知，则用样本标准差来代替总体标准差，总体均值的可信区间为：

　　（24.23）

　　3．配对检验

　　配对检验（pariedtest）用于配对试验设计（paireddesign），它是按一些非试验因素条件将受试对象配对对子，给予每对中的个体以不同的处理。

配对的条件一般为年龄、性别、体重等等。

其优点是在同一对的试验对象间取得均衡，从而提高试验效率。

有些试验中就同一受试对象作比较称为自身对照，例如，观察某指标不同时间的变化，或试验前后的变化，也属于配对试验。

　　想要比较配对试验中两种处理（和）的效果，或者自身对照中比较试验前后某指标（和）的变化。

可以先求出成对数据之差。

在这种试验设计的情况下，可以认为均值总体服从正态分布且总体的方差未知。

用样本标准差代替总体标准差，然后使用检验，检验是否来自均值为0（）的总体。

因此，配对检验公式为：

　　（24.21）

　　4．成组检验

　　当按完全随机化设计的两个样本均值比较时，可用成组检验（groupedtest），比较的目的是检验它们各种所代表的总体是否具有相同的均值，其假设检验，。

　　设总体，，如果和都已知，则

　　（24.22）

　　经标准化变换：

　　（24.23）

　　如果和都未知，但方差相等，其中未知需要估计。

由于和都是的无偏估计，集中了各自样本中有关的信息，故可以使用合并方差估计法（PooledVarianceEstimate），有：

　　（24.24）

　　然后，用样本合并标准差来代替中的总体标准差，这样就得到了统计量：

　　（24.25）

　　如果在和都未知的一般场合，即。

当和分别使用各自方差估计法（SeparateVarianceEstimate），即分别使用其相合估计和代替后，有：

　　（24.26）

　　这时，就不再服从分布了，其形式很像统计量。

　　近似统计量概率水平的Chchran和Cox近似是如下统计量的值：

　　（24.27）

　　用上面修正后的统计量作出合适的统计推断。

一般地，Chchran和Cox检验趋于保守。

　　另外，Satterthwaite（1864）就设法用统计量去拟合，结果发现若取：

　　（24.28）

　　但的计算结果为非整数时取最接近的整数，则近似服从自由度为的分布。

　　当样本数和较大时，式中的值也将随之而增大，我们知道，当时，自由度为的分布就很接近于正态分布，故在和较大时，我们将认为统计量服从分布。

　　5．两组方差的齐性检验

　　两个均值比较的检验，其前提是两个样本所代表的正态总体具有相同的方差，因此在作检验前，应该作两个方差是否齐性（一致）的检验，称为方差的齐性检验（testforhomogeneityofvariance）。

　　设从正态总体中获得的个样本均值为，样本无偏方差为，从另一正态总体中获得的个样本均值为，样本无偏方差为，且两个样本独立。

假定和未知。

现在要检验的原假设是，备择假设是。

展开阅读全文