总体均数的估计ppt课件PPT文档格式.ppt

资源描述

总体均数的估计ppt课件PPT文档格式.ppt

《总体均数的估计ppt课件PPT文档格式.ppt》由会员分享，可在线阅读，更多相关《总体均数的估计ppt课件PPT文档格式.ppt（75页珍藏版）》请在冰豆网上搜索。

总体均数的估计ppt课件PPT文档格式.ppt

,第一节.样本均数的抽样分布,已知某地高中三年级男生的身高满足正态分布，其平均身高为168.15厘米，这里，将该地高中三年级男生的身高视为一个总体。

现从该总体中随机抽样5次，每次抽取一个样本含量n=10的样本，得到的5个样本的数据及各样本均数如下,各个样本均数之间都不相同各个样本均数都不等于总体均数，有的比总体均数大，有的比它小相对于各样本的个体值，样本均数间的变异程度较小,抽样误差（samplingerror）,此处的抽样误差是指由随机抽样引起的，样本统计量与相应总体参数间的差异两种表现形式，其一是样本统计量与总体参数间的差异，其二是样本统计量间的差异根源是个体变异，抽样误差是不可避免的但是抽样误差却有一定的规律性，可以通过统计学的方法估计其大小，并通过适当扩大样本含量使之减小,样本均数的抽样分布（samplingdistributionofmean）,仍以某地高三男生的身高为例，设身高变量为x，假定x服从正态分布，记为xN（168.15,62）从总体X中反复随机抽样，样本含量分别为n=4，n=16和n=36，分别随机抽10000个样本并计算样本均数，把同一样本含量的10000个样本均数视为一个新的样本资料作频数图,从正态分布总体N（168.15,62）中随机抽样10000次的结果曲线是正态总体N（168.15,62）的概率密度曲线直方图为正态分布总体N（168.15,62）的样本均数的频率密度图,大多数的样本均数相互之间存在差异，绝大多数的样本均数不等于x的总体均数样本均数的集中趋势位置与个体资料x的集中趋势位置较为接近，样本均数的频数图均呈现出中间多、两边少且基本对称的正态分布特征。

样本均数的分布范围较个体值小；

随着样本含量的增大，样本均数的频数分布范围越来越窄每种样本量的10000个样本均数值所计算出的样本均数的标准差都非常接近（为个体资料x的总体标准差，n为样本含量）,样本均数的均数为m证明*,样本均数的标准误证明*,样本均数的标准误（StandardErrorofMean,SEM）,为了与个体的标准差相互区别，样本均数的标准差又称为样本均数的标准误，简称标准误或理论标准误反映了样本均数间的离散程度，如果标准误很大，则不同的样本均数间参差不齐，同时样本均数的分布范围较大，也反映了样本均数与总体均数间的差异可能较大，因而标准误反映均数抽样误差的大小标准误代表样本均数的标准误，其表达式为,从标准误的计算公式中看出它与原先个体观察值的总体标准差s有关，同时也和样本含量n有关通过扩大样本含量减少标准误；

从而减少抽样误差,样本均数的标准误（StandardErrorofMean,SEM）,样本均数标准误的估计值,由于在实际研究中，我们往往只抽一次样，得到一个样本均数，而且大多数情况下s是未知的，此时常用样本标准差S估计总体标准差s，这样我们就得到样本均数标准误的估计值抽样误差越小，表示样本均数与总体均数越接近，用样本均数估计总体均数的可靠性越高；

反之则越低,样本均数的抽样分布,如果总体不服从正态分布，在样本含量较小时（n60），均数的抽样分布不满足正态；

只要样本含量n足够大（n60），样本均数的抽样分布仍然逼近正态,2000年某研究者随机调查某地健康成年男性27人，得到血红蛋白的均数为125g/L，标准差为15g/L，试估计该样本的抽样误差？

既往资料表明某市区新生女婴的平均出生体重为3.10kg，标准差为0.59kg；

某研究者从该市区中随机抽取一个由100个女婴组成的样本，测得样本均数超过3.15kg的可能性有多大？

样本均数u转换中的实际问题,要对样本均数进行u转换，必须要知道总体的标准差s；

但是在实际的情况下，并没有对总体中所有的个体进行观察，所以无法得知s；

而且通常我们也只作一次抽样研究，只能得到s，只能用样本标准误的估计值估计那么是否仍然满足标准正态分布？

假定，我们比较一下u与u之间是否存在不同,在正态总体N（168.18,62）中随机抽样，样本量分别取n=5，n=100，均抽10000个样本，分别计算u值和u值，其结果如下：

并不满足标准正态分布!

在样本含量较大时它与标准正态分布接近，但是当样本含量较小时，它与标准正态分布相差较远,样本均数u转换中的实际问题,WilliamSealeyGosset（1876-1937）,Gossetinventedthet-testtohandlesmallsamplesforqualitycontrolinbrewing（Guinness）.HewroteunderthenameStudent.,第二节.t分布（t-distribution）,t分布的概率密度函数*,t分布曲线是单峰的，且关于t=0对称，这一特征与标准正态分布很相似,当自由度v改变时（实际上是样本含量n改变时），t分布曲线的形态也不一样，因此t分布是一簇分布；

而标准正态分布是唯一的,v越小（n越小）则标准误越大，样本均数经过t转换后的t值越分散，t分布的峰越低矮，而且尾部翘得也越高；

当自由度逼近，因s逼近s，t分布也逼近u分布,t分布曲线的特征,t分布是一簇分布t分布的形态随自由度v改变而改变t分布是单峰分布，关于t0对称v越小，t分布曲线也越矮胖，当v趋向无穷大时，t分布无限逼近标准正态分布（u分布）,t分布曲线下面积,与标准正态分布曲线下面积的算法一样，都是采用微积分的方法其含义也与标准正态分布曲线下面积接近，表示某个样本含量（自由度）的样本均数经t转换后t值落在某个区间的概率有多大与标准正态分布不同，t分布曲线下面积为95%或99%的界值不是一个常量，因为对于不同的自由度取值，就有不同的t分布曲线,求自由度v=5时，P（02.02）*,求自由度v=5时，P（02.02）*,t分布曲线下面积,统计学家为了计算方便编制了t分布曲线下面积表在t值表中，横标目为自由度v，纵标目为概率（P或）;

一侧尾部面积称为单侧概率（one-tailedprobability），两侧尾部面积之和称为双侧概率（two-tailedprobability）,t分布曲线下面积,可见如果t值越远离0，它所对应的单侧或双侧尾部面积就越小即越大，曲线下面积a或a/2越小通常使用不同的符号：

ta,v、ta/2,v区别单侧或双侧的曲线下面积另外如果在相同自由度的情况下，双侧0.05的曲线下面积对应的t值绝对值=单侧0.025的曲线下面积对应的t值绝对值,求自由度v为10，单侧概率a=0.05时的t界值，并简述其含义由表中查得单侧t0.05,101.812从一个正态总体中随机抽样，每次抽11个个体，分别计算各个样本的均数与标准差，并对之进行t转换后，理论上有P（t-1.812）=0.05或P（t1.812）=0.05,求自由度v为100，双侧概率a=0.05时的t界值，并简述其含义由表中查得双侧t0.05/2,1001.984从一个正态总体中随机抽样，每次抽101个个体，分别计算各个样本的均数与标准差，并对之进行t转换后，理论上有P（t-1.984）P（t1.984）=0.05,样本方差的分母是n-1证明*,样本方差的分母是n-1证明*,第三节.参数估计,参数估计parameterestimation：

用样本的统计量估计所来源总体的参数估计的方法有以下两种：

点估计与区间估计,用样本的估计量直接作为总体参数的估计值，例如：

用样本均值直接作为总体均值的估计其方法简单，但未考虑抽样误差的大小所以某一数值是否是良好的点估计值是没有意义的，但是计算该数值的方法（指标）是否是一个好方法（指标）确是值得探讨的,点估计（PointEstimation）,为了确定一个方法的好坏，需要对多次重复同一个研究的结果进行比较一个好的点估计方法可以有如下特征：

1、无偏性（如果在无数个样本上运用该方法，得到的样本统计量的期望值（均值）等于总体参数）2、有效性（许多次的重复抽样得到的点估计值不应该偏离总体参数太远）3、一致性（样本含量趋于无穷，则统计量趋于参数）4、充分性（估计值充分利用个体值提供的信息）,点估计（PointEstimation）,可以证明样本均值是总体均值的最好估计，具备无偏性，同时又是误差最小的，并具有一致性与充分性；

而中位数的有效性与充分性均不足不足（）所以即使用样本均数估计总体均数的结果不理想（例如总体数据变异度很大、抽样的样本含量不足等），只要是随机样本，样本均数也是能得到的最好的总体均数估计值,点估计（PointEstimation）,区间估计（IntervalEstimation）,在点估计的基础上，结合抽样误差的大小，给出总体参数估计的一个区间范围（可信区间）该区间按照一定的概率可能性，包含所推断的总体参数,假设已知的样本均数是从一个m很小的总体中抽取的，它成立的统计条件是从该总体中抽取一个样本，其均数为当前均数以及更大的可能性并非小概率事件,这不是小概率事件，因而在一个总体均数为A的总体中抽样1次，是可能得到当前的样本均数,而如果从mA的总体中在一次抽样的前提下，几乎是不可能得到当前的样本的，因为它是一个小概率事件！

这是小概率事件，因而在一个总体均数小于A的总体中抽样1次，是几乎不可能得到当前的样本均数,假设已知的样本均数是从一个m很大的总体中抽取的，它成立的统计条件是从该总体中抽取一个样本，其均数为当前均数以及更小的可能性并非小概率事件,这不是小概率事件，因而在一个总体均数为B的总体中抽样1次，是可能得到当前的样本均数,而如果从mB的总体中在一次抽样的前提下，几乎是不可能得到当前的样本的，因为它是一个小概率事件！

这是小概率事件，因而在一个总体均数超过B的总体中抽样1次，是几乎不可能得到当前的样本均数,可信区间（confidenceinterval）,因而如果m是在AB间的某个数值，在一次抽样的前提下，是有可能得到当前的样本均数的这样就把区间（A,B）称为样本均数所来源的未知总体均数的可信区间,可信区间的定义,按预先给定的概率（1-a）确定的包含未知总体参数的可能范围，该范围通常称为参数的可信区间或置信区间（confidenceinterval，CI）,上、下可信限,可信区间是由两个界限组成，分别称为上、下可信限，即上述的总体均数取值的两个“极限”A与B如果总体均数不被A-B区间所包含，则得到当前的样本均数为小概率事件；

依据小概率事件的原理，这种情况不会在一次抽样的情况下发生,可信度（confidencecoefficient）,我们之所以说总体均数被某区间包含，那是因为从中得到该样本不是小概率事件小概率事件是有可能发生的，一旦其发生，“只有总体均数在（A,B）间的总体才是样本所来源的”就是错误的，因此我们的推断可能犯错错误的可能性有多大？

就是小概率事件发生的概率a；

也就是说不发生的可能性为1-a，这就是我们结论正确的概率，所以1-a称为可信度（confidencecoeffic

展开阅读全文