SAS系统和数据分析总体均值的估计.docx

资源描述

SAS系统和数据分析总体均值的估计.docx

《SAS系统和数据分析总体均值的估计.docx》由会员分享，可在线阅读，更多相关《SAS系统和数据分析总体均值的估计.docx（69页珍藏版）》请在冰豆网上搜索。

SAS系统和数据分析总体均值的估计.docx

SAS系统和数据分析总体均值的估计

第二十四课总体均值的估计

对于样本来自正态总体和方差齐性的基本假设，根据观察结果（结果变量或反映变量）的水平数，一元时基本的分析方法有检验、检验，多元时用多元检验（或Wilks’∧检验）。

一、计量资料的统计指标

测定每个观察单位某项指标值的大小，所得的资料称为计量资料（measurementdata）又称测量资料，这类资料一般具有计量单位。

计量资料的统计指标分成两大类：

表达计量资料集中位置的指标，用以描述观察值的平均水平，如算术均值、几何均值、调和均值、中位数、众数、百分位数。

表达计量资料变异的指标，又称离散指标，用以描述观察值间参差不齐的程度，即离散度或称变异度，如全距、标准差、方差、标准误差、变异系数、四分位数间距等。

设原始观察值为，第组频数记为，组中值记为。

在不发生混淆的场合，有时将下标省略，如，有时简记为。

1．集中位置的指标

（1）算术平均值

算术平均值（arithmeticmean）简称为均值（mean），总体均值用希腊字母表示，样本均值用表示。

算术平均值的具体计算方法分为简单算术平均和加权算术平均两种。

简单算术平均为：

（24.1）

加权算术平均为：

（24.2）

算术平均值有两个重要的数学性质：

各个变量值与平均值离差之和等于零，各个变量值与平均值的离差平方之和为最小值。

（2）几何均值

几何均值（geometricmean）用表示，为观察值的总乘积开次方根。

根据资料是否分组，也分为简单几何平均和加权几何平均两种方法。

简单几何平均为：

（24.3）

为避免溢出及方便计算，常用对数计算，也称对数平均值，两边取对数有：

（24.4）

（3）加权几何平均

（24.5）

几何均值适用于表达呈对数正态分布资料的平均水平。

也常用于速度、比率等变量的平均。

（4）调和均值

调和均值（harmonicmean）用表示，为观察值的倒数求平均，然后再取倒数而得到的平均值，也称倒数平均值。

调和平均值有简单调和平均值与加权调和平均值两种。

简单调和平均值为：

（24.5）

加权调和平均值为：

（24.6）

调和均值适用于表达呈极严重的正偏态分布资料的平均水平。

（5）中位数

中位数（median）用表示，它将总体或样本的全部观察值分成两部分，每部分各有50%的观察值，其计算方法为：

先将原始观察值按由小到大顺序排列后，位次处于中间的那个观察值为中位数。

观察值为奇数时，处于中间的那个数为中位数。

偶数时处于中间的两个数的均值为中位数。

中位数是位置平均值，它不受极端值的影响，在具有个别极大或极小值的分布数列中，中位数比算术平均值更具有代表性。

（6）众数

频数最大的变量值称为众数（mode），列为频数表的资料，频数最大的组的组中值为众数。

适用于粗略地表示呈单峰分布资料的集中趋势。

当数据个数较少时，众数就是出现次数最多的个数据。

（7）百分位数

百分位数（percentile）以表示，它将总体或样本的全部观察值分成两个部分，其中有的观察值小于，（100－）%个观察值大于。

如百分之25分位数或称第25百分位数，表示有25%个观察值小于；75%个观察值大于。

中位数就是百分之50分位数。

2．离散程度的指标

（1）全距

全距（range）也称极差是一种离散指标，是最大与最小观察值之差。

用极差反映总体分布的离散程度虽然简便，但它只从两端数值考察，忽略了中间数据的变动情况，不能说明整体的差异程度，尤其是存在极端值情况下，使用极差往往会造成错误的结论。

（2）标准差与方差

标准差（standarddeviation）与方差（variance）是一种常用的离散指标，结合均值能给出正态分布的特征。

标准差的平方为方差，标准差（或方差）越大，表示观察值的分布越分散；反之，标准差（或方差）越小，表示观察值的分布越集中。

如果标准差为0，表示这组观察值都为一个相同的值。

实际应用时常以均值±标准差的写法综合观察值的集中和离散特征。

总体的标准差和方差分别以和表示，样本的标准差和方差分别以和表示，当用样本标准差作为的估计值时，有：

（24.7）

其中，为样本含量，称为离均差平方和，也可以如下计算：

（24.8）

如用频数表资料，有：

（24.8）

（3）变异系数

变异系数（coefficientofvariantion）是一种离散指标，简记为，它是标准差与均值之比，用百分数表示：

（24.9）

由于无量度单位，而且消除了原始资料的平均水平的影响，因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。

（4）标准误差

标准误差（standarderror）是统计量的标准差。

因为统计量是样本观察值的函数，一旦样本改变，统计量的取值也会随之改变。

为了避免与样本观察值的标准差相混淆，在统计学上，把反映一群性质相同的统计量离散程度大小的量称为标准误差。

从理论上来说，只要给出了一个统计量，就有其相应的标准误差。

在参数估计中，用样本的统计量去估计参数时，统计量的标准误差越小，表示抽样误差小，统计量较稳定，与参数较接近。

用、、、分别表示统计量（样本均值）、（样本率）、（样本相关系数）、（变异系数）的标准误差，它们的计算公式分别为：

（24.10）

（24.11）

（24.12）

（24.13）

（5）四分位数间距

四分位数间距（interquartilerange）是一种离散指标，它是第3个四分位数与第1个四分位数之差，即。

（6）偏度系数

偏度系数（skewness）返回分布的偏斜度，简记为SKEW。

偏斜度反映以平均值为中心的分布的不对称程度。

正偏斜度表示不对称部分的分布更趋向正值。

负偏斜度表示不对称部分的分布更趋向负值。

偏斜度的计算公式为样本观察值消除量纲影响的三阶中心矩，然后按样本数进行无偏修正，定义如下：

（24.14）

式中，为样本的标准差。

（7）峰度系数

峰度系数（kurtosis）返回数据集的峰值，简记为KURT。

峰值反映与正态分布相比某一分布的尖锐度或平坦度。

正峰值表示相对尖锐的分布。

负峰值表示相对平坦的分布。

峰值的计算为样本观察值消除量纲影响的四阶中心矩减去3（因为标准正态分布的四阶原点矩为3），然后按样本数进行无偏修正，公式如下：

（24.15）

式中，为样本的标准差。

二、正态性检验

用于判断总体分布是否为正态分布的检验称为正态性检验。

检验资料是否服从正态分布的主要方法有：

Wilk－Shapiro（威尔克斯-夏皮罗）的检验和Dagustino的检验。

原假设为总体服从正态分布。

1．小样本的检验

在观察值为小样本时，Wilk与Shapiro提出用如下的统计量：

（24.16）

它可以看成是数对（）相关系数的平方，所以的取值在0和1之间。

系数按标准正态分布构造，均值为0，标准差为1，且是对称值。

不同的样本数有不同的系列值。

可以证明，在原假设为真时，的取值应接近于1。

2．大样本的检验

在观察值为大样本时，Dagustino建议用以下的统计量：

（24.17）

在原假设为真时，统计量的标准化后渐近分布为标准正态分布。

三、总体均值的估计和检验

1．总体均值的估计

总体均值用表示，总体均值的估计包括点估计和区间估计。

点估计即用样本均值来估计总体均值：

。

点估计虽然简单，但未考虑抽样误差。

区间估计即按一定的概率估计总体均值在哪个范围内，这个范围称为置信区间，这个概率称为可信度或置信度，用表示，常取95%（）或99%（），按此确定的可信区间分别称之为95%或99%可信区间。

总体均值的区间估计因研究的问题和已知条件不同而用不同的方法。

主要分成三种情况：

（1）正态总体方差已知

如果总体服从正态分布且总体的方差已知，于是样本的均值分布为：

（24.18）

对变量作标准化处理，得到统计量：

（24.19）

称为检验。

则总体均值的可信区间为：

（24.20）

是抽样误差，为一定倍数的抽样误差，称为极限误差，或误差范围。

其意义是在给定的置信度的条件下对总体参数进行区间估计所允许的最大误差。

（2）正态总体方差未知

实际上，总体均值未知而总体方差已知的情况是不常有的，通常的情况是和都未知。

设总体服从正态分布且总体的方差未知。

在这种情况下，可用样本标准差来代替总体标准差，这样就得到了统计量：

（24.21）

称为检验。

则总体均值的可信区间为：

（24.22）

2．非正态总体

在大多数实际问题中，不能假定总体服从或近似服从正态分布。

但是，根据中心极限定理，只要样本容量足够大，样本均值的抽样分布就近似为正态分布。

若方差已知（通常根据历史资料或经验得到），则可用公式（24.20）来计算总体均值的可信区间。

若未知，则用样本标准差来代替总体标准差，总体均值的可信区间为：

（24.23）

3．配对检验

配对检验（pariedtest）用于配对试验设计（paireddesign），它是按一些非试验因素条件将受试对象配对对子，给予每对中的个体以不同的处理。

配对的条件一般为年龄、性别、体重等等。

其优点是在同一对的试验对象间取得均衡，从而提高试验效率。

有些试验中就同一受试对象作比较称为自身对照，例如，观察某指标不同时间的变化，或试验前后的变化，也属于配对试验。

想要比较配对试验中两种处理（和）的效果，或者自身对照中比较试验前后某指标（和）的变化。

可以先求出成对数据之差。

在这种试验设计的情况下，可以认为均值总体服从正态分布且总体的方差未知。

用样本标准差代替总体标准差，然后使用检验，检验是否来自均值为0（）的总体。

因此，配对检验公式为：

（24.21）

4．成组检验

当按完全随机化设计的两个样本均值比较时，可用成组检验（groupedtest），比较的目的是检验它们各种所代表的总体是否具有相同的均值，其假设检验，。

设总体，，如果和都已知，则

（24.22）

经标准化变换：

（24.23）

如果和都未知，但方差相等，其中未知需要估计。

由于和都是的无偏估计，集中了各自样本中有关的信息，故可以使用合并方差估计法（PooledVarianceEstimate），有：

（24.24）

然后，用样本合并标准差来代替中的总体标准差，这样就得到了统计量：

（24.25）

如果在和都未知的一般场合，即。

当和分别使用各自方差估计法（SeparateVarianceEstimate），即分别使用其相合估计和代替后，有：

（24.26）

这时，就不再服从分布了，其形式很像统计量。

近似统计量概率水平的Chchran和Cox近似是如下统计量的值：

（24.27）

用上面修正后的统计量作出合适的统计推断。

一般地，Chchran和Cox检验趋于保守。

另外，Satterthwaite（1864）就设法用统计量去拟合，结果发现若取：

（24.28）

但的计算结果为非整数时取最接近的整数，则近似服从自由度为的分布。

当样本数和较大时，式中的值也将随之而增大，我们知道，当时，自由度为的分布就很接近于正态分布，故在和较大时，我们将认为统计量服从分布。

5．两组方差的齐性检验

两个均值比较的检验，其前提是两个样本所代表的正态总体具有相同的方差，因此在作检验前，应该作两个方差是否齐性（一致）的检验，称为方差的齐性检验（testforhomogeneityofvarian

展开阅读全文