基本统计概念资料.docx

资源描述

基本统计概念资料.docx

《基本统计概念资料.docx》由会员分享，可在线阅读，更多相关《基本统计概念资料.docx（20页珍藏版）》请在冰豆网上搜索。

基本统计概念资料.docx

基本统计概念资料

基本统计概念

第一章数值资料的统计描述

一、数值资料的统计描述

首先应编制频数分布表以了解其分布状况，频数就是观察值的个数。

频数分布就是

观察值在其所取值的范围内分布的情况。

频数分布表的编制步骤：

1．计算全距全距=最大值一最小值

2．确定组段数、组距和组段数，全距大，观察值个数多可多取些，反之可少取。

组段数太多，较繁琐，不易反映分布的特征，组段太少计算误差较大，实际工作中可根据具体情况决定。

组距=全距／组数。

3．列表归组汇总将各组段列入频数分布表栏，用划记法将各观察值划记到各组段，即额数分布表栏，求出各组段额数及总额数。

其次，在编制额数分布表的同时，也可绘制额数分布图，以更加直观地了解频数分布情况。

二、频数分布类型

数值资料常见的频数分布类型有三种，如何区分关键是看分布高峰的位置。

1．正态分布型频数分布的高峰位于中央，图形左右对称。

正态分布属于此类型。

2．正偏态分布型频数分布的高峰偏左，图形左右不对称，即观察值较小的一端集中了较多的频数。

3．负偏态分布型频数分布的高峰偏右，图形左右不对称，即观察值较大的一端集中了较多的频数。

三、集中趋势指标

集中趋势指标又称平均数，它反映了观察值的集中位置或平均水平，是观察值的典型水平或代表值。

常用的集中趋势指标有算术均数（均数）、几何均数和中位数等。

计算平均数时，首先应搞清楚它们的应用条件，现把各种平均指标的应用条件归纳如表2.1.

各平均指标的应用条件

指标

适用条件

计算公式

算术平均数

常用于描述对称型分布，尤其是正态分布资料的集中趋势

几何均数

常用于描述对数正态分布资料和观察值呈等比数列资料的集中趋势

中位数

常用于描述偏态分布资料、一端或两端无界的资料、频数分布类型不清楚的集中趋势

四、离散程度指标

离散程度指标又称变异程度指标。

它反映观察值之间参差不齐的程度。

常用的离散程度指标有极差、标准差和变异系数等。

现将离散程度指标、计算公式及主要优缺点归纳如在下表中。

离散程度指标比较表

指标

计算公式

主要优缺点

极差

R=Xmax-Xmin

计算简单，易于理解；但只反映了一组观察值的最大值与最小值的差异，不能反映其他观察值之间的变异情况

离均差平方和

反映了各变量值之间的变异情况，但单位是原观察值单位的平方，不易理解，同时又受观察值个数的影响，不利于比较。

方差

反映了各变量值之间的变异情况，不受观察值个数的影响，但单位是原观察值单位的平方，不易理解

标准差

反映了各变量值之间的变异情况，不受观察值个数的影响，单位与原观察单位相同，是最常用的离散程度指标之一，但在两组和多组资料比较时，常受到计量单位不同和均数相差很大的影响而不能比较和不便于比较

变异系数

两组或多组资料比较变异程度，如均数相差过大或观察值单位不同时用变异系数比较

五、标准差的应用

标准差用来描述观察值间的变异程度（离散程度），用于正态或近似正态分布资料，标准差结合均数描述分布特征。

标准差主要用来衡量观察值间的离散（或变异）程度。

标准差还可以用于计算变异系数，变异系数又称离散系数，它是标准差对均数的相对百分数，故又有相对标准差之称，以符号CV表示，按下式计算。

和标准差一样，CV越小，表示观察值的离散程度越小。

六、对数正态分布

某些正偏态分布资料，其观察值X经过对数变换后，可以转变为正态分布资料，这时，就称X服从对数正态分布。

第二章总体均数的估计和t检验

一、均数的抽样误差

均数抽样误差是指由于抽样引起的样本均数与总体均数之间的误差，称为均数的抽样误差。

均数的抽样误差用均数的标准误表示，用符号表示，用来描述均数的抽样误差的大小，。

如无可用s代替求标准误的近似值

二、t分布

一般正态分布转化为标准正态分布就是将X变量变换为u值，变换公式为，u值的分布就是标准正态分布。

样本均数组成的正态分布变换为标准正态分布将X变换为u值，变换公式为值的分布是标准正态分布。

如。

用代替，就是t变换，变换公式为，t值的分布即是t分布。

t分布曲线具有以下特征：

以0为中心，左右对称；与正态分布曲线相比，自由度越小，顶部越低，尾部翘得越高，随自由度逐渐增大逐渐趋向正态分布曲线；二分布曲线随自由度的改变而改变，它是一簇曲线。

三、总体均数的可信区间的估计

1．小样本均数可信区间的估计

通式：

总体均数的可信区间为：

，=1-P。

P：

可信度又称置信概率，如总体均数95％的可信区间P=0.95，则=1-P＝0.05，：

自由度，t是自由度等于时的t的界值。

常用的可信区间公式：

95％的可信区问：

99％的可信区间：

计算时特别注意公式中的标准误而不是标准差。

2．大样本均数可信区间的估计

95％的可信区间：

99％的可信区间：

可信区间的含义：

从总体中作随机抽样，根据每个样本可算得一个可信区间，如95%可信区间，意味着作100次抽样，算得100个可信区间，有95个可信区间包括总体均数（估计正确），只有5个可信区间不包括总体均数（估计错误）。

四、t检验的意义

t检验主要用于两个均数的比较，它能够判断进行比较的均数的差别是由于抽样误差引起，还是总体就有差别。

五、t检验的步骤

1．建立假设和确定检验水准

H0（无效假设）：

假设比较指标的差别是由于抽样误差引起的。

H1（备择假设）：

假设比较指标的差别是总体的差别。

（检验水准）：

一般为0．05，可以根据情况决定是单侧还是双侧。

2．计算t值根据统计资料的类型、适用条件、分析目的计算适当的统计量正值。

3．确定P值P值是H0存在的概率，根据自由度与P值确定相对应的t界值，比较所得t值大于相应的界值时，P小于相应的概率P。

4．判断结果P拒绝H0，可以认为比较指标的差别是总体的差别；P＞接受H0，可以认为比较指标的差别是抽样误差引起。

六、常用的t检验

1．进行t检验时首先应正确认识资料的类型和t检验的适用条件，t检验是数值资料的假设检验方法，应用于样本均数与总体均数的比较及两样本均数间的比较，所以要进行t检验需检查资料是否符合以下条件：

①资料是数值资料；②分析目的是对两均数进行比较；③具备t检验的应用条件，即资料具有正态性，如两样本均数比较还需要两样本方差具有齐同性。

2．正确选择具体公式，计算t值如以上三条资料均具备，就说明可以进行t检验，然后进一步选择具体的t检验方法。

其具体方法有：

（l）样本均数与总体均数比较的t检验，资料中有一个，另一个是0。

（2）配对比较的t检验，资料常见的有以下三种：

①配对资料，常将条件基本相同的受试对象配成对子，每对中的两个受试对象分别给予不同的处理，比较不同处理的差别。

②同一批对象试验前后对比资料，是对一批观察对象分别测定试验前后某项指标的．值进行比较，目的是看该处理（试验）有无作用。

③对同一批样本中的每一个样本分别用不同方法处理，比较不同方法有无差别。

以上三种资料假设检验都是用配对t检验。

配对t检验实际也是单一样本均数（差数的样本均数）与总体均数（差数的总体均数）比较，所以它和样本均数比较的t检验一样，只要求资料具有正态性。

（3）两小样本均数比较的t检验，两小样本比较的t检验，既要求资料具有正态

性，又要求两样本方差具有齐同性。

式中：

为两样本均数之差，

为两样本均数之差的标准误，

式中为合并方差，

式中：

s1为第一个样本的方差，s2为第二个样本的方差，

n1为第一个样本的含量，n2为第二个样本的含量。

（4）两样本均数比较的u检验，两样本均数比较时，如n1和n2均大于100，可用

u检验。

，u检验的唯一条件是样本含量足够大。

不要求正态性和方差齐性。

（5）两个几何均数比较的t检验或u检验，两样本几何均数进行比较时，只需将数

据变换成对数，用对数值进行两样本均数的t检验或u检验就可以了。

七、进行t检验时应注意的问题

1．正确理解差别的统计意义差别有统计意义，是说从统计的角度看，差别可能是总体的差别；差别无统计意义时是说从统计的角度看差别可能是抽样误差引起的。

2．对比资料应有可比性对比资料除对比因素不同外，其它凡影响比较指标的一切因素应尽可能齐同，这样资料才有可比性。

3．要满足t检验的应用条件t检验要求资料具有正态性，样本间方差要有齐同性。

配对和样本与总体比较的t检验，因是单一样本，只要求资料具有正态性。

两小样本的t检验，两个条件均应达到才能进行t检验。

必要时应做正态性检验和方差齐性检验。

4.正确计算统计量t值根据资料的类型、特征和统计分析目的，正确选择t检验的具体方法，计算t值。

5．正确理解t检验结论的概率性t检验结论不管拒绝还是接受H0都不是100％正确的，t检验中常出现二种错误，一是H0是正确的，根据P≤α拒绝了它，称第Ⅰ类错误，第Ⅰ类错误的概率α表示，α取决于检验水准。

二是H0是不正确的，而P＞α接受了它，称第Ⅱ类错误，第Ⅱ类错误的概率用β表示，其β值不易确定，但α越大，β越小，增加样本含量可同时减少α和β。

6.正确地确定单侧和双侧检验根据专业知识，在统计分析前就应确定用单侧检验还是用双侧检验。

八、正态性检验

对频数表应用正态概率单位法进行正态性检验，要求掌握在没有概率纸的情况下会作正态性检验。

检验步骤如下：

1．列表计算频数表资料各组段的累计频数、累计频率，并将累计频率换算成概率单位。

2．定坐标横轴表示各组段，纵轴表示相应的概率单位。

3．画图以各组段的上限与相应的概率单位的交点描点，连接各点即得累计频率曲线。

4．判断结果如资料为正态分布，该曲线接近一条直线。

第三章卡方

（2）检验

2检验是一种对分类资料进行假设检验的重要方法之一。

它常用于两个或多个样

本率（或构成比）的比较、列联表资料的相关分析及频数分布拟合优度的检验。

2检验最常用于作样本率或构成比的比较，按照资料设计类型不同，可将这—类

假设检验分为：

四格表资料2检验；行列表资料2检验；配对资料2检验等。

一、四格表资料2检验

四格表指由2行2列组成的表格，其基本数据只有4个。

检验步骤如下：

1．建立假设和确定检验水准

2．计算2值

（1）计算2值的基本公式：

式中：

2为卡方值，A为实际频数，即实际观察所得频数。

T为理论额数，即按照假设或理论推算出来的频数。

TRC＝nRnc／N

式中：

TRC为第R行第C列格子的理论频数，nR为与理论额数同行的合计数，nc为与理论颇数同列的合计数，N为总例数。

（2）计算2值的专用公式：

（3）计算2值的校正公式：

3．确定P值按=（行数一1）（列数一1），查2值表确定P值。

4．判断结果根据2分布的理论，在的水准上作出拒绝HO或接受HO的结

论。

二、行×列表资料2检验

（－）行×列表的格式

2×2表是最简单的行×列表，习惯上把行数＞2和（或）列数＞2的表称为行×列

表。

实际工作中行×列表又可分为R×2表，2×C表和RXC表。

RX2表由多行（R＞2）2列组成，用于多个样本率的比较。

2XC表由2行多列（C＞2）组成，用于两个样本构成比的比较。

RXC表由多行（R＞2）多列（C＞2）组成，用于多个样本构成比的比较。

（二）行×列表资料2检验方法

上述三种行×列表资料的2检验均可用基本公式计算2值，也可用下列专用公式计算2值，后者较简便。

式中：

n为总例数，

展开阅读全文