第九章资料的统计分析11.docx

资源描述

第九章资料的统计分析11.docx

《第九章资料的统计分析11.docx》由会员分享，可在线阅读，更多相关《第九章资料的统计分析11.docx（14页珍藏版）》请在冰豆网上搜索。

第九章资料的统计分析11.docx

第九章资料的统计分析11

第九章资料的统计分析

（1）——单变量分析

第一节单变量描述统计

一、频数分布和频率分布

1、所谓频数分布（frequencydistribution），就是指一组数据中取不同值的个案的次数分布情况，它一般以频数分布表的形式表达。

频数分布表的作用有两方面，一是简化资料，即将调查所得到的一长串原始数据，以一个十分简洁的统计表反映出来。

二是从频数分布表中，可以更清楚的了解调查数据的众多信息。

2、所谓频率分布（percentagesdistribution），就是指一组数据中不同取值的频数相对于总数的比率分布情况，这种比率在社会调查中经常是以百分比的形式来表达。

频率分布表除了频数分布表的优点之外，还有一个重要的优点就是十分方便地用于不同总体或不同类别之间的比较。

3、注意的是，对于一项有一定规模的调查样本来说，一般不宜对如年龄、收入、时间等定比变量做频数分布表或频率分布表。

因为，此时类别很多，而每一类别中个案数不多，所得结果繁杂不适用。

二、集中趋势分析

集中趋势分析（centeraltendencyanalysis）指的是用一个典型值或代表值来反映一组数据的一般水平，或者说反映这组数据向这个典型值集中的情况。

最常见的集中趋势分析包括平均数（均值）、众数和中位数。

1、平均数（mean）：

总体各单位数值之和除以总体单位数目所得之商。

2、众数（mode）：

是指一组数据中出现次数最多的那个数值。

3、中位数（median），把一组数据按值的大小顺序排列起来，处于中央位置的那个数值就叫中位数。

它所描述的是定序变量以上层次的变量。

4、中位数和平均数的比较

平均数比中位数利用了更多的数据信息，对总体的描述更全面和准确。

平均数很容易受到极端值变化的影响，而中位值不会受到这种影响。

对于抽样调查来说，平均数是一种比中位数更为稳定的量度，它随样本的变化比较小。

三、离散趋势分析

离散趋势分析（dispersiontendencyanalysis），指的是用一个特别的数值来反映一组数据相互之间的离散程度。

常见的离散量数统计量有全距、标准差、异众比率、四分位差等。

标准差、异众比率、四分位差分别和平均数、众数、中位数相对应，判定和说明平均数、众数、中位数代表性的大小。

1、全距（range）

又叫极差，它是一组数据中最大值和最小值之差。

其意义在于一组数据的全距越大，在一定程度上说明这组数据的离散量数越大，而集中量数统计量的代表性越低。

反之，一组数据的全距越小，则说明这组数据的离散量数越小，而集中量数统计量的代表性越高。

2、标准差（standarddeviation）

一组数据对其平均数的偏差平方的算术平均数的平方根。

用S表示。

对于单值分组数据资料，计算标准差的公式为

3、异众比率（variationratio）

指的是一组数据中非众数的次数相对于总体全部单位的比率。

用VR表示。

其意义是指众数所不能代表的其他数值在总体中的比重。

异众比率越大，则众数代表性越小；异众比率越小，则众数代表性越大。

4、四分位差（interquartilerange）

指的是将一组数据按大小排序，然后将其4等分，去掉序列中最高的四分之一和最低的四分之一后，中间的一半数值之间的全距。

用Q表示。

5、离散系数（coefficientofvariation）

变差系数，它是一种相对的离散量数统计量，它使我们能够对同一总体中的两种不同的离散量数统计量进行比较，或对两个不同总体中的同一离散量数统计量进行比较。

定义为：

标准差和平均数的比值，记为CV。

第二节单变量推论统计

一、区间估计（intervalestimation）

其实质就是在一定的可信度（置信度）下，用样本统计值的某个范围（置信区间）来“框”住总体的参数值。

范围的大小反映的是这种估计的精确性问题，而可信度高低反映的则是这种估计的可靠性或把握性问题。

区间估计中的可靠性或把握性是指用某个区间去估计总体参数时，成功的可能性有多大。

对于同一总体和同一抽样规模来说，所给区间的大小和作出这种估计所具有的把握性成正比。

反过来说，区间的大小所体现的是估计的精确性问题，二者成反比。

在精确度和把握性之间寻找平衡，在社会统计中，一般常用的置信度分别为90%、95%和99%。

计算中，置信度常用1-α来表示。

1、总体均值的区间估计

2、总体百分数的区间估计

二、假设检验

假设检验实际上就是先对总体的某一参数作出假设，然后用样本的统计量去进行验证，以决定假设是否为总体所接受。

其所依据的是概率论中的小概率原理，即“小概率事件在一次观察中不可能出现”的原理。

假设检验的基本步骤是：

1、建立虚无假设和研究假设，通常是将原假设作为虚无假设；

2、根据需要选择适当的显著性水平α（即小概率的大小），通常有α=0.05，α=0.01等；

3、根据样本数据计算出统计值，并根据显著性水平查出对应的临界值；

将临界值和统计值进行比较，以判定是接受虚无假设，还是接受研究假设。

（1）总体均值的假设检验

例：

某单位职工上月平均收入为210元，本月调查了100名职工，平均月收入为220元，标准差为15元，问该单位职工本月平均收入和上月相比是否有变化？

（2）总体百分比的假设检验

例：

一所大学全体学生中抽烟的比例为35%，经过学习和戒烟宣传后，随机抽取100名大学生进行调查，结果发现抽烟者为25名，问戒烟宣传是否收到了成效？

本章思考题

1、名词解释：

频数分布、频率分布、众数、中位数、全距、标准差、异众比率、离散系数、区间估计

2、课后练习题。

第十章资料的统计分析

（2）——双变量分析

第一节变量间的关系

一、相关关系

1、概念：

两个变量之间的相关（correlation）关系指的是当其中一个变量发生变化时（或取值不同时），另一个变量也随之发生变化（取值也不同）。

反过来也一样。

2、相关关系的方向。

对于定序以上层次的变量来说，变量和变量之间的关系可以分为正关系和负关系两个方向。

3、所谓两个变量具有正相关关系，指的是一个变量的取值增加时，另一个变量的取值也随之增加，反之亦然。

或者说，两个变量的取值变化具有同方向性。

4、所谓两个变量具有负相关关系，指的是一个变量的取值增加时，另一个变量的取值随之减少，反之亦然。

或者说，两个变量的取值变化具有反方向性。

5、相关关系的强度

指的是他们之间相关关系程度的强弱和大小。

变量间相关程度的统计表示是相关系数。

一般相关系数的取值都在-1到+1之间，这里的正负号表示的是相关关系的方向，实际的数值的绝对值表示的是相关关系的强弱。

6、相关关系的类型

可分为直线相关和曲线相关。

所谓直线相关，指的是当变量X值发生变动时，变量Y的值也随之发生大致均等的变动。

7、相关关系和散点图：

散点图用于定距以上层次的变量。

二、因果关系

1、概念：

指的是当其中一个变量变化时会引起或导致另一个变量也随之发生变化，但反过来，当后一变量变化时，却不会引起前一变量的变化。

2、因果关系的三个条件：

A、首先，变量X和变量Y之间存在不对称的相关关系。

B、变量X和变量Y在发生的顺序上有先后之别。

C、变量X和变量Y的关系不是同源于第三个变量的影响。

第二节交互分类

探讨两个定类变量（或一个定类，一个定序变量）之间关系的方法。

一、交互分类的意义和作用

所谓交互分类（crossclassification），就是将调查所得的一组数据按照两个不同的变量进行综合的分类。

交互分类可以较为深入的描述样本资料的分布状况和内在结构。

更重要的是，交互分类可以对变量之间的关系进行分析和解释。

交互分类所适用的变量层次是定类变量和定序变量。

二、交互分类表的形式和要求

1、每个表的顶端要有表号和标题。

表号的作用是明确指示，方便阅读或讨论；而表的标题则概括表中数据的内容和意义。

2、表格中的线条一定要规范、简洁，最好不用竖线。

3、表中百分比符号的简便处理方式。

4、在表的下端用括号标出每一纵栏所对应的频数，以指示每一栏百分比所具有的基础（即个案的多少）。

5、表内的百分比通常保留一位小数。

6、对于交互分类的两个变量的安排，通常是将自变量、或被看作是自变量的或用来作解释的那个变量放在上层；而将因变量或被看作因变量放在表的左侧。

7、交互分类的两个变量的变量值应有所限制，特别是不能同时具有多个变量值。

三、x2检验

公式为：

fo为交互分类表中每一格的观察频数，fe为交互分类表中fo所对应的期望频数。

年龄和态度的交互分类表（人）

年龄

态度

青年

中年

老年

合计

赞成

144

154

328

反对

126

272

合计

200

280

120

600

四、关系强度的测量

显著性水平的高低不能判断或估计变量间关系的强弱，而只是代表确定变量间存在关系的可信程度。

1、Φ系数。

当交互分类表为2×2表时候，可用它测量变量关系的强度。

显著性水平的高低不能判断或估计变量间关系的强弱，而只是代表确定变量间存在关系的可信程度。

1、Φ系数。

2、v系数。

3、c系数。

（不受样本规模大小的影响）。

4、λ系数

优点是具有消减误差比例（proportionatereductioninerror，PRE）的意义。

PRE指的是知道X的值去预测和它相关的变量Y值时所减少的误差（E1-E2）和总误差的比。

即PRE=（E1-E2）/E1

PRE越大，表示以X值去预测Y值时能够减少的误差所占的比例越大，换句话说，X和Y之间就越是相关，或者说，X和Y关系越强。

λ系数的基本特点就是以众值作为预测的准则。

公式为λ=（∑fy-Fy）÷（n-Fy）

fy表示变量X的每一个值之下的变量Y的众值；Fy表示变量Y的边际分布中的众值。

Tau-y（简记为τy）

第三节其他层次变量的相关测量和检验

1、定序变量和定序变量

如果两个变量都是定序变量，可以用古德曼和古鲁斯卡的Gamma系数来测量它们之间的相关关系。

常用G（或Υ）表示，其取值范围是[-1，+1]，适用于分析对称关系，且既表示相关的方向性，也表示相关的程度。

它也具有消减误差比例的意义。

公式为：

其中，Ns表示同序对数目，Nd表示异序对数目。

所谓同序对就是指变量大小顺序相同的两个样本点，即其在变量X上的等级高低顺序和在变量Y上的等级高低顺序相同；否则就是异序对。

要将随机样本中有关两个定序变量间关系的结果推论到总体，同样必须对其进行统计检验，Gamma系数的抽样分布在随机抽样和样本规模比较大的情况下，近似于正态分布，因此可以用Z检验的方法进行。

将G值转换为Z值的公式为：

2、定类变量（定序变量）和定距变量

这种情况下用相关比率（correlationratio）或eta系数来测量两者间的相关程度。

相关比率又称为eta平方系数，记为E2，其数值范围由0到1，具有消减误差比例的意义。

公式为：

Y为依因变量的数值

为在自变量X的每个取值Xi上的因变量的均值。

公式可转换为：

相关比率E2检验采用的是F检验法，公式为：

K为分组数目，n为样本规模，F的抽样分布取决于两个自由度，即df1=k-1；df2=n-k

3、定距变量和定距变量

用皮尔逊相关系数（或称皮尔逊积差相关系数）r

公式为：

特点：

首先，公式中X和Y是对等的，即将两者位置互换，r值不变，说明r是一种对称关系的测量；其次，可以证明r的取值范围在-1到1之间；第三，r的取值具有方向性；第四，r本身不具有消减误差比例的意义，而其平方r2（又称决定系数）具有消减误差比例的意义。

当资料是分组资料时候

公式为：

f为各组所对应的频数

皮尔逊相关系数可以采用F检验的方法，也可采用t检验的方法，因为F=t2

注意：

1、各种相关测量的方法，目的是理解两个变量中“样本”中相关程度的强弱或大小。

2、对各种相关系数所进行的相应的检验，目的是根据随机样本的资料推论两个变量中“总体”中是否相关。

3、选择何种相关测量方法和何种检验方法，主要看两变量的测量层次，要依据变量的测量层次来确定合适的相关测量和检验工具。

第四节回归分析

回归分析（regressionanalysis）是对有相关关系的现象，根据其关系的形态找出一个合适的数学模型，即建立回归方程，来近似地表达变量间的平均变化关系，以便依据回归方程对未知的情况进行估计和预测。

回归分析的对象是定距层次的变量。

一元线性回归方程的建立

1、依据理论分析或根据研究的需要确定两变量中哪一个为自变量，哪一个为因变量。

2、以自变量为x轴，因变量为y轴作出表中资料的散点图，以判明两变量之间是否为线性相关。

本章思考题

1、名词解释：

相关关系、因果关系、交互分类、消减误差比例、回归分析

2、课后练习题。

展开阅读全文

第九章 资料的统计分析11.docx

第九章资料的统计分析11.docx