李沛良《社会研究的统计应用》概要Word下载.docx

资源描述

李沛良《社会研究的统计应用》概要Word下载.docx

《李沛良《社会研究的统计应用》概要Word下载.docx》由会员分享，可在线阅读，更多相关《李沛良《社会研究的统计应用》概要Word下载.docx（13页珍藏版）》请在冰豆网上搜索。

李沛良《社会研究的统计应用》概要Word下载.docx

1、访问法　　　2、观察法　　3、档案资料

第三节　总　结

一、统计分析

如果用相同的方法重复测量变项时所得的资料是很吻合的，就表示所该变项的测量信度很高；

例如，重复询问各都是的专业资格时所得的答案如果相近，就显示这个变项的资料的信度高；

所谓测量效度，是指所得的资料是否与测量的目标相吻合。

如我们测量的目标是都是的专业资格，如果所得的资料大部分只包括都是的教学年期，就表示测量的效度颇低。

二、解释研究结果

三、研究成果和贡献

四、提供新的研究题目

第二章　简化一个变项之分布

第一节　基本技术

一、定类层次

次数分布、比例、比率、图示和对比值

二、定序层次

累加次数　累加百分比

三、定距层次

组限　组中点　　矩形图　多角线图

第二节　集中趋势测量法

定义：

指统计分析中用以简化一个变项的资料的分布情况的方法，就是找出一个数值来代表变项的资料分布，以反映资料的集结情况，可以根据这个代表值来估计或预测每个研究对象的数值经包括众值、中位值和均值。

一、定类变项：

众值

二、定序变项：

中位值

1、根据原资料求出中位值

　　MD的位置＝（n+1）/2

2、根据分组资料求出中位值

　　MD＝L＋

三、定距变项：

均值

第四节　离散趋势测量法

指用以简化一个变项的资料的分布的统计方法，是要求求出一个数值，来表示个案与个案之间的差异情况，主要包括离异比率、四分位差和标准差等方案。

离散趋势测量法与集中趋势测量法有互相补充的作用。

集中趋势所求出的是一个最能代表变项所有资料的值，但其代表性的高低却要视乎各个个案之间的差异情况。

如果个案之间的差异很大，则众值、中位值、均值的代表性就会很低。

一、离异比率：

非众值的次数与全部个案数目的比率

二、四分位差：

将个案由低至高排列，然后分为四个等分，则第一个四分位置的值（Q1）与第三个四分位差（Q3）的差异，就是四人位差。

三、标准差

就是将各数值（X）与其均值（　）之差的平方和除以全部个案数目，然后取其平方根。

公式如下：

公式中X与　的相差，就是表示以均值人微言轻代表值时会引起的偏差或错误。

如果各个实际数值与均值之相差的总和很大，就表示变项的离势很大，即均值的代表性很小。

方差：

就是标准差的平方，其意义与标准差相同。

第四节正态分布与标准值

一、正态分布

定距资料可以用一条平滑的曲线表示。

正态曲线可以下公式表示：

　　正态分布具有

（1）单峰和对称的特质，因此众值、中位值和均值都是相同的；

（2）X与其均值（　）的差异愈大，其次数会愈少，但不会等于零；

换言之，曲线两端逐渐减降，但不会接触底线。

二、标准正态分布

为什么要用标准正态分布呢？

1、由于不同的变项会用不同的度量单位，即使是同一变项也可能用不同的度量单位，结果形成不同大小和不同形状的正态分布；

2、它们的均值与标准差数值各不相同，其扁平或高耸的程度也各有不同。

如果我们分别计算每一种正态分布各部分面积，就会很麻烦；

3、以标准差为单位的好处，是可以使正态分布标准化，不受变项的度量单位所影响。

由此可知，将正态分布的数值改用标准差为单位是有重要的意义，可以将不同形态的分布归纳为一种分布，简化了统计分析的工作。

这个以标准差为单位的正态分布，一般称为标准正态分布。

如果正态分布是以标准差（S）为单位，则每个变项就变为：

上述的Z称为“标准值”，代表每个X值在标准正态分布上的数值。

标准正态分布的均值是0，标准差是1。

第三章　简化两个变项这分布

第一节　统计相差的性质

1、相关：

一个变项的值与另一个变项的值有连带性。

换言之，如果一个变项的值发生变化，另一个变项的值也有变化。

2、正相关　负相关

第二节　简化相关与消减误差

我们选择测量法的标准：

1、注意变项的测量层次；

2、两个变项之间的关系是对称的还是不对称的；

3、最好选择统计值有意义的相关测量法。

在统计学中有一组相关测量法，其统计值具有消减误差比例的意义，称为PRE测量法。

所谓PRE测量法的意义，就是表示用一个现象来解释另一个现象时能够消减百分之几的错误。

第四章　相关测量法与测量层次

一、简单线性回归分析

1、它是根据一个方程式，以一个自变项（X）的数值来预测一个依变项（Y）的数值，这个方程式为：

　　Y’=bX+a

回归法在绘制回归线时所根据的准则是最小平方。

假定我们根据一条直线来以自变项的某个值（Xi）估计依变项的某个值（Yj），所估计的值是Y’j，而实际上该值是Yj，则误差便是e=Yj－Y’j。

原则上，将全部样本个案的各个e相加起来就是误差总数，但这样做会引起正负相抵消的问题。

所以，我们要改为把e的平方值相加起来。

因此，如果回归直线在坐标图中的位置能够使到Σe2最小，就理应是最佳拟合线。

统计学家推算出b与a的数值应是如下：

　　b=　nΣ（XY）－（ΣX）（ΣY）

　　　　　　n（ΣX2）－（ΣX）2

2、回归方程式中的回归系数b具有很重要的意义。

b值的大小，就是表示X对Y的影响有多大，是代表每增加一个单位的X值时，Y值的变化有多大。

即：

　　　b＝

如果b＝0，表示X对Y没有影响。

b值越大，就表示X变化时所引起的Y变化愈大。

因此，b值是表示自变项对依变面的影响的大小和方向。

它是一个分析不对称关系的统计法。

b值的大小不限于-1到1。

二、积矩相关系数与简单线性回归方程式的关系

　　1、r系数所要表示的，就是以线性回归方程式作为预测工具时所能减少的误差比例。

因此，如果r系数值越大，就表示线性回归方程式的预测能力愈强；

2、在社会学研究中，最好是先计算r系数值，然后才决定是否运用简单线性回归分析法来预测。

第五章　抽样与统计推论

第一节　抽样的意义与问题

一、抽样的优点：

1、调查费用较低。

当总体包含的研究对象数目较大时，普查所需费用甚巨；

2、速度快。

调查全部研究对象比调查它的一部分要费时得多；

3、应用范围广。

上述两个特点决定抽样调查可广泛用于各个领域，各种课题，而不像普查那样只限于统计部门或政府部门；

4、可获得内容丰富的资料。

为了节约费用，普查一般了解少量项目，而且多是一些行政上的资料，很少关注态度、意见方面的内容；

5、准确度高。

专业素质人员的介入

二、抽样的术语

　1、研究总体与调查总体

研究总体是在理论上明确定义的整体，但在实际中很难做到使符合这一定义的一切个体都能有机会被选入样本；

调查总体是研究者从中实际抽取调查样本的个体的集合体，它往往是对研究总体的进一步界定，即对时间、范围做进一步规定。

　　　2、抽样框

　　　　　又称抽样范畴，是从中抽取样本的抽样单位名单。

　　　3、参数值与统计值

　　　　　参数值是关于总体中某一变量的综合描述，如全国妇女平均受教育年限；

统计值则是关于调查样本中某一变量的综合描述，如从一个样本中得到的妇女平均受教育年限。

　　　4、抽样误差与非抽样误差

　　　　　由于样本与总体的差异性，在用样本的统计值推算总体的参数值时会有偏差，这不是抽样误差；

因误抄、计算错误等人为过失和其他一些因违反随机原则而产生的误差，称为非抽样误差。

第二节　抽样的基本程序

　　　1、界定总体　2、搜集全部名单　3、决定样本的大小　4、选取样本个案　5、评估样本之正误

第三节　随机与非随机抽样法

一、随机（概率）抽样

　　就是使总体中每一个体都有一个已知不为零的被选机会进入样本。

它分为竺概率抽样和不等概率抽样。

　　1、简单随机抽样（纯随机抽样）

它是最基本的概率抽样，最直观地体现了抽样的基本原理，是其它抽样方法的基础。

它要求每个个案被选取的机会是相同的。

它分为重复抽样（放回）和不重复抽样（不放回）。

常用的抛硬币、抽签等方法都是简单随机抽样，但社会调查中的简单随机抽样通常是使用随机数表进行的。

简单随机抽样是概率抽样的理想类型，没有偏见，简单易行，且从随机样本的抽取到对总体进行推断时，有一套健全的规则。

但当总体数目太多时，会费时费钱。

2、系统随机抽样

又称为系统抽样、等距抽样、机械抽样。

它首先将全部个案排列起来，按抽样比例分成间隔，并在第一个间隔内选取第一个个案，然后每经一个间隔就选取一个个案。

这样选出的个案，就是我们所需的样本。

3、分层抽样

先将总体按一种或几种特征分为几个子总体，每一个子总体称为一层，然后从每一层中随机抽取一个子样本，将它们合在一起，即为总体的样本，称为分层样本。

分层抽样的优点

4、整群抽样

又称为整体抽样、聚类抽样。

是将总体按照某种标准划分为一些子群体，每一个子群为一个抽样单位，用随机的方法从中抽取若干子群，将抽出来的子群中所有个体合起来作为总体的样本。

它与分层抽样的比较：

（1）相同：

在第一步都是根据某种标准将总体分为一些小群。

（2）不同：

第一，抽样方式不同。

在分层抽样中，所有子群均要抽取一个子样本，作为总体样本的一部分；

而整群抽样则不然，总体样本分布在部分子群中，有的子群可能抽不到。

　　第二，划分子群的原则也不同：

分层抽样的划分依据是层之间异质性高，层内同质性高，而整群抽样则是群间异质性低，群内异质性高。

因此，分层抽样适用于界质分明的总体，整群抽样适用于界质不清的总体。

5、多段（级）抽样

在大规模的调查研究中，较为常用的是多段抽样，即先抽取若干集体，然后从所选取的集体中再抽取若干较小的单位。

6、多期抽样

如果要收集大量资料，可用这种从样本中抽取分样本，分期惦念和累积资料的方法。

二、非随机（概率）抽样

1、偶遇抽样

　又称方便抽样。

是指研究者将在一定时间、一定环境晨所能遇见或接触到的人均选入样本的方法。

“街头拦人”法即为一例。

　方便省力，但样本的代表性差。

2、主观抽样

　又称为立意抽样、判断抽样，是根据研究者的主观见解和判断，选取他认为是典型的个案。

这种样本是否具有代表性，要视乎研究员的主观判断是否正确。

3、配额抽样

　又称为定额抽样，是根据某些标准将总体分组，然后用立意或偶遇抽样法由每组中选取样本个案。

　它与分层抽样都要进行分组，但分层抽样中各层样本是随机抽取的，而定额抽样中各层样本是非随机抽取的。

4、滚雪球抽样

　指先从几个适合的调查对象开始，然后通过他们得到更多的调查对象，这样一步步地扩大样本范围。

当调查总体的个体信息不充分时，常采用这种方法。

5、空间抽样

　指针对一个变动的总体，如游行队伍集会等进行抽样的方法，这种总体虽然是变动的，但在空间上是有限的。

空间抽样最重要的是要在同一时间对整个总体进行抽样，以防止它的组成经历太大的变化。

第四节　几率与概率分布

抽样分布：

是根据几率的原则而成立的理论性分布，显示由同一总体中反复不断抽取不同样本时，各个可能出现的样本统计值的分布情况。

1、二项抽样分布

　就是指所研究的变量只有两个值，如是与否、高与低、男与女。

2、均值抽样分布

　　指从总体中抽取若干个样本，每个样本都有一个均值，由这些均值构成的分布称为均值抽样分布，它具有如下特点：

（1）如果样本相当大（通常指n不可少于30，最好大于100），则抽样分布接近正态分布，因而具有单峰和对称性质，众值、中位值和均值都是相同的；

（2）抽样分布之均值就是总体之均值。

　　　抽样分布的标准差称为标准误差。

（3）抽样分布的均值（M）两旁的面积是可以知道的。

如有95%在M＋1.96（SE），有99%在M＋2.58（SE）。

第六章　参数值的估计

第一节　点值估计与间距估计

1、参数估计：

就是根据一个随机样本的统计值来估计总体之参数值是多少。

2、点值估计：

以一个最适当的样本统计值来代表总体的参数值。

3、间距估计：

就是以两个数值之间的间距来估计参数值。

间距的大小取决于我们在估计时所要求的可信度。

　在样本大小相同的情况下，如果要求的可信度越大，则间距就会越大，通常称为“可信间距”。

第二节　间距估计：

均值、百分率、积距相关

1、均值的间距估计：

　　95%的可信度：

X＋1.96（SE），即X＋1.96

　　99%的可信度：

X＋2.58（SE），即X＋2.58

2、百分率（或比例）的间距估计：

p＋1.96

99%的可信度：

3、积距相关系数：

Z’＋1.96（SE），其中，Z’=1.151　　　　　　　　　SE＝

第三节　决定样本的大小　

　基本原则是：

在能够付出的研究代价的限度内，选取最大的样本。

尚有两个原则可供参考：

1、我们能容忍多少错误（e）？

（2）所研究的个案之间的相互差异有多大（S）？

公式：

第七章　假设检定：

均值与百分率

第一节　基本知识

一、重要概念：

1、假设检定：

指先成立一个关于总体情况的假设，继而抽取一个随机样本，然后以样本的统计值来验证假设。

2、研究假设与虚无假设

科学的假设一般先成立假设，即假定在总体中存在某些情况，如假定绝大多数人同意某项制度或假定X与Y是相关的，这个假设称为研究假设，又称备择假设，通常用H1表示。

虚无假设是指与研究假设相反的假设，通常叙述变项间没有差异没有影响，没有关系，如X与Y是不相关的，用H0表示，又称原假设。

假设检定不是直接检定研究假设，而是首先检定与这个研究假设相对立的虚无假设，而间接地知道研究假设的正确可能性。

3、否定域：

指在假设检验中，在未分析资料以前，我们应该决定在什么情况下否定虚无假设。

这样一个预定的范围，就称为否定域。

确切地说，否定域，是指抽样分布内一端或两端的小区域，如果样本的统计值在此区域范围内，则否定虚无假设。

否定域是一端还是两端，要视研究假设的性质而定。

4、显著度：

指否定域在整个抽样分布中所占的比例，也表示样本的统计值落在否定域内的机会。

显著度越小，便越难否定虚无假设。

5、甲种误差与乙种误差

　甲种误差，是指否定H0，但实际上H0是对的错误可能性。

这个可能性，就是显著度。

　乙种误差，是指不否定H0，但实际上H0是不对的错误可能性。

　两种误差是对立的，成反比的。

如果要减少甲种误差，势必增加乙种误差。

要完全消除两种误差的矛盾是不可能的。

但是，我们可以设法在若干程度上同时减少两者的可能性，最简单的办法，就是把样本增大。

6、统计法的检定力

　指该统计法能够准确地判断虚无假设的正误之能力。

由于在统计推论之前，已经决定显著度的大小，故检定力的大小其实是指乙种误差的大小：

如果所犯的乙种误差越小，该统计法的检定力就越大。

　检定力＝1－乙种误差机会

　　　参数检定法的检定力大于非参数检定法。

　　　参数检定法的特点，是要求总体具备某些条件：

（1）定距变量；

（2）随机抽样；

（3）总体呈正态分布

　　　非参数检定法，其特点是不要求总体数值具备特殊的条件。

7、自由度：

简称df，是指有多少个个案的数值可以随意变更。

t的抽样分布形状取决于自由度：

df越小，则t分布越扁平；

df越大，则t分布越高耸而且接近正态分布。

二、假设检定的步骤

1、根据研究假设H1成立与其对立的虚无假设H0

2、选择适当的检定统计法，并要列举其假定或要求

3、确定抽样分布

4、决定显著度，并依据H1的性质选用一端或二端检定，然后从抽样分布中求出否定域的位置和大小

5、根据样本的资料计算检定值，从而做出决策

第八章　假设的检定：

两个变项之相关

第九章　详析模式与统计控制

一、重要概念

1、详析模式：

是指引入第三变量对两变量关系进行检验，以解释或确定这种关系的过程，被引入的变量中心任务检验因素或控制变量。

它分为因果分析、阐明分析和条件分析三种。

详析模式的一个主要作用是使调查研究可分享实验设计的一些优点，详析模式是一种近似的实验设计。

它可以充分利用调查资料，并将研究引向深入：

它一方面能对变量关系作出描述，另一方面通过引入第三变量，还可以澄清事实真相，包括两变量间关系的真伪，从而使变量关系更具体、更精确可靠。

2、统计控制：

是指在详析模式中，用统计方法来控制变量。

统计控制的基本逻辑，可用分表法来说明，指以第三变量的值将原表拆分几个表，然后在第三变量不变的情况下分析X与Y的关系。

统计控制的结果有三种可能性：

（1）X与Y的关系消失，

（2）维持原状，（3）X与Y的关系虽没消失，但其相关程度减小了。

3、详析分析的一般步骤：

（1）分析X→Y，

（2）分析W→X与W→Y；

（3）控制W，分析X→Y的变化

4、压抑分析：

指在条件分析中，本来没有关系或关系很弱的两个变量X与Y，在标明若干条件以后，X与Y显然有关系或关系强大起来，这种情况称为压抑分析。

5、曲解分析：

指在条件分析中，把原先的负相关变为正相关，或把原先的正相关变为负相关的。

二、净相关系数

所谓净相关分析，就是以一个系数值来表示在控制第三类变量以后X与Y的相关。

它只能用于因果分析和阐明分析，不适用于条件分析。

1、净相关系数的公式

2、净相关系数的F检定

3、其他的净相关测量法

（1）净Gamma系数

（2）净Lambda或净tau-y值

第十章　多因分析

第一节　复相关

　1、复相关：

是一种以一个统计值来简化多个自变量（X1，X2，X3等）与一个依变量（Y）的关系的统计方法。

它是以积矩相关系数（r）为基础的，要求所有变量都是定距变量。

它的统计值（R）的范围在0到1之间。

R的平方值（R2）称为决定系数，具有消减误差比例的意义，它的剩余的误差（1-R2），通常称为疏离系数。

2、多因分析：

指以两个或以上的自变量来预测一个依变量的数值，这个值还可以比较各个自变量的影响力的大小。

3、统计性累赘：

指在多因分析中，如研究X1，X2，X3这三个自变量的相对效果，每个变量的B权数其实都代表在控制其他自变量以后所发生的效果。

倘若其中两个自变量（如X1与X2）的关系特别强，则在相互控制以后就会使得每者的效果减弱，而其他的变量（X3）的效果就会因此而增大。

4、“钓鱼技术”：

在多因分析中，使各个自变量依先后次序进入回归方程式，这就称“钓鱼技术”。

谁先谁后，既可以取决于相对的统计重要性，也可取决于理论的要求。

其目的是从众多的自变量中找出一些最重要的自变量，使研究结果得以简化。

5、虚构变量：

复相关与多因分析都是要求全部变量是定距变量，如果要用来分析定类或定序变量，则要将之变为虚构变量。

方法是将定类或定距变量虚构为一个二分变量，将其中一个给予1分，另一个给予0分，就会成为定距变量。

6、典型相关：

复相关只能分析多个变量与一个变量之间的相关，如果两边都有多个变量，这种分析就称典型相关，用来测量两组变量的最大相关。

二、计算公式：

1、复相关：

2、复相关系数的F检定：

3、多因线性回归方程式的推算

第十一章　因径分析

1、因径分析：

社会现象间的关系是复杂的，它们通常相互关连，形成一个复杂的因果网。

因径分析就是把多因分析和详析分析结合起来，以理解因果网内变量间的复杂关系。

2、变量分类：

（1）外生变量：

指在因果网中不受其他变量影响的变量；

（2）内生变量：

指在因果网中受其他变量影响的变量；

　（3）先决变量：

指在对一变量发生影响的各个变量。

　（4）剩余变量：

也称误差变量，指在因径分析中，内生变量受其先前变量解释以后所剩余的误差，可能是由其他我们尚未知道的变量所导致的。

第十三章　多项互关分析

1、多项互关分析：

指研究多个变量之间的相互关系，目的是从多个变量的相互关系中找出一个较为简单的结构，使我们容易理解。

2、聚类分析：

是依据我们的理论见解或各对变量的实际相关情况，将各个变量分组，然后测量分组的方式是否有效，即是否能将性质相近的变量聚于相同的组中。

3、因子分析：

从众多的相关变量中抽取若干共同的因素，目的是使复杂的实际情况得以简化。

它所抽取的共同因素，称为因子。

展开阅读全文