社会统计学第三章简化两个变量的分布.docx-资源下载

社会统计学第三章简化两个变量的分布.docx

1、社会统计学第三章简化两个变量的分布到这里，有关单变量的描述统计技术已经全部介绍完了。简单来说，我们共介绍了三种方法，一是化约、简化，即第三章第一节的内容，次数分布、频率分布、统计图、统计表等。二是集中趋势测量法，即求出一个数值用以代表变量的资料分布，反映资料的集结情况。三是离散趋势测量法，即求取一个数值来表示个案与个案之间的差异情况。集中趋势测量法和离散趋势测量法是相互补充的。我们再一起回顾一下适用于不同测量层次的集中值和离散值。它们是这一章需要重点掌握的内容，我们先以表格的形式比较一下三个集中值。集中值均值中位值众值测量层次定距变量定序变量定类变量敏感程度最敏感（受极端值影响）不敏感较敏感

2、（尤其适用于单峰对称的情况）计算难度最难一般最易计算解释力最好（解释力强、具有统计价值）其次最低、差那么离散值的情况如何呢？与这三个集中值一一对应的离散值是什么啊？异众比率、四分位差和标准差。它们在测量层次、敏感程度、计算难度和解释力上也是与这三个集中值一一对应的。我们不再一一介绍了。那么极差仅仅考虑了两个极端值，因而带有很大的偶然性，对于大量的处于极端值之间的数值分布情况，以及在中心点周围的集中情况，都无法提供任何信息，主要适用于定序以上层次的变量。离散系数是一种相对的离散量数统计量，可以用于对同一总体中两种不同的离散值进行比较，或者对两个不同总体中的同一离散值进行比较，适用于定距以上层次的

3、变量。第三章简化两个变量的分布第一节统计相关的性质大家知道，在社会学研究中，不仅要求我们对社会现象进行描述，而且要求我们对现象的原因进行分析。因此，我们不但要了解一个变量的情况，更要进一步了解一个变量与另一个变量之间的关系。例如，在某地区调查100名青年人的最大志愿，假定其中有40%选择快乐家庭，50%选择理想工作，10%选择增广见闻。我们要问：为什么这些青年人的最大志愿会有不同？又假定我们发现这些青年人的教育水平可以分为高（高中或以上程度）、中（初中程度）、低（小学或以下程度）三个等级，每级人数分别占10%、60%、30%。据此，我们就可以追问：青年人的志愿与其教育水平是否有关系呢？换

4、言之，是否因为教育水平不同，所以人生志愿也不同。一、什么是相关？由此，我们可以引入相关这个概念。所谓相关，是指一个变量的值与另一个变量的值有连带性。具体来说，如果一个变量的值发生变化，另一个变量的值也有变化，则两个变量就是相关了。例如，教育水平是一个变量，最大志愿是另一个变量，如果青年人的教育水平不同，其志愿也不同，我们就可以说这两个变量是相关的了。二、相关的强度和方向在明确了何为相关以后，进一步要考虑的问题是相关的强度和方向。例如：我们通过调查发现，父亲的教育水平与孩子的教育水平相关，母亲的教育水平也与孩子的教育水平相关，那么究竟是前者的相关程度大，还是后者的相关程度大呢？或者说，究竟是父

5、亲教育水平对孩子的影响大，还是母亲的教育水平影响大呢？对于这一点，我们可以用统计法进行测量，也就是计算相关系数。相关系数是用来表示变量间的相关程度的量的指标。它具有这样几个特征。第一，相关系数不具有实际数学运算意义。为什么这么说呢？假如，我有100元，他有50元，我们可以说，我的钱是他的两倍。但如果通过计算得知，父亲教育水平与孩子教育水平的相关系数是0.50，而母亲教育水平与孩子教育水平的相关系数是0.25，我们却不能说前者是后者的两倍，因为相关系数只能表示相关程度更强。第二，相关系数是统计得来的，它只能说明两种现象间可能存在一定的关联度，不一定具有实际意义，即实际上可能并不存在相关关系，这也

6、就是我们讲的统计相关。例如，在山东大学有个很奇怪的现象。山大每年暑期开学那天往往会下雨。给我印象最深的就有三次。如果我们将开学看作变量X，下雨看作变量Y，通过统计，我们很可能得出二者的相关系数很高，但是这二者之间并不存在真正的联系。也就是说统计上相关，但实际上不相关。第三，相关系数大多介于-1，1之间。为什么还有正负之分呢？有没有同学知道？这实际就涉及到第二个问题相关的方向了。大家有没有听过“造原子弹的不如卖茶叶蛋的”。它描述了我国改革开放初期的职业收入情况。说明当时人们的收入与其教育水平是怎么样的？成正比还是反比？那现在呢？这二者的关系发生了什么变化？是不是基本呈现正比的趋势？由此我们可以看

7、出，变量与变量之间的关系，可以分为正与负两个方向。即根据相关方向的不同，可以将相关分为正相关和负相关。所谓正相关，是指一个变量的值增加时，另一个变量的值也随着增加。例如，收入水平越高，消费水平越高。所谓负相关，是指一个变量的值增大时，另一个变量的值却减小。例如，教育水平越高，理想子女数目越少。需要大家注意的是，相关方向的分析只限于定序以上层次的变量。为什么？有没有人能够解释一下？我们一再地提不同层次变量的属性。这是因为定序以上层次变量的值有高低或多少之分。至于定类变量，由于变量的值只有类别之分而无高低之分，因此它与其他变量相关时不会有正或负的方向。相关系数的正负号表明了相关的方向。其绝对值则表

8、明了相关的程度。一般0表示无相关，1代表全相关（-1是完全负相关，1则是完全正相关）。绝对值越大，说明两变量之间的相关程度越强。在社会现象或人类行为研究中，各种相关系数的取值很难达到全相关。各种相关情况，可以用简单的图表说明。y xx1x2总数y1aba+by2cdc+d总数a+cb+dn=a+b+c+d其中x、y分别代表两个变量，它们各有两个取值x1，x2，y1，y2.。其中的a、b、c、d代表交叉分类后的个案数目。a表示变量x与变量y分别取值为x1， y1的个案数目。其余类似。现在，我们就这个图表分别讨论一下全相关、无相关的情况。就这个图表来说，如果a=d=0（或b=c=0），即全部个案集

9、中在同一对角线上，则表示变量x与变量y是全相关。例如，我们试图通过调查来了解性别是否会影响人们对足球的喜爱程度。一共调查了20名学生，其中10名是男生，10名是女生。发现，a=10,c=0,b=0,d=10,有没有同学能够解释一下这个图表。当调查对象为男生时，他一定喜欢足球，而当调查对象为女生时，她一定不喜欢足球。二者之间的关系是完全确定的，因此可以说达到了全相关。当然，这种情况在社会生活中几乎不会出现。如果a*d=b*c，即两对角线的乘积相等，则表示无相关。同样以刚才的调查为例，当a=5,b=5,c=5,d=5时, 表示什么啊？当性别发生变化时，他们对足球的喜爱程度并没有发生任何变化，同样是

10、一半男生喜欢足球，一半男生不喜欢足球，女生也是一半对一半。如果a=10,b=0,c=10,d=0,表示什么？大家好好想一想？是不是也表示性别与人们对足球的喜爱程度无关啊。因为，无论是男生还是女生都一定喜欢足球。当两个变量无关时，我们可以说这两个变量之间是相互独立的。如果a*d与 b*c的差异越大，就表示相关程度越强。关于这个问题，稍候还会为大家做进一步的解释。三、相关关系的类型刚才在介绍相关的方向时，我们已经将相关关系区分为了正相关和负相关。而按变量变化的表现形式进行划分，我们还可以将相关关系划分为直线相关和曲线相关两种。在介绍直线相关和曲线相关之前，我们有必要给大家介绍一下用于描述两变量间关

11、系状况的散点图。散点图仅适用于定距以上层次的变量，它是以直角坐标的横轴表示变量X的取值变化范围，纵轴表示变量Y的取值变化范围。根据每一个个案在变量X和变量Y上的值来确定坐标图中的每一个点。借助散点图，我们能对两变量间的关系有一个形象、直观的印象，是我们在对定距以上层次的变量进行相关分析时的一个重要步骤。那么，所谓直线相关，指的是当变量x发生变动时，变量y的值也发生大致均等的变动。表现在直角坐标系中，X、Y值所对应的点分布狭长，成直线趋势。对于曲线相关，由于比较复杂，我们本科阶段不会接触。曲线相关表现在直角坐标系中，X、Y值所对应的点分布分散，呈曲线趋势。再有一点要说明的是，我们以后介绍的相关系

12、数都是线性相关系数。四、因果关系分析两个变量的关系，除了要注意其相关的强度与方向以外，还要进一步注意这两个变量之间是否存在着某种因果关系。相比相关关系，因果关系的意义更进了一步，因为它更有利于我们解释社会现象产生和变化的内在机制和动因。而且探寻社会现象相互之间的因果关系，才是我们进行社会调查、开展社会研究的最重要目的。我们先来了解一下因果关系的定义。1、定义：两变量之间的因果关系，指的是当其中一个变量变化时（取不同的值时）会引起或导致另一个变量也随之发生变化（取值也不同）,但反之不成立，当后一变量变化时，不会引起前一变量的变化。许多社会学研究在成立假设时，都会假定某变量是因，另一变量是果，前者

13、称为自变量X（指的是变化发生在前面，并且能引起另一变量发生变化的那个变量），后者称为因变量Y（指的是变化发生在后面并且这种变化是前边变量的变化所引起的那个变量）。它们之间的关系可以表示为XY。在自然界中，这种例子很多。例如，水的形态由于温度的不同而发生变化。当温度低于摄氏零度时，水变成固态（冰）；当温度高于摄氏零度而低于摄氏100度时，水变成液态；而当温度上升到摄氏100度以上时，水就变为气态（水蒸气）。由此，我们可以说，温度是引起水的形态改变的原因，二者之间存在着因果关系。由于因果关系只是X影响Y，而Y不影响X，因此，我们将它称为不对称关系。反之，如果我们不确定或不区分影响的方向，这种情况则

14、称为对称关系。如人与人之间交往的多少与他们互相喜爱程度的关系就是对称关系。因为我们无法区分二者之间影响的方向，它们其实是相互影响的。2、判断是否为因果关系的三个条件前面说过，社会现象之间的因果关系往往是社会调查人员探寻的主要目标。那么如何判断两变量之间是否存在因果关系呢？例如，我们从调查资料中发现朋友之间互相喜爱的程度与他们之间交流的时间有关时，我们能不能下结论说，这二者之间存在因果关系。为什么不能？这里就涉及到因果关系与相关关系的区别联系问题了。事实上，虽然相关关系可能包含着因果关系，但并非所有存在着相关关系的变量之间，都一定存在因果关系（相关的两个变量可能仅仅是共同变化），但是因果关系必然

15、是相关关系。一般来说，要得出两变量之间存在因果关系的结论，必须同时满足三个条件。变量X与变量Y之间存在着不对称的相关关系。（家长的职业子女的升学意愿子女升学意愿不可能引起家长职业的改变）变量X与变量Y在发生的顺序上有先后之别。先有自变量的变化，后有因变量的变化。如果两个变量的变化同时发生，分不出先后，则不能成为因果关系。比如前述朋友之间互相喜爱的程度与他们之间交流的时间多少，我们就不能肯定朋友之间相互喜爱程度的提高发生在交流时间增加之前。很可能是，朋友交流时间的增加导致了他们相互之间喜爱程度的提高。变量X与变量Y的关系不是同源于第三个变量的影响。即变量X与变量Y之间的关系不是某种虚假或表面

16、的关系。例如，当我们调查发现住房的拥挤程度与夫妻间的冲突成正比时，我们不能随意下结论说，住房拥挤是导致夫妻冲突的原因。因为这两个变量之间的关系可能是由于另一个变量家庭经济水平所导致的。即家庭经济水平低既使得家庭的住房拥挤，又使得夫妻间的矛盾增多。如果没有家庭经济水平这个变量的影响，住房拥挤与夫妻冲突或许是不相关的。第二节交互分类与百分表刚才在介绍相关关系时，我们曾使用过一个简单的图表进行表示。接下来的第二节，我们就重点看一下有关相关的统计表。这一节的题目是交互分类与百分表。其实，在上一节，我们就已经利用了交互分类。现在，我们介绍一下究竟什么是交互分类。一、定义所谓交互分类，就是同时依据两个

17、变量的值，将所研究的个案分类。交互分类的结果通常以交互分类表（又称列联表）的形式反映出来。表3-1 100名青年人的教育水平与志愿志愿教育水平总数高中低快乐家庭5/50.0%30/50.0%5/16.7%40理想工作0/0.0%30/50.0%20/66.7%50增广见闻5/50.0%0/0.0%5/16.7%10总数106030100列联表适用于对两个定类变量（或一个定类、一个定序变量）的分析。当然更高层次的变量也可以使用。从所画的图表中，我们可以发现，借助列联表，我们能够较为深入地描述样本资料的分布状况和内在结构。就这个图表而言，我们可以清楚知道每种教育条件下每类志愿的次数分布情况。因此

18、，这个表又称为条件次数表。在表的最下端是每级教育水平的总次数，称为边缘次数，它们的分布情况就称为边缘分布。如果，我们在这个表的最后再加一列，用于记录每类志愿对应的总次数，则它们的分布情况也可以称为边缘分布。我们可以用X的边缘分布与Y的边缘分布，来区分它们。表中的其他次数，称为条件次数，表示在自变量的每个值（条件）的情况下依变量的各个值的个案数目。尽管条件次数表包含的信息较为全面、详细，但是它有一个缺陷：无法比较不同条件下的次数分布。例如上表，中等教育水平的青年中有30人的志愿是理想工作，低等教育水平的则有20人，前者多于后者，是否表示前者较多以理想工作为最大志愿呢？大家仔细看一下这个图表。注意

19、一下边缘分布情况。由于作为基数的边缘次数的值不同，所以，我们不能轻易下结论。前者人数多，很可能是由于调查样本中中等教育水平的人本身就比低教育水平的人多。关于这种情况，我们在介绍频次分布表时也曾遇到过，当时采取的办法是什么？基数标准化。对不对？这里我们采用同样的办法，将各个基数标准化。一般是将所有基数都变成100，各个条件次数由此变为百分率，这样制成的表，就称为条件百分表。大家现在看到的就是一个条件百分表。借助它，我们可以进行分组比较，即比较自变量不同时依变量的变化情况（对不同教育水平青年人的志愿情况进行比较）。在比较的基础上，我们可以对变量之间的关系进行分析和解释。以上表为例，通过比较，我们发

20、现，低等教育水平的青年多以“理想工作”为志愿，比其他教育水平的青年为多。而高等教育和中等教育水平的青年则多选择“快乐家庭”。但就这二者而言，前者较注重“增广见闻”，而后者则较注重“理想工作”。因此，如果青年人的教育水平不同，他们的最大志愿也会有分别。接下来，我们简单了解一下列联表的制作准则。二、列联表制作准则制作准则与统计表制作准则类似1.每个表的顶端要有表号和标题。2.绘表时所用的线条，要尽可能简洁。只要不引起误解，线条越少越好。3.百分号的简便处理：或写在表顶端的右角，即标题的尽头处，标上一个“（%）”；或在表上层自变量每个取值的下方列出%号。4.在表的最后一行列出自变量每一取值所对应的次

21、数，写出这些数值，我们可以知道各列百分率的基础，同时也可以将百分率数值变回原来的次数值。因此，在研究报告中，可以省略条件次数表。5.表内百分率数值的小数位要保留多少，取决于研究的需要，但前后要保持一致性。6.如何安排交互分类的两个变量。一般情况下，我们将自变量放在表的上层，而将因变量放在表的左侧。有一点需要说明的是，自变量的取值个数与依变量的取值个数共同决定表的大小。自变量的取值个数既是纵列数目c，而依变量的取值个数即是横行数目r，表的大小=横行数目（r）*纵列数目（c）。之所以将横行数目放在前面，是为了表示前者（依变量）受后者（自变量）的影响。要提醒大家的是3*2表不同于2*3表，因为前后两

22、个数值代表不同的变量，包含不同的类别数。7.交互分类中两个变量的变量值应有所限制，不宜太多，特别是不能两个变量同时具有多个变量值。否则，交互分类表中的百分数就会太多，令人迷惑，反而不易看出两变量间是否存在相关。三、百分率的计算其实，在制作条件百分表时，我们还会遇到一个问题：我们应该从哪一个方向计算百分率？现在，我们回到刚才的条件百分表。请同学们告诉我，这个表格在计算百分率时，是按照什么方向计算的？很明显，是按照纵列的方向，或者说是按照自变量教育水平的方向计算的。由于研究目的在于了解自变量对因变量的影响，所以应该计算在不同的自变量情况下，因变量的变化如何。所以，一般的原则是：根据自变量的方向。虽

23、然这是一般的原则，但也有例外的情况。如果因变量在样本内的分布不能代表它在总体内的分布，则百分率的计算要依据因变量的方向。（参考社会研究的统计应用P75-76）表3 家庭对青少年犯罪行为的影响家庭状况青少年行为（总数）犯罪未犯罪破裂146191191和好334499833（总数）4805441024家庭状况青少年行为（%）总数犯罪未犯罪破裂30.48.3191和好69.691.7833（总数）4805441024通过之前的介绍，我们发现，在分析变量与变量之间的关系时，列联表的优点在于资料丰富。但是这也使得它本身不够精简。尤其当r*c很大时，百分率过多，难以看出两个变量之间是否有关系，而且借助列联

24、表，我们无法得知确切的相关程度。因此，我们需要一些更加精简的统计方法。第三节简化相关与消减误差为了得知两变量之间确切的相关程度，我们可以采用相关测量法。即以一个统计值表示变量与变量之间的关系。这个值，通常称为相关系数。关于相关系数，我们在之前已经介绍过，这里就不再多说了。一、相关测量法的选择标准可以使用的相关测量法或者说相关系数有很多种。但是，我们需要从中选择最合适的来使用。既然如此，我们应该如何选择合适的相关测量法呢？这是我们本节要考虑的第一个问题相关测量法的选择标准。 1.测量层次在介绍单变量统计分析方法时，我们就曾提到过，选择何种统计方法，首先应该考虑变量的测量层次。选用相关测量

25、法时，首先应该考查的同样也是测量层次。属于不同测量层次的变量，就要用不同的相关测量法。而且由于相关关系的测量涉及到两个变量，因此，我们需要考虑两个变量的测量层次。定类-定类；定序-定序；定距-定距；定类-定序；定类-定距；定序-定距。我们刚才介绍过，列联表适用于两个定类变量或一个定类、一个定序变量。2.对称关系之前，我们曾经说过两变量之间的关系可以分为对称关系和非对称关系，这也是我们在选择相关测量法时应该考虑的。3.统计值的意义，具体说来，就是考查统计值是否具有消减误差比例的意义。一般选用具有PRE意义的测量法。二、消减误差比例PRE那么究竟什么是消减误差比例呢？之前，我们曾经不止一次强调过，

26、社会学研究的主要目标是预测或解释社会现象的变化。比如有一种社会现象是Y（例如青年人的最大志愿），我们就要预测或理解其变化的情况。大家记不记得上一章中，我们学习过集中趋势测量法。利用集中值，我们可以估计或预测研究对象的情况。但是，预测或解释时难免会有误差，假定这一误差为E1。若另一种社会现象X（例如教育水平）是与Y有关系的，如果我们根据X的值来预测Y的值（例如根据每个青年人的教育水平来估计其最大志愿），产生的误差总数为E2，那么请大家思考一下，以X值预测Y值时所减少的误差是多少？E1-E2 .由于X与Y是有关系的，因此，理应可以减少若干误差。而且，X与Y的关系越强，所能减少的误差就会越多。因此，

27、所消减的误差有多少，可以反映X与Y的相关强弱程度。但是，由于E1-E2不具有比较的含义，所以我们选用消减误差比例对它进行标准化。PRE=（E1-E2）/ E1这里，我们看一个具体的例子。已知某个样本的情况，其众值为男性。如果从该样本中任抽一个个案，要求预测其性别。我们以什么为标准啊？男性，对不对？假设此时所犯的误差为E1。现在得知样本的职业状况。由于性别与职业之间有相关关系，因此，我们可以根据职业预测每个人的性别。例如，A为军人，我们可以预测他为男性，B为护士，我们可以预测她为女性。假设此次预测所犯的误差为E2，原则上来说，第二次预测的误差E2应该小于第一次预测产生的误差E1。此时，我们可以运

28、用E1、E2来表示消减误差比例。PRE=（E1-E2）/ E1不知道X值时，预测Y值时所产生的全部误差E1依据X值预测Y值时所产生的全部误差E2依据X值预测Y值时所减少的误差E1-E2PRE的数值越大，就表示以X值预测Y值时能够减少的误差所占的比例越大，也就是说，X与Y的关系越强。根据计算公式，我们可以推测出，PRE数值应在0-1之间，如果E2=0，即以X预测Y不会产生任何误差，则PRE=1，反映X与Y是全相关。如果E1=E2，即以X预测Y所产生的误差等于不以X来预测Y所产生的误差，则PRE=0，反映X与Y之间无相关。PRE数值的意义，就是表示用一个现象（如变量X）来解释另一个现象（如变量Y）

29、时能够减除百分之几的错误。三、2*2表（佛爱）系数和Q系数最后，为了帮助大家对相关系数有一个简单的认识，我们先认识两个适用于2*2表的相关系数。这里，我们再看一下本章第一节中我们所介绍的那个简单的交互分类表。y xx1x2总数y1aba+by2cdc+d总数a+cb+dn=a+b+c+d 我不知道同学们发现没有，前面在介绍这个图表时，我所列举的例子中，就是关于性别与对足球的喜爱程度，作为基数的边缘次数的值都是相同的，男女生总数皆为10人，喜欢足球和不喜欢足球的人数也各为10人。那么，如果不同，我们之前所介绍的那些结论还正确吗？ a=d=0（或b=c=0），即全部个案集中在同一对角线上，还是全相

30、关吗？ a*d=b*c，即两对角线的乘积相等，是否表示无相关。如果a*d与 b*c的差异越大，就表示相关程度越强吗？为了说明这一点，我们一起看一下课本275页的例子。这个列联表不再是简单的2*2表，而是3*3表。但其基本规则都是一样的。老年中年青年戏曲20/0.7410/0.252/0.04歌舞5/0.1820/0.5035/0.61球赛2/0.0810/0.2520/0.35根据比较表中每一行的条件百分率，我们可以发现，对于戏曲来说，三代人的百分比分别是：0.740.250.04。而歌舞是0.180.500.61，球赛是0.080.250.35，由此可见，随着代际的年轻化，戏曲喜爱的比例逐渐

31、下降，而歌舞和球赛却越来越受到欢迎，从而可以得出节目的喜爱与代际有关的结论。现在设想，我们得到的统计结果是这样的。这里只列明了百分比。如果统计的结果三代人的百分比是不变的，戏曲0.740.740.74，歌舞0.180.180.18，球赛0.080.080.08。由此，我们可以得出什么样的结论呢？显然，如果选择喜爱节目的比例，对于三代人都是一样的话，那就表示变量“喜爱的节目”与变量“代际”之间是没有关系的。我们把这一结论扩展到一般的交互分类表中。大家注意，这个表中的n11、n21等等表示的是频次，而不是频率。n*j这一列反映的是y变量的边缘分布情况，ni*这一行反映的则是x变量的边缘分布情况。如果要两变量之间没有关系，则需要满足什么条件啊？我们再回到刚才的表格中，三代人的百分比不变。反映到这个表格中呢？其实就是每一行的百分比保持一致。如果用这些字母加以表示，应该是怎样的？。其余的每一行都是如此。这个列联表，我们在以后的很多地方都会用到。这里，我们先把它放一放，回到最初的那个2*2列联表。如果我们将刚才的结论放到这个列联表中，何种情况下，x与y变量无关啊

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

社会统计学 第三章简化两个变量的分布.docx