spss软件相关分析Word下载.docx-资源下载

spss软件相关分析Word下载.docx

1、性别科目、定序变量按照对象的某种特征，把类别按顺序、等级排列评价等级、定距变量对象不仅可按特征排序，而且还可以测量序列间的距离年龄工资、；、；、（定比变量还包括、）对研究变量的不同特征遵循如下的分类方法：定类变量要求变量的特征分类具有可辨别性，且不同类别应无同一性的性质。要求变量的特征与属性可以排序或分等级。要求测量单位具有相等的意义，且没有绝对意义的“零点”。定比变量要求测量单位具有相等的意义，且有一个绝对意义的“零点”。三、基本方法（一）绘制散点图（略）（二）计算相关系数对不同类型的变量数据，应采用不同的相关系数来度量。1定类变量定类变量（1）-Phi系数描述22数据相关程度最常用

2、的一种相关系数对于一个具体的22维列联表 X1 X2 Y1 a b Y2 c d （2）C系数，也称列联系数列联表是观测数据按两个或更多属性（定类变量）分类时所列出的频数（或概率）表。当一张表格超过2维时，Phi的值不一定是在0-1之间，为了获得0Phi1，皮尔逊建议用列联系数 C的最高限取决于行数和列数，一般达不到上限1。（3）Cramers V系数 V的最高上限可以达到1。 PRE（减少误差比例测量法，Propoctionate reduction in error）数值的意义：就是用一个现象（如变量X）来预测另一个现象（如变量Y）时能够减除百分之几的误差。PRE=（E1E2）/E1

3、 E1：当不知道X变量去估计Y变量时所产生的误差（全部误差） E2：知道X变量再去估计Y变量产生的误差 E1E2为剩余的误差 Lambda和Tau-y 系数都是具有PRE性质的系数（4） Lambda（）系数这种相关测量法也叫做Cuttmans coefficient of predictability，它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时，如果以众值作为预测的准则，可以减除多少误差。消减的误差再全部误差中所占的比例越大，表示两个变量之间相关的程度越大。分为：对称形式用于测量两个变量间的关系是对等的，即无自变量与因变量之分。简写成系数。非对称形式测量两个变量间的

4、关系有自变量与因变量之分。简写成y（x为自变量，y为因变量）一般来说，系数在01之间取值，值越大表明相关程度越高。 Lambda相关测量法是以众数作为预测的工具，没有考虑其他的条件。如果众数都出现在频数分布表的某一行或某一列时，Lambda系数将等于0，但并不说明X和Y一定完全无关。同时，这也说明Lambda系数测量X 、Y的相关水平是较为粗糙的一种方法。因此社会学研究中有时采用Goodman和 Kruskal的 Tau-y系数。（5） Goodman and Kruskal的Tau-y系数这个系数的敏感度高于Lambda系数，但只适合于分析不对称的关系，属于不对称相关测量法，要求两个定类

5、变量中有一个是自变量，有一个是因变量。Tau-y系数的值介于01之间，具有消减误差比例的意义，这个系数的特色是在计算时会包括所有的边缘次数和条件次数。在那么多相关系数中，在进行研究时，一般选择哪一个比较好？在定类定类关系中，如果是不对称关系，最好选择用的是Tau-y，如果是对称的关系，则最好选择用的是Lambda系数，Phi、C、V系数没有消减误差比例的意义，而且假定两个变量之间的关系是对称的。在这三个系数中，由于V不受表的大小的影响，因此用得比较多，也比较适合于进行社会学研究。常用的I行J列表格Y（因变量）X（自变量） 1 2 j J1 n11 n12 n1j n1Jn12 n21 n2

6、2 n2j n2Jn2i ni1 ni2 nij niJniI nI1 nI2 nIj nIJnI总和 n1n2jJ 22表格的相关度量以卡方为基础的量度（1）-Phi系数在相关度量法中不采用拟合优度卡方是因为拟合优度卡方过分依赖于样本数大小。将卡方除以n针对样本量n进行修正就是系数：，或者变量X和Y的边缘分布的变异影响的大小。在其他数值保持不变的情况下，边缘分布越不平衡，值越小。当一个或两个边缘分布非常偏斜的时候，较不敏感的量度方法可能是更好的选择。是一个对称量度系数，对的计算并不依赖于哪个变量是因变量。 IJ表格的相关量度法当I和J都大于2时，随I和J的增加而增大，因此没有上限，这

7、样系数间就缺乏了比较。部分因为这个原因，统计学家提出了许多新的修正系数。这些修正系数全都是对称的，并且当变量是统计独立时等于零。然而，最大的两个缺点是，它们通常不能获得它们的最大值，并且取值范围在0和1.0之间很难解释。当列联表中两个变量不相关时，C=0，若两个变量相关时，则C 随着I和J的变化而变化，但0C1。C0且越接近1，表明X、Y两变量正相关的程度越高；0.8可认为相关程度较高。当配对数据出现同分对时，对a的计算公式作如下校正，校正后的相关系数记作b：其中：Tx表示变量X方向的全部同分对数； Ty表示变量Y方向的全部同分对数。当同分对很多时，可先做成等级的列联表，此时Kendall等级

8、相关系数为：其中m是等级列联表中行数和列数中的较小者，即m=min（I,J）。 Kendall tau在本质上与Spearman R 一样。从统计效力上来说，两者是不相上下的。不过因为所构成的逻辑及计算的方程不同，因此Spearman R 与 Kendall tau 数值大小是不一致的，Siegel and Castellan （1988）将两种方法的关系用不等式表达如下：-13Kendall tau 2Spearman R1 更为重要的是，Kendall tau 与 Spearman R 内涵有着不同的解释：Spearman R 可认为是排序变量的普通Pearson 时间效应相关系数，而 K

9、endall tau 是概率。具体地说是两变量实际数据处于相同顺序的概率与处于不同顺序的概率差别。当数据中包含许多一致性的观察对象时，Gamma 统计量优于Spearman R 或 Kendall tau。从本质上来讲，Gamma 与Spearman R 或 Kendall tau是相同的；从解释与计算的角度上讲，Gamma与Kendall tau 更为相似，简言之 Gamma 也是一种概率，具体地说，通过计算两变量排序一致的概率减去排序不一致的概率再除以减去一致性概率而得到的，因此Gamma 与Kendall tau基本上一致，只是Gamma 明确地考虑了数据一致性问题。3定距变量定距变量

10、测量两个定距变量相关系数的最常用指标是皮尔森（Pearson）相关系数（r）。（要求N50而且两个变量的分布应近似于正态分布。（常见，所以略）需要注意极端值。极端值是非典型、不常出现的观察值。由于回归线不是由最小距离和，而是由最小距离平方和决定的，极值对回归线的斜率和相关系数的值的大小都会有很大的影响。只要有一个极值就能够改变回归线的斜率和相关系数。不言而喻，不能仅仅根据相关系数值而妄下结论。（所以在进行相关分析前先考察其散点图）偏相关分析在诸多相关的变量中，剔除了（控制了）其中的一个或若干个变量的影响后，两变量之间的相关关系。偏相关的概念，在管理科学、经济科学等社会科学中有着广泛的

11、应用；而且，正确地使用它，对正确地得出相应的结论至关重要。剔除了一个变量Z的影响后，两个变量X、Y之间的偏相关系数是式中，是普通样本相关系数。4定类变量定距变量两个变量中，自变量为定类变量，因变量为定距变量时，采用相关比率来测量两者间相关程度。（又称eta2系数E2）式中，n是样本观察值总数；ni是自变量X的每组观察值数目，；yi是因变量的数值；是第i组因变量均值；为因变量均值。5定类变量定序变量对一个定类变量例如性别，与一个定序变量例如收入水平关系的分析：（1）用theta系数（），专门测量定类变量与定序变量间关系有无和强度，非对称关系，并且不具有消减误差比例的含义（2）采用系数

12、和Tau-y系数，即将定序变量作为定类变量处理。6定序变量定距变量处理一个定序变量例如教育水平，与一个定距变量如年均收入之间的关系，采用二种办法：（1）将定序变量看作定类变量，采用相关比例测量法。（2）将定序变量看作定距变量，采用相关系数。小结：在分析两个变量关系时，选择哪种相关系数，主要考虑两个方面：1、变量的测量层次；2、变量关系的类别，即是对等的还是非对称的。注意：由于是通过抽样的方法来研究变量之间的关系，所以，当求出各类样本相关系数不为0时，并不能真正表明变量之间是相关的，还需要通过显著性检验来判别是否显著异于0. 拖了那么长的时间总算有个阶段性的结束，今后还会对其进行补充。也欢迎各位圈友补充修正。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？