描述统计.docx

上传人:b****3 文档编号:3468421 上传时间:2022-11-23 格式:DOCX 页数:12 大小:259.52KB
下载 相关 举报
描述统计.docx_第1页
第1页 / 共12页
描述统计.docx_第2页
第2页 / 共12页
描述统计.docx_第3页
第3页 / 共12页
描述统计.docx_第4页
第4页 / 共12页
描述统计.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

描述统计.docx

《描述统计.docx》由会员分享,可在线阅读,更多相关《描述统计.docx(12页珍藏版)》请在冰豆网上搜索。

描述统计.docx

描述统计

心理统计学(源自外专业的心理学硕士生补课用)

心理学院刘华山

第四章描述统计:

相关系数

一、相关系数的含义

(一)事物之间的相关关系

事物之间的相互关系可以有以下几种情况:

1.因果关系:

两个事物中一个导致、引起、影响另一个。

2.共变关系:

两个事物共同变化,但这种变化可以是由于两事物有关;也可能是两事物都与第三事物有关。

3.相关关系:

两个事物有相互关联,但无法确定孰因孰孰果。

应该说,有因果关系的两事物一定有相关关系;有相关关系的两事物一定有共变关系。

反之则不成立。

函数关系可以说是相关关系的极端状况。

相关关系的几种情况:

正相关、负相关、零相关。

直线相关与曲线相关。

(二)相关系数

相关系数是描述两个变量之间相互关联程度的统计量。

大多数类别的相关系数的取值区间是[—1,+1],相关系数的绝对值取值区间是[0,1]

相关系数的正负号表示相关的方向;相关系数的绝对值大小表示相关的密切程度。

当两变量的相关系数为零时,我们就说这两个变量互相独立。

(三)相关系数的图示—相关散点图

二、计算相关系数的条件

(1)必须是对同一组被试进行的两次测量(相同与不相同的测量)所得的数据,或是对配对的两组被试进行同一次测量所得的两组数据,或是对指定的两个人在一系列测量上所得的数据。

(2)两个变量理论上或经验上确有关系。

(3)数据对必须不少于30对。

相关系数的种类很多。

可以分为:

积差相关、等级相关、质量相关、品质相关四类。

三、积差相关系数(皮尔逊相关系数):

两列数据必须是正态分布的连续变量,二者有直线相关关系,数据对必须不小于30。

计算公式为

 

其中,r_相关系数

X、Y—成对的数据

—两个变量的平均数

—两变量的标准差

N-数据对的对数

下式为公式三:

公式

公式三由公式一的分母展开得到。

四、协方差

 

而方差公式为

 

 

五、等级相关

(一)斯皮尔曼等级相关系数

斯皮尔曼等级相关是等级相关的一种。

1.适用条件

两列数据是等级数据,具有线性关系,没有数据正态分布的假定。

故当数据为正态分布的连续变量、本来可以求积差相关时,若把数据排成等级,改求斯皮尔曼等级相关也是允许的,只不过牺牲了精确度。

但若是连续数据而非正态分布、不宜求积差相关时,只能求斯皮尔曼等级相关。

2.计算公式

(1)基本公式

斯皮尔曼等级相关系数

D—成对数据的等级差

计算见P137例5-3.

斯皮尔曼相关系数公式是由积差相关公式推导而来的。

即对于等级数据,运用积差相关公式求相关系数,可导出斯皮尔曼等级相关公式。

因为等级数据的特征是取自然数,是离散数据,且按自然数列取值。

可见,对于两列等级数据,计算斯皮尔曼等级相关系数,与计算积差相关系数所得结果是一样的。

(2)有相同等级时,斯皮尔曼等级相关计算公式

计算见P139例5-4。

相同数据的等级排列方法。

上述公式中之所以要减去一个

在计算斯皮尔曼等级相关系数时,假定

对于一般两列等级数据是容易满足的。

但当出现相同等级时,前一个假设可满足,后一个假设就不能满足。

因为当出现相同等级时,

会减少。

减少多少?

减少的量与相同数据的个数n有关。

减少的量为

这可以从P138的表5-8中看出。

(一)肯德尔等级相关

肯德尔等级相关有多种。

有适合两列等级数据的交错系数(肯德尔

相关)和相容系数

,作用如同斯皮尔曼等级相关系数。

有适合多列等级数据的肯德尔和谐系数(W系数)和肯德尔一致性系数(U系数)。

这里介绍后两种。

1.肯德尔和谐系数(肯德尔W系数)

例(P143例5-6):

10人对7种颜色按喜好程度进行等级评定。

(1)适用条件

多系列等级相关数据。

数据是有K个人对N件事物,按照某种标准统一评定等级序列的。

(2)计算公式

公式的说明:

上式中的分母是:

当所有评价者评价完全一致时,所有受评对象所得等级和的离差平方和。

此时离差平方和为最大,分子等于分母,W=1.

2.肯德尔U系数

(1)适用条件

K个人评价N个事物,若评价的方法是对偶比较,即将N件事物两两配对,并按某一种标准进行比较、择优,优者记1,劣者记0.如果难于判定,各记0.5.这样每两个受评对象被N个评价者评价后,各得一个择优分数。

这两个择分数之和为N。

(2)计算公式

例:

表中为10个评价者对7种颜色的择优分数。

说明:

●下表中上下三角提供的信息是一样的,按上三角中的择优分数与下三角中的择优分数计算得到的U值是一样的。

●表中数字为择优分数xij.i与j是受评事物的序号。

下三角中的数字是i>j的择优分数;上三角中是i

●所有择优分数都是左列颜色与上列颜色比较时,左列颜色所得的择优分数。

而从上往下看时,所有分数是上列颜色与左列颜色比较时,上列颜色所得的否定分数。

●每个受评事物在一次对偶比较中得到的择优分数在0-K之间。

●上下三角中的数字关于对角线互补,即rij+rji=K

六、质量相关

如果一列变量是比率的或等距数据,另一列是按性质划分成几类的类别数据,对这两列变量所求的相关为质与量的相关,前者为量,后者为质。

质与量的相关包括点二列相关、二列相关和多系列相关。

(一)点二列相关

1.适用条件

如果一个变量是正态分布的连续变量,另一变量为二分的名义变量(类别变量),表示这两列变量相关程度的指标是点二列相关系数。

2.计算公式

例4.设一次数学测验题目的区分度以统计学成绩为效标。

统计学成绩满分为100分,数学测验第12题以1、0计分。

试求数学测验第12题的区分度。

并做显著性检验。

在数学测验第12题上的1分者、得0分者的统计学成绩如下:

得1

分者

92

100

100

94

88

84

93

98

80

82

81

80

86

得0

分者

93

90

94

72

82

81

79

85

78

78

87

84

93

78

84

62

69

(二)二列相关

1.适用条件

如果两个变量都是正态分布的连续变量,但其中的一个人为地划分为二分的名义变量(类别变量),表示这两列变量相关程度的指标是二列相关系数。

当没有十分明确数据分布形态为正态分布,则不论观察数据代表的是真正的二分变量,还是一个人为地分为二分变量的连续变量,都应求点二列相关。

2.计算公式

例:

下表为10名考生一次测验的卷面总分和一道问答题的得分。

该道问答题满分为10分,设6分及其以上为通过,否则未通过,试求该题的区分度。

考生号

A

B

C

D

E

F

G

H

I

J

卷面总分

75

57

73

65

67

56

63

61

65

67

问答题分

7

6

7

4

7

4

4

4

7

6

问答题通过否

+

+

+

-

+

-

-

-

+

+

 

3.点二列相关与二列相关的关系

对于同一组资料来说,二列相关与点二列相关关系是

之值在1.25(P=o.5)与3.73(P=0.99)之间,可见

.

求二列相关与点二列相关向比较,前者的适用条件更苛刻。

故适用于求二列相关的条件,也可求点二列相关,但二者则不等。

反之则不可。

(三)多系列相关

两列正态分布的连续变量,其中一列被人为分为多个类别,表示这两列变量相关程度的指标是多列相关。

多列相关可视为二列相关的推广。

多列相关公式是由积差相关公式推导出来的。

适合于双列次数分布表求相关系数。

七、品质相关

两个类别变量之间的相关叫品质相关。

适合于求品质相关的数据通常用R×C表或列联表方式呈现。

品质相关有四分相关、Φ相关、列联表相关。

(一)四分相关

1.适用条件

适合于:

两列变量都是正态分布的连续变量,每一个都被人为地分为两个类别。

资料用四格表的形式呈现。

2.计算公式

计算四分相关用皮尔逊余弦π法。

设有两个变量A和B,A有A项、非A项两个水平,B有B项、非B项两个水平。

A项与B项的交叉格为a,他类此。

例:

下表所列是377名学生两科测验成绩所得结果。

两科成绩分布为正态,但人为地按一定标准将其划分为及格与不及格两类。

表中数字为人数。

历史成绩A

及格

不及格

地理成绩B

及格

a

b

124

68

192

不及格

c

d

85

100

185

209

168

377

(二)Φ相关系数

1.适用条件

两列变量都是真正的二分变量,类别数据(人数、次数)。

数据以四格表的形式出现。

2.计算公式

rφ=

在计算Φ相关系数时,一般只考虑相关系数是否显著,不关心相关的方向。

例:

一次数学测验成绩与其中第6题的成绩如下,求第6题得分与测验成绩的相关系数

题目

测验

通过

未通过

1分

20

5

0分

7

13

 

另一公式

(三)列联相关

1.适用条件

当两个变量均为类别数据。

每个变量分为若干个类别,则计算两个变量之间的相关用列联相关。

数据是以R×C表的方式呈现的。

2.计算公式

(1)皮尔逊列联C系数

C系数的最小值为0,最大值随列联表行列数不同而变化。

在用四格表计算时,C的最大值为0.707;列联表行列数增加时,C的最大值也在增加,但永远小于1.

(2)T相关系数(楚伯尤T,Tschuprow)

T系数最小值为0,最大值为1.当行数与列数相等时,用T系数计算相关是合适的;但当行数、列数相差很大时,计算得到的T系数的最大值远小于1.

(3)V相关系数(克拉默Cramer系数)

V系数最大值为1,最小值为0.当行列数相等时,V系数等于T系数。

当数据用四格表呈现时,V系数等于Φ系数。

八、其他相关

(一)偏相关

偏相关系数是指控制其他变量条件下两个变量之间的相关程度的指标,也称净相关系数。

即是将第3个变量与变量1、2的关系控制后,变量1、2的纯相关。

如:

(二)伪相关

(三)部分相关(半偏相关)

(三)多元相关

多元相关系数,也称复相关系数,多重相关系数,是标准变量

与一组预测变量

之间的相关程度的度量。

可写作

实质是观测值与预测值之间的相关系数,即

故为非负值,其值域为[0,1]。

九、相关系数的解释

1.相关系数表示两变量相关的紧密程度时,与符号无关。

2.相关关系不是因果关系。

3.利用相关系数对相关程度的描述

0.2以下,如果观察值过小,可能没有相关;0.2-0.4为弱相关;0.4-0.6为中等相关;0.6-0.8为强相关;0.8以上为非常强的相关。

但最重要的是要看其显著性水平。

4.相关系数的平方可以解释为:

一个变量的方差中有多大比例由另一变量来解释。

 

题目

测验

通过

未通过

1分

20

5

0分

7

13

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1