第四章效度.docx

资源描述

第四章效度.docx

《第四章效度.docx》由会员分享，可在线阅读，更多相关《第四章效度.docx（36页珍藏版）》请在冰豆网上搜索。

第四章效度.docx

第四章效度

信度解决的是测验分数是否可靠的问题，但即使一个测验分数有跨时间的稳定性和跨情境的一致性，却不能保证测验分数代表了被试的真实水平。

比如说，某测验的目的是测量能力，但测题却都是一些死记硬背的知识，测验分数是不能代表被试真实能力水平的。

这就涉及了测量的客观性和准确性问题，即测验的效度问题。

第一节效度概述

一、效度的概念

测验的效度（validity）指的是测验的有效性，即测验分数能够代表所要测量的心理特质的程度，或测验结果达到测验目的的程度。

任何测验对所要测量的心理特质的测量都不是绝对客观和准确的。

一些编制得好的智力测验一般是效度较高的，但也免不了受智力之外的因素的影响。

因为测验的题目必然要从人们的生活实践中选材，来自不同生活背景的人对同一个测验题目的熟悉程度是不同的，即使智力相同，测验分数也会不同。

因此人们的知识经验就成了影响测验分数的无关因素之一。

研究表明，文化和种族因素会造成测验的不公平，因为与测验分数有关的并不完全是智力。

人格和成就测验同样存在无关因素影响测验分数的问题。

效度总是针对一定的测验目的而言的。

例如，用编制得好的人格测验测量人的个性，诊断心理障碍是有效的，即有一定效度，但若用来测量智力，测量结果就是无效的。

因为人格与智力无关，故分数的高低不能代表智力的高低。

以上讨论的是心理测量中的效度问题，在物理测量中，效度问题也是同样存在的。

如，用不标准的尺子量物体，用不准确的称去称物体，都会使测量的结果不准确。

可见，效度是由于测量工具（量尺）本身的问题造成的，在多次测量中都会恒定地出现而无法消除，因而称系统误差。

测量的效度问题是测验结果中包含了多大比例的系统误差的问题，系统误差可能是由以下几方面原因造成的：

（1）所要测量的特质有多方面的含义，而量表本身未能全部包含这些方面；

（2）测验题目中包含了与所测特质无关的题目；（3）记分方面的问题，如选择题的备选答案是不全面的，即没有完全体现被试情况的差异，因此答案就不是足够准确的，而且各题目得分是简单累加而未经加权处理，不同题目的重要性程度就没有得到区分。

在经典测验理论中，测验分数分成真分数和误差两部分。

但由于信度只表示测验分数的稳定性和一致性，因此就没有考虑真分数中的系统误差，因为系统误差也是稳定存在的。

考虑测验效度时，就应该将测验分数进一步分解。

同样是依据经典测验理论，测验分数可分解成代表测验目的的有效分数V，测量工具本身的误差，即系统误差I，和随机误差分数E。

即

Ｘ＝Ｖ＋Ｉ＋Ｅ（4-１）

在信度公式中，测验分数的方差可分解为真分数方差和随机误差方差，即：

Ｓ2x=Ｓ2T＋Ｓ2E。

如果将方差进一步分解，就得到：

　　Ｓ2Ｘ＝Ｓ2Ｖ＋Ｓ2Ｉ＋Ｓ2Ｅ（4-2）

其中Ｓ2Ｘ为测验分数的方差，Ｓ2Ｖ为有效分数方差，Ｓ2Ｉ为系统误差方差，Ｓ2Ｅ为随机误差方差。

由此我们可进一步推导出效度的表达式

　rxy=

（4.３）

其中rxy为测验效度。

上式表明效度等于有效分数方差在测验分数（实得）分数方差中所占的比重。

二、信度与效度的关系

效度等于有效分数的方差与实得分数方差的比，即：

rxy=Ｓ2v／Ｓ2x，而信度rxx=Ｓ2T。

／Ｓ2x，信度与效度的关系就是Ｓ2v与Ｓ2T的关系。

真分数Ｔ不包含随机误差，但却包含系统误差，真分数的大小并不能代表被试能力（有效分数）的大小。

同样，真分数方差Ｓ2T也不决定有效分数方差Ｓ2v。

因此，真分数方差大是有效分数方差大的必要条件，而非充分条件，因此信度高也就是效度高的必要条件，而非充分条件。

当系统误差的方差是０时，信度才等于效度。

信度对效度的影响可用一公式表示，即：

（4-4.）

即效度不会大于信度的平方根。

上式表明效度是受信度制约的，信度系数规定了效度系数的上限。

三、效度的种类

经典测验理论借助平行测验的假定为信度的计算提供了逻辑基础，但对效度却不然。

有效分数方差是无法估计的，因此对测验的效度的检验就难以依靠心理计量学的理论。

但由于潜在心理特质之间及与人的外显行为之间是有密切关系的，因此我们可以通过逻辑的和实证的方法对效度进行间接的验证。

在检验效度时，心理学的有关理论和统计分析技术都是必要的。

由于效度验证方法的间接性，单一的效度证据往往不能对测验效度作出充分的证明，我们往往要搜集多方面的证据。

按照美国心理学会的标准（1985），测验效度的证据有以下三方面的来源：

（1）与内容有关的证据；

（2）与效标有关的证据；（3）与构念有关的证据。

对应于上述三个方面的效度证据，人们习惯上将效度分为内容效度、效标关联效度和构念效度。

其实这三方面的效度证据是密不可分的。

第二节内容效度

内容效度（contentvalidity）是指测验题目对所要测量的内容范围的代表性程度。

它体现的是与内容有关的效度证据。

内容效度主要涉及的是对成就测验的效度考察。

对知识测验和技能测验而言，我们要测量的是被试对所有要求掌握的知识和技能总体的掌握情况，但不能把所有内容偏成题目进行施测，这既不经济，也不科学。

一般的做法是，从所有内容中选取一个有代表性的样本，编成测验。

然后考察这一样本对总体的代表性。

代表性高时，就说明测验分数是有效的，即达到了测验目的。

在这里，我们把测验所要测量的全部内容视为总体，将测验题目当成内容总体的一个样本。

内容效度实际考察的题目样本是否代表了内容总体。

一、验证测验内容效度的程序

下面我们以教育测验为例说明验证一个测验的内容效度通常要遵循的程序。

1．确定所要测量的全部内容范围。

比如考查某一门学科测验是否有效度，就要根据教材和教学大纲列出这门课程的全部知识点。

包括每一章、每一节的知识点数；

2．根据教育目标的要求，将测验目的具体化为不同层次的测验目标。

教育测验的目标一般采用布鲁姆（.Bloom，B.S.）教育目标分类学中的分类标准，将测验目标分成知识、理解、应用、分析、综合、评价六个层次。

每一层次的测验目标对学生有不同的要求，相应地难度也不同。

测验者要按照测验目标将该课程的内容即知识点分类；

3．依据教育者对学生的不同要求，确定每一层次测验目标在整个测验中所占的比重；

4．根据每一章节内容的多少和每一层次测验目标在测验中的比重，及预定的测验长度，编制测验双向细目表。

表4.1即为一假想的双向细目表。

双向细目表的每一小格中的数字即为属于某一测验目标和教学内容的测题数量。

表4.1假想的某门课程期未测验双向细目表

知识

理解

应用

分析

综合

评价

合计

第一章

第二章

第三章

第四章

第五章

合计

100

5．确定了每一小格中的测题数量后，再从相应部分内容中按比例随机抽取测验题目。

在选择测题时还要参考难度、测验时间等方面的信息，对题目作适当调配；

6．请本专业的专家对测题的代表性、测题对测验目的的适合性进行分析，并作必要的修改，直到多数专家对测验的内容效度感到满意为止。

用这种办法编制的测验、能保证其有较好的内容效度。

用以上的程序也能从逻辑上分析一个新编制的测验的内容效度。

二、内容效度的确定

以上验证内容效度的方法是纯粹逻辑的方法，在很大程度上依赖于测验编制者和有关专家的主观经验。

测验内容效度的确定还可采用统计方法，以弥补专家判断的不足。

内容效度的统计指标可通过以下途径获得：

１．题目样本与总体得分相关法

确定现测验的效度，可将该测验题目所来自的题目总体作为一个测验，计算两测验之相关。

这种方法道理上讲是合理的，但操作起来不便。

只有在个别情况下才使用。

２．两测验之相关法

克伦巴赫提出，通过计算同一组被试在两个独立取自相同总体的测验复本间的相关系数，就可得到与内容有关的证据。

这种方法也存在问题。

因为如果两测验相关低，不能确定哪一个缺乏效度，如果相关高，也不能说明两者的效度高，因为两测验在取样上可能会有同样的偏差。

３．处理后的重测法

在教学或训练前施测某一测验，此后再次施测，如果后测的成绩显著高于前测，则可认为训练或教学的内容与测验成绩密切相关，即测验题目可视为教学或训练内容的一个代表性样本。

４．内容效度比

让本专业的专家对取样的代表性进行分析，评价每一测验项目是否有代表性，统计出专家中认为某一项目能代表所要测量的内容范围的人数，再用公式计算出内容效度比

　　　CVR

（4-5）

式中CVR表示内容效度比，ni表示表示专家中认为某项目代表了相应测验内容的人数，N为参加评定的专家的总人数。

根据对所有项目的计算结果，就可删除CVR低的项目，增加CVR高的项目，再计算全部项目的内容效度比的平均数，作为内容效度的指标。

三、内容效度与表面效度

与内容有关的效度证据往往要经由专家分析以判断测验题目是否反映了测验目的，即测验在专家看来是否有效度。

这就涉及另一个容易混淆的概念，即表面效度的概念。

表面效度（facevalidity）是被试主观上认为测验题目是否测量了所要测的心理特征，即测验表面上看起来是否有效。

这是外行人的判断而非专家的判断，因此表面效度不是真正的效度指标。

表面效度会影响被试的测验动机。

被试只有在测验动机较强的情况下才能把测验认真地完成，而如果他感到测验题目无意义、荒唐、幼稚时，就会认为测验测不到所测的心理特征，因而会草率地应付测验或放弃测验，使测验信度、效度降低。

另外测验的语言表达，卷面印刷也会影响表面效度。

表面效度过高时，被试很容易识别出测验的目的，从而对一些敏感性的题目如精神病、自杀、偷东西等题目作出掩饰反应，产生虚假分数。

因此，适当的表面效度是必要的，这就要求测验题目要能引起被试的动机和兴趣，同时也要有较好的隐蔽性。

四、内容效度的应用

内容效度是指测验题目对所要测量的内容总体的代表性程度。

对知识测验和技能测验而言，我们要测量的是被试对所有要求掌握的知识和技能总体的掌握情况。

在这里，测验所要测量的全部内容被视为总体，测验题目则被视为内容总体的一个样本。

内容效度适合于测验所要测量的内容总体能够明确界定的情况。

因此尤其适合对教育测验的效度考察。

对职业心理测验，如果工作表现是能够明确界定的，且测验题目可视为工作表现的一个有代表性的样本的话，则考察测验的内容效度也是适合的。

内容效度对标准参照性测验的效度考察尤为重要，因为标准参照性测验的目的就是通过测验检验被试对规定内容的掌握程度。

但对智力和人格测验而言，考察其内容效度是不适当的。

因为智力和人格测验所要测量的往往是较抽象的特质，其范围难以明确界定。

没有明确的内容范围，就无法考证题目样本对这一范围的代表性。

第三节效标关联效度

一、效标

　　1.效标的概念

效标即效度标准（validitycriterion），是指独立于测验结果，反映测验目的的行为参照，也称效标行为。

之所以要以效标为参照验证测验效度，是因为人的心理特质是无法直接测量到的，只能以某种能代表所要测量的特质水平高低的外显行为作为替代，计算测验分数与效标行为间的一致性程度，以此作为测验的效度证据。

比如我们可以用飞行员的工作表现作为验证飞行员选拔测验的效标，这是因为飞行员的工作表现能代表飞行员的能力，且飞行员的工作表现与其测验分数是相互独立的。

企业的招聘考试可以用工作人员的工作成绩作为效标。

因为二者是独立评定的，且后者反映了前者的目的。

同样，测量心理病理的人格量表也可以用临床诊断结果作为效标。

但医生的临床诊断不能依据被试人格测验的分数，否则二者就不是独立的，医生的诊断也就不能作为效标。

这种情况称效标污染（criterioncontamination），即主试者由于知道了被试的测验分数而影响了对其效标分数的评定。

人们选择效标的目的是以效标为参照标准，计算测验测量相应特质的准确性程度，而效标一旦受到污染，效度就会出现偏差。

2.观念效标与效标的测量

　　由于效标是衡量测验有无效度的标准，因此能否找到合适的效标会直接影响我们对一个测验的效度的评定。

选择效标时首先要进行逻辑分析，判断被试的某种行为表现与所要测量的心理特质间是否有对应关系，如果所测特质是该行为表现的决定因素或主要影响因素，则这一行为表现就可作为相应测验的效标。

测验效标的确定被阿斯汀（Astin，A.W.）称为观念效标，观念效标是指从概念上确定所要选择的测验效标是什么。

如我们可以确定工作能力或工作成功为特殊能力测验的效标，可以将是否胜任大学学习作为大学入学考试的效标等。

观念效标确定后就要将其数量化，即以具体的测量指标表示效标行为水平的高低，这就是效标的测量。

即按测量的规则给效标指派数字，将效标行为表示为一定的数量，进而计算效标分数与测验分数的关系。

对效标的测量要满足以下条件：

（1）有效性，即效标与所代表的特质间应是高度一致的；

（2）可靠性，即对效标的测量必须是高信度的，在不同时间和地点测量应具有稳定性和一致性；（3）客观性，由于效标往往是依据主观经验评定的，所以避免主观偏见就尤其重要；（4）实用性，即对所选择的效标的测量应该是简便的，经济的。

3.常用的效标

人的心理特质往往会以多种形式，从多个方面表现出来，且不同的特质也会有不同的表现方式。

因此作为代表特质水平高低的效标也就有复杂性和多样性的特点。

心理测验中常用的效标有：

（1）学术成就

包括在校成绩、学历、获奖情况、教师评定等，常作为智力测验和标准化成就测验的效标。

以学术成就为效标时，还要考虑个人的社会经济地位和成就动机等非智力因素的影响。

（2）实际工作表现

常作为特殊能力测验及部分智力和人格测验的效标，是最常用的效标之一。

但在实际测量时往往会遇到一些困难。

如对不同性质的工作难以确定统一的评定标准，个人工作表现影响因素较多，效标测量不易实施等。

（3）团体差异

如果已知不同团体之间在某项特质上是有差别的，而一个测验的分数又能将这些团体区分开来，则认为该测验在测量这一特质上是有效度的。

例如，如下事实的存在就是测验有效度的证据：

智力测验的分数随年龄而提高；不同职业的人在职业兴趣测验上有差别；推销员比工程技术人员更外向等。

（4）临床诊断

常作为人格测验的效标。

如果临床诊断是由经验丰富的临床专家在长期观察和详细调查的基础上作出的，就可能是较为理想的效标。

（5）特殊训练的成绩

与某专业或职业有关的训练成绩适合作为特殊能力测验的效标。

如用工厂技术训练中的成绩作为机械能力倾向测验的效标；用基础飞行训练的成绩作为飞行员选拔测验的效标；用艺术院校的成绩作为艺术能力倾向测验的效标等。

应该注意的是，特殊训练上的表现只能作为中间效标，实际工作表现才是最后效标。

例如，在医学院的表现只能是选拔测验的中间效标，而在实际工作中表现出的医术才是其最后效标。

（6）等级评定

等级评定是指由被试者的家长、老师、同学、同事等对其心理特质的评价，适用于所有的心理特质。

但在人格测验中更常用，因为人格测验所测特质往往缺乏客观的标准来衡量。

对一些较抽象的特质，如支配性、主动性、亲和性等，评定法似乎是目前唯一可行的方法。

使用评定法时要注意遵循标准化的程序进行。

（7）现有的测验

现有的效度已得到公认的同类测验可作为新测验的效标。

如纸笔测验可用操作测验为效标，团体测验可以用个别测验为效标。

当新测验是作为旧测验的复本或简行本时，用现有测验验证其效度才是有意义的。

二、效标关联效度

效标关联效度（criterion-relatedvalidity）是指测验分数与某一外部效标间的一致性程度，即测验结果能够代表或预测效标行为的有效性和准确性程度。

1．同时效度与预测效度

关于效标行为的资料可以在测验实施的同时获得，也可以间隔一段时间后获得。

依据效标资料获取的时间的不同，可将效标关联效度分为同时效度和预测效度。

同时效度指测验与同时获得的效标行为的一致性程度。

如对一个人格测验的结果，我们可以用同学、家长对他的评定作为效标，所得效度即为同时效度；预测效度指测验结果对效标行为的预测程度。

用智力测验的结果预测一个人会不会成功，用人格测验预测人会不会患心理疾患等，预测的准确性程度都可称为预测效度。

同时效度和预测效度不仅在获取时间上有差别，其目的和作用亦有不同。

同时效度的目的是检查测验测量现有的某种能力或特质的有效性，即描述当前状态时的有效性，而预测效度则表明测验对某种行为的预测的有效性。

同时效度回答的问题是“某人具有这种能力吗?

”“某人的心理正常吗?

”；而预测效度回答的问题则是“某人会有这种能力吗?

”“某人会出心理问题吗?

”

２、效标关联效度的表示方法

效标关联效度是以测验分数与效标的一致性表示的，是一种基于经验的证据，因此又称实证效度或统计效度。

根据效标测量所获得的数据的性质，及效度证据的用途的不同，效标关联效度有不同的表示方法。

常用的表示方法有相关系数法，分组检验法，取舍正确性法，预期表法，功利率法等。

（１）相关系数法

相关法是一种最常用的计算效标关联效度的方法，测验分数与效标间的相关系数称效度系数。

测验分数和效标分数的数据性质不同，相关系数的计算方法也不同。

①积差相关

当测验分数与效标都是正态连续变量，且二者存在线性关系时，可采用积差相关法。

计算公式如下：

（4-6）

式中，Xi、Yi分别是被试i的测验分数和效标分数，

、

分别为两组数据的平均数。

Sx和Sy分别表示两组数据的标准差。

②点二列相关

点二列相关适用于测验分数为等比等距的测量资料而且其总体为正态分布，而效标是名义变量（以是否达到某一标准表示）的情况。

计算公式为：

（4-7）

式中

是效标分数达到某一标准的被试的平均测验分数，

是未达到某一标准的测验分数的平均值，p与q是达到某一标准与未达到某一标准的人数百分比，St是测验分数的标准差。

③二列相关

二列相关适用的情况是测验分数为等比等距的测量资料而且其总体为正态分布，效标虽然也是正态分布，但它被人为地划分为两类。

二列相关的计算公式为：

（4-8）

式中

是被试中效标成绩达到某一标准的测验分数的平均值，

是未达到某一标准的测验分数的平均值，p与q是达到某一标准与未达到某一标准的人数百分比，St是测验分数的标准差。

y为p对应的正态曲线高度，可以通过查正态分布表得到。

④多系列相关

多系列相关适用的情况是测验分数为等比等距的测量资料而且其总体为正态分布，效标为是正态分布，但它被人为地划分为多种类别。

若正态变量被划分为三类则称为三列相关，划分为四列则称为四列相关。

多系列相关系数的计算公式是由皮尔逊积差相关系数公式推导而来的：

（4-9）

式中，pi为效标属于不同等级的人数占总人数的百分比，

、St分别是测验分数的平均数和标准差，y1为效标的每一个等级的下限所对应的正态曲线高度，可以通过pi查正态分布表得到。

yh则为上限所对应的正态曲线高度，

⑤四分相关（TetrachoricCorrelation）

四分相关适用的情况是测验分数和效标都是等比等距的测量资料而且总体为正态分布，但都按某一标准划分为达标与不达标。

在计算四分相关时，一般要划出体现两变量关系的四表格。

如表4.2所示

表4.2在测验上的表现与效标行为的关系

效标

合格

不合格

测验

分数

合格

不合格

四分相关的计算方法最常用的是皮尔逊余弦法（近似计算法）公式如下：

（4-10）

⑥φ相关

φ相关适用于测验结果和效标都是名义变量（不论名义变量是人为划分的，还是真正的名义变量）的情况，其计算公式如下：

（4-11）

从相关系数的大小可直观地看出效度的高低。

相关系数的平方（r2）称为决定系数，表示两变量中共同变异的比例，也就是一个变量的变异由另一个变量决定的比例。

比如，一个测验的效度系数为0.74，这说明效标分数的变异中有５５％可由测验分数来解释，因此测验的效度是较满意的。

（2）分组检验法

人们通常根据被试在效标上的表现将他们分成成功不成功，合格与不合格两类。

如果根据效标行为将被试分成了两个组，而两组的测验分数又有显著差异，则认为测验分数能把在效标上表现好与不好的被试有效地区分开来，测验就是有效度的。

而如果两个组的测验分数无差异，则说明测验是无效度的。

分组检验的问题是，随着样本容量的增加，两组平均数差的标准误就会减少，这种情况下两组平均数的较小差别就会使检验统计量t的取值达到显著水平。

但平均数如果差别过小，对效标行为的预测是没有意义的。

为了对效度的考察更严格，还需考察两组的平均数、标准差和t值，此外还要考察重叠量。

重叠量有两种计算方法。

一种方法是：

计算出成功组中低于失败组平均数的人数，再计算出失败组超过成功组平均数的人数，两数相加除以两组总人数即为重叠量。

另一种方法是计算出处于两组分数分布的共同区域内的人数百分比（即两组分数分布的交叉区域的面积）。

重叠量小说明测验是有效的，否则，测验的效度就值得怀疑。

（3）取舍正确性

有时测验的目的是为了选拔和鉴别出能力或心理特质水平高的被试，以利于人员录用、安置和诊断。

这时测验使用者一般是根据测验分数将被试分成合格与不合格或达标不达标的两类。

当测验用于这一目的时，测验的效度就表现为以测验分数对被试作出的分类，与根据被试的实际工作表现（即在效标上的表现）所作出的分类的一致性程度。

这时测验的效度就是分类决策的命中率。

命中率的计算方法是，先根据测验的临界分数将被试分成成功与不成功的两类，再根据效标将被试分成成功与不成功的两类。

这样被试就分成了四类：

在测验分数上成功而在效标分数上也成功的（A）；在测验分数上成功而在效标分数上不成功的（B）；在测验分数上不成功而在效标分数上成功的（C）；和在测验分数和效标分数上都不成功的（D）四类。

见表4.3。

表4.3分类决策的正确性

效标

成功失败

测成功

验

分失败

数

正确接受（A）错误接受（B）

错误拒绝（C）正确拒绝（D）

在实际计算测验的效度时，要统计出四类被试的人数（即表1中ABCD四个数字）。

再计算分类决策的取舍正确性。

实际计算中有总命中率和正命中率两个指标。

①总命中率

如果测验者的目的是为了验证测验的效度，或录取了不合格的被试又不会对工作造成明显的不良后果，就可以把所有参加测验的被试都录取进来。

这时就可以计算总命中率。

总命中率的计算方法如下：

正确接受（A）＋正确拒绝（D）

总命中率＝————————————————（4-12）

总人数（A+B+C+D）

②正命中率

在实际工作中人们往往只关心所有录取人员中被正确接受者所占的比例，而不关心被淘汰者的命运，这时就要计算正命中率。

方法如下：

正确接受（A）

正命中率＝——————————————（4-13）

正确接受（A）＋错误接受（B）

取舍正确性的优点是易于理解，实施方便，其缺点是只考虑到临界点附近分类决策的有效性，而不像效度系数那样在整个范围内都提供了测验分数与效标分数的关系。

另一问题是依测验分数所作出的分类对刚刚低于临界分数的被试很可能是不公平的，尤其是当临界点附近的被试较集中时，这一问题就更为突出。

而使用效度系数进行预测时，由于考虑了估计的标准误，就在一定程度上避免了这一问题。

因此在分类决策时，确定临界分数时一定慎重。

（4）功利率

测验的效度不仅是一个科学性的问题，也是一个实用性的问题。

实际上，我们就是用工作表现来衡量测验的有效性的，测验分数并

展开阅读全文

第四章 效度.docx

第四章效度.docx