教育测量的质量指标.docx
《教育测量的质量指标.docx》由会员分享,可在线阅读,更多相关《教育测量的质量指标.docx(20页珍藏版)》请在冰豆网上搜索。
教育测量的质量指标
第二章教育测量的质量指标
第一节信度
第二节效度
第三节难度
第四节区分度
一、信度的概念
信度指的是测量结果的稳定性或可靠的程度。
也就是测量结果是否真实、客观地反映了考生的实际水平。
具体而言,可以从以下三方面来理解测量的信度。
(一)信度指实测值与真值相差的程度
测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真实值。
由于各种原因,实测值一般不会完全等于真实值,两者之差称为测量误差。
测量误差越小,测量的信度就越高。
用一个等式表示如下:
x=T+E
式中,x表示实测值,T表示真值,E表示误差。
但测量的真实值是未知的,因此,误差也就无法求出来。
当然,可以把很多次测量的实测值的平均值作为真实值的近似值,但这在实践上不具有可操作性。
所以,根据这种理解,无法求出信度的大小。
(二)信度指统计量与参数之间的接近程度
统计量和参数是统计学中的两个基本概念。
统计量是指样本上的各种数字特征(如样本的平均数、标准差等),参数是总体上的各种数字特征(如总体的平均数、标准差等)。
统计量越接近参数,这个统计量的可靠性就越高,因此,信度就越高。
要知道统计量对参数的接近程度,可以对参数进行区间估计。
这种方法对估计真分数也很有用的。
但这种理解也无法计算出信度。
(三)信度指两次重复测量或等值测量之间的关联程度
如果对同一对象进行两次重复测量或者等值测量以后,计算两次测量的相关系数,相关系数越高,说明测量的信度就越高;反之,就越低。
对于信度的这种理解,有利于信度的计算。
但重复测量会受到被测对象的经验、知识增长等因素的影响,等值测量又较难编制,因此,采用这种方法计算信度时,也是有误差的。
信度是任何一个测量的必要条件,对于教育测量来说,它具有更为重要的意义。
因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对象的某种特点,需要更加注意测量的信度,从而正确地判断测量结果的价值。
只有信度高的测量才能成为教育工作者有用的工具,否则,测量的结果是无意义的、无效的。
二、信度的理论公式
根据上述对实数的分解,可将实得分数的方差分解为:
=
+
,其中,
表示真分数的方差,
表示随机误差方差。
信度的计算公式为:
r
=
=1-
从以上公式可以看出,随机误差的方差越小,测量的信度就越高。
信度的取值范围为[0,1],如果测量误差的方差为0,那么,测量的信度等于1,如果测量误差的方差等于观察分数的方差,则测量的信度为0。
三、信度的类型
采用上述的理论公式是计算不了信度的,因为真分数根本不知道,这样也就计算不出误差分数。
因此,上述理论公式只能帮助我们更进一步地理解信度的含义。
那么,在实际测量中,如何计算或估计信度的大小呢?
下面介绍几种常用方法。
(一)稳定性系数
(1)稳定性系数又称重测信度。
它是指用同一测验试卷,在先后两个不同时间内对同一组被测试卷,两次测验实得分数的相关系数。
稳定性系数是估量信度最简单的方法,只需用同一份试卷对同一被测试卷测验两次即可。
(2)估计稳定系数的基本程序是:
适当时距
测验A
(A)测验A
(A)
A表示两次测验试卷相同,A
和A
表示同一测验经过适当时间间隔施行两次。
时距可以是几天或者几个月。
(3)使用重测法要注意几点:
〔1〕重测法只适用于速度测验而不适用于难度测验;
〔2〕所测的信度大小,常常受两次测验时间间隔长短影响;
〔3〕第二次测验没有吸引力,不易引起学生的兴趣;
〔4〕要实施两次测验,耗费人力、物力和时间较多。
(二)等值性系数
(1)当同一测验的一种型式不能或不适合实施两次时,就需要采用该测验的另一平行型测验或者复份。
复份在测验的内容、题数、格式、难度、平均分、标准差等方面应与原测验一样,否则,估计的等值系数就会出现较大误差。
(2)决定等值系数的方法是。
先实施第一次测验,然后在最短的时间内实施第二份等值的测验,再求它们得分的相关系数。
这个相关系数即为信度的等值性系数。
(3)其基本程序为:
最短时距
测验A
测验B
A
表示用试卷A进行的第一次测验,B
表示用试卷B进行的第一次测验,试卷A和B等值。
这种确定信度系数的方法称为复份法。
(4)采用复份法估计信度系数要注意:
〔1〕两次测验试卷要等值,即在内容、题型、题数、难度、区分度等方面要基本相同;
〔2〕两次测验要尽可能在较短的时矩内进行;
〔3〕确定两次测验是否等值,还要考察两次测验结果的平均数与标准差。
〔4〕在实际操作中,要编制两份等值的测验非常困难。
(三)内部一致性系数
前两种估计信度系数的方法都要测验两次。
该种估计信度系数的方法只需测验一次。
方法是把一次测验人为地分成两个部分,比较两个部分的一致性程度,从而估计信度系数。
根据分成两部分的不同,内部一致性系数的估计方法有两种:
(1)分半信度
这种方法是将一次测验分成两个假定相等而独立的两部分来记分,通常是以题目的奇数为一组,偶数为一组,计算两组的相关系数,最后用斯皮尔曼—布朗公式校正,求得整个测验的信度系数。
斯皮尔曼—布朗公式为:
式中,r
为两组测验分数的相关系数,r
表示整个测验的信度系数。
(2)库德尔—理查德森公式法
用这种方法只需测验一次,然后以各个问题的正确反应数为基础,或根据各人总分的平均数和标准差,计算信度系数,常用的库德尔—理查德森公式有r
和r
。
〔1〕r
的用法:
这个公式以每题能正确回答的人数占总人数的百分数为基础(每题只有通过或未通过两种分数)。
r
=
式中,r
为整个测验结果的信度系数。
K为测验题目数,p为各题正确反应人数占总人数的百分数,q为各题错误反应人数占总人数的百分数,s
为各应试者各题得分之和的方差。
〔2〕r
的用法:
这个公式以各反应者总分的平均数和方差为基础计算,无需各题难度的信息。
公式如下:
r
=1-
式中,
是各人总分的平均分,
是各人总分的方差,K是题目数。
〔3〕计算内部一致性系数,需要注意下列问题:
〈1〉若用分半法时,以按奇数题和偶数题分为两半为宜。
若把整个测验分为前后两半,一方面前半部试题和后半部试题未必等值,另一方面被试者在完成后半部试题时可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度。
〈2〉若速率是测验的重要因素,则不宜用分半法。
因为速度测验中试题的难度低,被试者得分的多少,在很大程度上是因为答题的多少,分半法易使得分相同,从而会夸大分半法的信度估计。
〈3〉如果答案多种多样,得分也多种多样时,则不能用上列公式计算一致性系数。
(四)论文式测验的信度系数
论文式测验的评分,没有严格的评分标准,以致同样的一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫所创的
系数公式:
=
式中,
为信度系数,K为题目数,
为每题各应试者得分的方差,
为每题各应试得分的方差之和;s
为所有被应试者所得总分的方差。
(五)评分者信度
一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不同的评分者对同一份试卷给分不同,甚至有很大的悬殊。
在作文测验、投射测验、品德测验、创造力测验等的评分中,都存在这个问题。
评分者所评的分数越一致,评分的信度越高。
要计算评分者评分的一致性系数,需区分评分者的人次数。
若为2人评N份试卷,可用斯皮尔曼等级相关的公式计算;若三人以上的评分者评N份试卷时,则需计算肯德尔和谐系数。
四、提高信度的方法
(一)信度系数以多大为宜
信度系数究竟以多大为好,没有明确的标准。
要看测验的目的和类型。
对于学科测验,信度系数要求达到0.9以上,智力测验要求达到0.8以上,品德测验能达到0.6以上就算不错了。
(二)测量误差的来源
(1)测验本身所引起的误差
〔1〕测验本身的有些因素会直接产生误差。
例如,有些测验题目的格式,如判断题,猜测的可能性很大,这就引起测验的不稳定性。
〔2〕如果测题的难度过大,以致每个被试者大量猜测,则所有被试者的总分接近于随机分布,所以测题越难,其信度越低。
另一方面,测题越易,分数离差越小,而信度也就越低。
〔3〕规定时限可以鼓励人们加速作出反应,但常常会引起不稳定的测验分数。
〔4〕测题的用词模棱两可也会引起不稳定的分数。
〔5〕测验本身长度也会影响信度,一般说来,测题越多,测验越可靠。
〔6〕测验所包含的测题样本也会引起测量误差。
测题取样所引起的误差在测验的单一形式中也可能出现。
如果测验是要测量单一特性,那么,这个测验上的每一个测题都应该测量它,而不该测量其他的东西。
但是实际上,有些测题能测量多种心理特性,因此,在一个测验中所包含的特定测题的抽选就变成了一个误差的可能来源。
(2)测验的实施所引起的误差
〔1〕由于测验的经验日益丰富,测验的实施更加标准化,实施条件的变化所引起的误差可能性就大为减少。
然而,由于对实施指导语的错误理解,对答案纸的错划,时间记录的错误以及一些不能预见的干扰等,都会产生误差。
〔2〕对一组被试实施测验不是同一个主试,而是由多个主试实施,以及主试本身在安排测验上有较多的余地,这些也会引起误差。
〔3〕记分也会产生误差,如论文式的测验和其他自由反应的测题各格式,记分就很难做到完全客观,从而产生误差。
(3)被试所引起的误差
这是最难控制的误差。
甚至当我们具有测验的等同形式,在标准化的实施和记分程序下,测验的情境以最理想的方式加以安排,由于被试本身的不一致性也会使测验的分数不一致。
具体表现为:
动机的作用;学习、发展和教育的影响;对于测验的经验;测验的焦虑;生理因素等。
(三)提高测验信度的方法
(1)适当增加测验题目的数量
测验题目的数量越多,题目的代表性就越大。
这种方法既可提高信度,也可提高效度。
因此,一次测验的题目不能太少。
但题目太多也无法操作。
所以,只能适当增加测验题目的数量。
(2)测验的难度要适中
因为测验的难度中,能使测验难度达到最大,也能使测验的区分度达到最大,所以,必须使测验的难度适中。
(3)测验的内容应尽量同质
如果测验的内容过于庞杂,必然要求考生具有不同的能力、知识或技能,致使测验的信度降低。
例如,外语、数学测验的信度常高于语文、历史测验的信度。
因此,为了提高测验的信度,测验内容应尽量同质。
(4)测验的程序应统一
测验的过程直接关系到信度的高低,可以说,信度主要是在测验的实施过程中要重点保证的。
测验的程序统一包括试卷统一、测验开始时的指导语、回答问题的方式、分发及回收试卷的办法、测验时间的掌握等,这是关系到测验信度的重要因素。
要严防舞弊现象的出现,特别是集体舞弊现象,更不能泄露考题等恶劣行径。
(5)测验的时间要充分
测验的时间限制也会影响信度的高低,如果安排的时间不购,考生不能从容回答所有问题,也就不能真实地反映应试者的实际水平。
因此,测验的时间要充分。
当然,这里不是说,要保证所有考生都能做完试题,要以大多数考生为标准制定考试的时间。
(6)评分要尽量做到客观化、减少评分误差
对于主观性测验,很难制定明确的评分标准,由于各评分者的标准不统一,很多主观因素也能对评分产生消极影响。
所以,首先要有明确的评分标准;其次,最好多个专家同时评一份试卷,或者是单个评分者反复多次评一批试卷,对于几次结果误差较大的,要复评。
(7)应试者参加测验的动机水平、积极性、疲劳程度也会影响测验分数,从而影响测验信度。
第二节效度
一、效度的概念
效度是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的。
我们可以从以下几个方面来理解效度:
(一)测量的效度始终是对一定的测量目的而言的。
一般而言,任何测量都有某种特定的目的和功能,判断效度的高低,就是判断测验达到目的的程度。
如果能正确真实地测量出所想测量的东西,那么,对这一目的的效度是高的;反之,则是低的。
例如,一个智力测验,结果实际测量的不是智力的高低而是知识的多寡。
那么,此测验的效度就低了。
即使某种公认效度较高的测量,也不能要求它在不同目的的测验中保持相同的效度。
(二)测量的效度也是对测量的结果而言。
一种测量工具只有经过实际测量,才能根据出来的结果判断它的效度。
所以,也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度。
不言而喻,对于任何一种测量来说,只有当它的测量结果真实、正确地反映所欲测量的功能和特性时,才能认为这种测量是有效的或效度较高的。
(三)一种测量的效度只是高或低的问题。
因为,一种测量在编制时,总是针对一定的目的而编写的。
例如,要编制学生的数学能力,我们不会用语文题目来作为测题,总会用一些数学题。
因此,学生数学能力或多或少会反映出来一些,不会毫无反应,换言之,测验结果总有一定的效度,只是效度高低不同罢了。
(四)在教育测量中,效度问题比在其他领域的测量更为重要。
因为:
首先,教育测量的对象大多是精神现象,只能通过对其具有可测性的外部表现的测量,以间接认识其心理活动、心理特征或知识水平等;其次,学生的心理活动、心理特征与其外部表现之间,一般具有相关关系而无函数关系,外部行为并不能准确无误地反映某种心理状态。
此外,教育测量的对象不是物而是具有主观能动性的人。
人能有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难度。
所以,每当进行教育、心理之类的间接测量的时候,必须考虑是否测量到了索要测量的东西,在多大程度上测量到了这些东西。
也就是说,必须考虑测量的效度问题。
二、效度的理论公式
实得分数的方差可进一步分解为:
=
+
=
+
+
其中,
为潜在真分数方差,
为系统误差方差
潜在真分数方差系统误差方差随机误差方差
效度的计算公式为:
=
由效度的计算公式可以看出,如果随机误差分数的方差和系统误差分数的方差之和越小,则效度越高。
从以上实得分数方差的分解,可以看出,信度与效度之间的关系:
第一种是高信度、高效度;第二种是高信度、低效度;第三种是低信度、低效度。
高信度、高效度
高信度、低效度
低信度、低效度
因此,在信度与效度之间,首先要重点保证是高效度,因为,高效度必然高信度;反之,则不然。
特别是对于教育测量而言,效度问题显得更为重要。
三、效度的估计
(一)内容效度
(1)什么是内容效度
内容效度是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。
也就是测量内容的代表性程度。
在编制测验时,内容效度是一个相当复杂和不易解决的问题。
以成绩测验来说,固然要求测验题目能代表所学习过的全部内容,但仅仅在形式上做到这一点还不能保证足够的内容效度,因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力几种行为反应去考察,如果测验题目大多是只需牢记教材就可以回答的问题,那么,对全面测验学生的成绩这一目的来说,内容效度仍然不高,也就是说,还没有完全测验到所想测量的特性和功能。
(2)估计内容效度的方法
〔1〕逻辑分析的方法
这是根据教育学和心理学的理论,根据教学大纲的要求,勾画出学生应掌握知识内容的范围和深度,提出应形成的技能名称等,然后以逻辑分析的方法估计测验在多大程度上代表了这些内容,在多大程度上能够测量出所要测量的特性和功能。
〔2〕用测验题目与教材内容比较的方法
先制两个表:
〈1〉测验的双向细目表,列出所要测量的各单元教材内容在考题中应占的百分比和所要求的各种行为反应在全部反应中的百分比。
〈2〉测验试题分类表,根据各单元教材内容列出试题,并注明该题所要求的行为反应及其应占的百分比。
对照这两个表,根据各个部分相符合的程度,判断内容效度的高低。
(二)效标关联效度
(1)效标是用来衡量测验效度的尺度。
〔1〕效标就是足以显示测验所欲测量的特性的变量或足以显示测验所要预测的特性的变量,作为检定效度的参照尺度。
〔2〕具体而言,效标是辨别真伪的尺度,当事物满足该原则时,才能存在。
效标是不能违反的。
当然,标准可以提高,也可以降低。
效标不仅随测验的种类的不同而不同,而且可能随时间而改变。
现在是好的成功的效标,将来就不一定是。
(2)选择效标是一件困难而重要的工作
〔1〕教育测验所依循的效标,可采用各学科成绩和教师的评定结果;
〔2〕智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事务;
〔3〕能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;
〔4〕职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;
〔5〕人格测验的效标,很难找到,只能按编制者的主观的标准来评判,或以被试以后的行为或临床资料作为效标。
(3)效标关联效度又可称为经验效度或统计效度,是以测验分数和效标之间的相关系数来表示测验的效度的高低的。
(4)效标关联效度又可分为同时效度和预测效度。
〔1〕同时效度是指测验与当前的效标之间的关联程度;
〔2〕预测效度是指测验与将来的效标之间的关联程度;
〔3〕例如,用全国高考的成绩作为效标来检验高中毕业会考的成绩,计算两者之间的相关系数就是会考的同时效度;用大学一年级的成绩作为效标来检验高考的成绩,计算两者之间的相关系数就是高考的预测效度。
(5)效标关联效度的计算方法参阅有关的教育统计学教材
(三)结构效度
(1)所谓结构效度,是指一个测量能实际测量出理论上的构念或心理特性的程度。
它的目的在于用心理学的概念来说明分析测验分数的意义,也就是说从心理学的理论观点就测验的结果加以解释和探讨。
这里结构的含义是心理学理论所涉及的抽象而属假设性的概念、特性或变量,如智力、焦虑、机械能力倾向、成就、动机等。
(2)结构效度的确定方法:
〔1〕从某一结构理论出发,导出各项关于心理功能或行为的基本假设
〔2〕据此编制测验;
〔3〕由果溯因,以相关、实验和因素等方法,检验测验结果是否符合心理学上的理论见解。
(3)确立一个测量的结构效度需要两个步骤
〔1〕必须指出,这个测量和所有理论上认为应与之有关的其他测量,有显著的相关。
〔2〕必须指出这个测量与所有理论上认为不应与之有关的其他测量,没有显著的相关。
四、提高效度的方法
(一)各种效度系数的要求
(1)不同的测验对效度系数有不同的要求,例如,智力测验分数与教师对学生的等级评定之间的效度系数一般在0.30~0.50的范围内;相同科目的标准测验成绩与教师对学生名次排列之间的相关系数一般应达到0.60~0.70;两种不同的智力测验或标准测验之间的相关系数应达到0.60~0.80,才符合要求。
(2)对效度系数大小的要求,也受原测验与获得效标的测验之间的相似性的制约。
若二者不相似,则效度系数偏低;若相似,则效度系数会高些。
所以,有的测验效度系数达到0.35即已符合要求,有的却要达到0.65~0.77才能被认为是有效的测验。
(二)影响效度的因素
(1)测验组成方面
测题是构成测验的要素。
而测题的性能是影响测验效度的因素之一。
例如,测验的取材、长度,侧题的鉴别力、难度及其编排方式等都和效度有关。
如果测验材料经审慎地选择,测验的长度恰当,测题具有相当的鉴别力且难度分布适当,并对测验作出合理的安排,就能提高测验的效度。
(2)测验实施方面
一个测验的效度要得到保证,主试应当适当控制测验情景,遵照测验守则的各项规定实施。
例如场地的布置、材料的准备、回答方式的说明、时间的限制等。
如不遵照标准化的程序进行,则必然使效度降低。
(3)被试主观状态方面
被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等,都能影响测验结果的可靠性和自己正确性。
无论是能力测验还是人格测验,只有借助被试者真实的反应,才能正确地推断其心理特性和适应状况。
(4)估计效度所依据的效标
选择适当的效标是统计效度的先决条件。
从统计的观点来分析,一个效标关联效度受下列三个因素影响:
〔1〕测验的信度
〔2〕效标变量测量的信度
〔3〕测验变量和效标变量之间真正的相关程度。
(5)样本方面
〔1〕适用的对象
一个测验应用于不同的对象,由于他们在性别上、年龄上、教育程度上以及经验背景上的差别,其测验功能不一致,效度也随之而异。
〔2〕规模的大小
当样本容量增加时,测量的误差有相互抵消的趋势,因而所得的结果较稳定。
〔3〕异质性
如果其他条件相同,样本分数全距愈大,则效度系数愈高。
(三)提高效度的方法
(1)控制系统误差
效度的高低主要受系统误差的影响。
例如,仪器没有校准、题目和指导语有暗示性、答案有明显的组型等因素都会影响测验的效度。
因此,必须控制这些因素。
(2)精心编制量表
〔1〕测验内容要确实能反应测验目的;
〔2〕题目表述必须清楚、简明,所用字、词、句为学生理解,内容应能引起被试者的兴趣,排列由易到难,但前面的题目不应暗示后面的答案;
〔3〕题目难度合适,有足够的区分度;
〔4〕试卷印制清楚,无错误和遗漏,并力求精美。
(3)妥善组织测验
严格按照测验手册进行,不作超出规定的解释,要掌握好测验时间。
评分时务必遵循评分标准,仔细登记,避免错误。
两次测验间隔时间也影响效度,所以,间隔长短,一定要按测验目的合理安排。
(4)扩大样本的容量和代表性
加大样本容量,可以增加样本对总体的代表性,而且使随机误差相互抵消,使测量更可靠。
同时,样本加大了,被试者差异也就加大了,潜在真分数的方差随着增加了,效度也就提高了。
(5)合理处理效度与信度的关系
〔1〕信度是效度的必要条件。
虽然信度高的测验效度不一定高,但效度高的测验,信度却一定比较高。
效度和信度的关系是:
效度的最大值等于信度的平方根。
但是,既要有高效度,同时又要有高信度,是不大可能的。
例如,同质性测验信度较高,但对于预测来说,效度高,但是信度却比较低。
所以,要提高预测效度的一个重要方法,是增加非同质性,即增加新因素。
〔2〕在处理信度与效度关系问题上,首先要保证高效度。
(6)适当增加测验的长度
增加测验的长度可以提高信度,而效度的最大值又与信度有关,所以,也可以提高效度。
增加测验长度对信度的影响大于对效度的影响。
适当增加测验题目的数量既可以提高信度,又可以提高效度。
第三节难度
一、难度的概念
难度是指测验试题的难易程度。
例如,在教育测量中,客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示。
其公式为:
P=
式中,P代表试题难度,R为答对试题的人数,N代表参加测验的总人数。
这里,难度实际上表示的是易度,与试题的实际困难程度正好相反。
这是传统的难度计算公式,应用已极为广泛。
一则是习惯;二则与后面的难度转换也是一致的。
因此,只要理解它的意义,并不会造成认识上的混乱。
难度是试题对学生知识和能力水平的适合程度的指标。
试题的难度不但对题目的区分度(见本章第四节)有影响,而且对试卷的信度和效度也有较大的影响。
很明显,难度是一个相对的概念,难度的高低与被试的水平直接相关。
一种测量对这一组被试是高难度的,可能对另一组被试是低难度的。
也就是说,难度是由参与测量的被试群体的整体水平决定的。
因此,我们不能笼统地说,这种测量的难度如何,而应该谈这种测量对某类被试的难度怎样。
二、难度的计算
(一)计算难度的基本公式
1.客观题难度的计算
P=
式中,P表示难度指标,N表示参加考试的总人数,R表示答对某道客观题的人数。
很显然,这里的难度指标,表示的是试题的通过率。
通过率越高,题目越容易;反之,越难。
例如,100人参加测验,某题有60人答对,则此题的难度