第9讲教育测评的质量指标信度.docx
《第9讲教育测评的质量指标信度.docx》由会员分享,可在线阅读,更多相关《第9讲教育测评的质量指标信度.docx(8页珍藏版)》请在冰豆网上搜索。
第9讲教育测评的质量指标信度
第九讲教育测评的质量指标(信度)
九、十、十一讲,主要介绍和探讨教育测量与评价的信度、效度,教育测量与评价中题目的难度、教育测量与评价中题目的区分度。
学习本章内容时,要理解概念和方法,比较不同概念和不同方法之间的联系与区别,通过自己归纳与分类整理,更好地掌握本章内容。
学完本章后,你应当能够:
了解信度、效度、难度、及区分度;依据不同情况采用恰当的方法计算测验的信度;领会标准参照测验的信度与一般测验信度的区别;依据不同情况选用恰当的方法对测验的效度进行评价;计算题目的难度;分析题目的区分度;领会测验的信度与测量分数误差之间的关系。
重点内容是:
掌握同质性信度即内部一致性信度的各种分析方法;掌握标准参照测验的信度的分析方法;掌握测验的内容效度的分析与研究方法;掌握测验题目难度的各种分析方法;知道估计题目区分度的方法。
(一)教育测量与评价的信度
教育测量与评价的信度,简单地说就是教育测量与评价结果的可信程度,记为。
如果用同一测量工具反复测量同一种特质对象,则多次测量结果间的一致性程度也叫信度。
测验信度是对测验工具及其操作的整体质量的一种量度,是测验性能的重要质量指标。
本节研究信度的估计方法。
一、重测信度和复本信度
1.重测信度
重测信度指的是用同一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。
重测信度有个基本假设,那就是假设某测验所要测量的潜在特质,短期内不会随着时间推移而改变。
因此,重测信度的用途也在于估计测验结果(以测验分数表示)经过一段时间后是否仍然维持稳定、一致的特性,又称为稳定性系数。
重测信度适用于异质性测验。
所谓异质性测验就是说一个测验包括几个不同的部分,这几个部分分别测量着几个不同的心理特质,它们之间可能并不存在相关,或相关较低。
对于这种异质性测验计算重测信度是比较可靠的。
此外,重测信度比较适用于速度测验而不太适用于难度测验。
速度测验的测题数量多,而且有一定的时间限制,被试很难记住第一次施测的内容,所以第二次施测较少受记忆的影响,而难度测验则相反。
重测信度还适用于运动技能的测验,如跑、跳、掷等,其测验成绩较少受重复测量的影响。
2.复本信度
复本测验,是指在试题格式、题数、难度、指导语说明、施测要求等方面都相当,并且都用来测量相同特质或属性,但试题又不相同的测验。
复本测验也称作平行测验。
复本信度指的是两个平行的复本测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。
实施复本测验,有两种方式:
一种是在同一个时间连续施测,另一种是间隔一段时间后施测。
前者主要可以反映出测验内容造成误差的多少,也就是说可以反映出两个测验是否是真正的平行测验,这种复本信度也称作等值性系数。
而后者所得到的复本信度,不仅反映出测验内容的抽样误差,而且也反映了被试本身状况改变。
这种同时兼顾试题抽样与时间影响的信度,称作等值稳定性系数。
与其他的信度系数相比,等值稳定性系数最小,也就是说,此种复本信度是对信度最严格的检验。
使用复本信度首先要构造出两份或两份以上的真正的平行测验。
这是一个很难达到的条件。
因此,复本信度有可能低估了测验真正的信度。
二、同质性信度(内部一致性信度)
同质性信度也叫内部一致性信度,它是指测验内部所有题目间的一致性程度。
这里,题目间的一致性含有两层意思:
其一是指所有题目测的是同一种心理特质;其二是指所有题目得分之间都具有较高的正相关。
也就是说,同质性信度就是一个测验所测内容或特质的相同程度。
同质性信度基于的假设是:
当一个测验具有较高的同质性信度时,说明测验主要测的是某一单个心理特质,由于众多的题目测试了同一心理特质,那么实测结果就是该特质水平的反映。
例如,用一道选择题测量被试的数学能力,机会性太大,并不能反映被试的真正水平。
但是用10道题及至更多的题来测被试数学能力,如果这些题真的是测量同一种能力的话,那么随着题量增多,必然会更加客观地反映被试的真实水平。
如果一个测验同质性信度不高,则说明测验结果可能是几种心理特质的综合反映,这时,测验结果不好解释。
一种办法是把一个异质的测验分解成多个具有同质性的分测验,再根据被试在分测验上的得分分别作出解释。
但这样,实际上每个分测验的题量都减少了,因此异质测验并不适合使用同质性信度。
另外,若速率是测验的重要因素,也不宜使用同质性信度系数。
估计同质性信度的方法主要有:
1.分半信度法
分半信度指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。
它反映了测验分两半后题目间的一致性,所以属于同质性信度。
但是,也可以将分半信度和等值性系数一样解释,即把对等的两半测验看成是在最短时间距内施测的两个平行测验。
计算分半信度并不难,而比较困难的是如何将测验分成相等的两半。
分半的方法很多,如按题号的奇偶分半、按题目的难度分半、按题目的内容分半等等。
所以,同一个测验通常会有多个分半信度值。
不论如何分半,一般在分半后都应考察分半的情况,看是否需要作适当调整,其最终的目标是分成对等的两半。
如果一个测验无法分成对等的两半则不宜使用分半信度。
在实际应用中,由于题目一般是依据难度大小排列,采用奇偶分半可使两半测验的题目在难度上基本相等,因此常被采纳。
分半信度的计算方法和等值复本信度的方法类似,只不过分半信度计算的是两个“半测验”上得分的相关系数,只是半个测验的信度,还必须用斯皮尔曼-布朗公式加以校正:
(1)
式中,
为整个测验的信度系数;
为两个“半测验”上得分的相关系数。
例1 一个测验向15名被试施测,被试在奇偶分半测验上的得分如表1所示,计算该测验的分半信度系数。
表1 15名被试在奇偶分半测验上的得分
[解] 计算两个“半测验”得分的积差相关系数为0.86。
代入公式
(1)得:
所以,该测验的分半信度系数为0.92。
2、库德—理查逊信度
库德—理查逊信度(Kuder&Richardsonreliability),该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。
库德—理查逊公式有好几个,其中常用的有
和
公式。
⑴
公式为:
(2)
式中,
为测验的信度;
为题目数;
和
分别表示答对和答错第i题的被试人数比例;
为测验总分的方差。
例2 10名被试在一个测验上的得分情况如表2所示(答对得1分,答错得0分),试估计被试反应的一致性程度。
解
代入公式
(2)得
表2 10名被试在某测验上的得分情况
⑵
公式为:
(3)
式中,
为测验的信度;
是全体被试测验总分的平均数;其他符号的含义与公式
(2)中相同。
仍采用表6—2的数据资料,求得
=3.3,代入公式(3),得
当测验中所有试题难度都一样,或平均难度接近0.50时,根据
公式和
公式所估计出来的信度值将相等。
但是,当测验中所有试题的难度值极不相同时,由这两个公式所估计出来的信度值较大并将出现差距,通常用
公式估计出的信度值会比
公式估计出的信度值小。
3.克龙巴赫(Cronbach)
系数
当测验题型较多、并非都是二分记分题时,估计测验信度可采用克龙巴赫
系数。
其计算公式为:
(4)
式中,
表示所有被试在第i题上得分的方差,
表示所有被试总分的方差,
为题目数。
例3 用一个包含6个论文式试题的测验,对5个被试施测,其结果如表3所示,试求该测验的信度。
[解]:
①求所有被试在第i题上得分的方差
:
列在表中最右列
②求所有被试在各题上得分方差之和
:
=3.76+0.4+1.36+1.84+1.84+2.00=11.20
③求所有被试各自总分的方差
:
=19.44
④代入公式(4)计算信度系数:
表3 测验内部一致性信度系数α计算表
三、标准参照性测验的信度分析
在标准参照测验中,决定学生的学习是否达到老师预先设定的掌握标准,是一件很重要的事情。
在这个标准下,多数学生的学习将可以达到某种满意的掌握水平,因此,学生在测验上得分的变异数将会变得很小。
在这种理念下,上述较适用于常模参照性测验之信度的一些估计方法便不适合用来估计标准参照性测验的信度。
既然,在标准参照测验中,学生的测验分数是用来作为判定(或判断)其是否达到掌握标准的一项重要依据,因此,“判定”是否正确(信度)远比分数“估计”是否精确更重要。
在这一思想指导下,人们提出了一些分析标准参照性测验信度的方法,这里介绍使用百分比一致性指标来反映标准参照性测验的信度。
百分比一致性(percentagreement,简称PA)指标是指同一测验或两平行测验先后两次施测,其对被试的分类结果一致的比例。
其计算方法如表4例:
100个学生由甲(前)、乙(后)两位教师先后施行普通话测试。
甲测65名掌握的学生经乙测有60名掌握,5名未掌握;甲测35名未掌握的学生经乙测,有15名掌握,20名未掌握。
这是一种标准参照性测验,其百分比一致性指标可按下表方式算得:
表4 百分比一致性指标的计算方法(PA的分子是“主对角线”上两数之和)
四、测量标准误与测验信度的关系
测量标准误是指测验中所得测验分数偏离真分数的程度,记为SE。
显然,它与测验信度系数之间存在着必然联系,这种关系可定量地表示如下:
(5)
式中,
为测量的标准误,
为测验分数的标准差,
是测量的信度系数。
测量标准误是反映测量结果精确性和可靠性的又一指标,同时也是人们正确解释测验分数的科学依据。
例如,某次测验信度系数为0.92,一批被试的测验分数的标准差为9.48,那么该次测验的测量标准误SE=2.68。
应用测量标准误SE可合理地解释被试所得分数的误差范围。
假设某被试在上述测验中得分为70分,根据统计学中区间估计的原理,(在正态分布下)可以推断出该被试的真正分数有68.26%的可能性落在70±SE之间,即位于[67.32,72.68]之间;同理,有95%的可能性落在70±1.96SE之间,即在[64.75,75.25]之间。
根据测验的信度系数求出测量标准误,从而正确解释各被试的测验分数,这是测验信度系数的一个重要应用。