考试成绩评价与衡量与衡量地区分度信度效度等概念.docx
《考试成绩评价与衡量与衡量地区分度信度效度等概念.docx》由会员分享,可在线阅读,更多相关《考试成绩评价与衡量与衡量地区分度信度效度等概念.docx(12页珍藏版)》请在冰豆网上搜索。
考试成绩评价与衡量与衡量地区分度信度效度等概念
考试成绩评价的区分度、信度、效度等概念
1、试卷的区分度
试卷的区分度指测试题目对被测试者实际水平的区分能力。
区分度高的试题,能将不同水平的被试者区分开来;区分度低的试题如此对被试者水平不能很好地鉴别。
区分度是指试题对被试者情况的分辨能力的大小。
一般在-1~+1之间,值越大区分度越好。
试题的区分度在0.4以上明确此题的区分度很好,0.3~0.39明确此题的区分度较好,0.2~0.29明确此题的区分度不太好需修改,0.19以下明确此题的区分度不好应淘汰。
计算区分度的方法很多,特别需要注意的是对同一个试题的考试成绩采用不同的方法所得到的区分度的值是不同的。
我们可以使用下面的两种方法计算区分度:
〔1〕先将分数排序,P1=27﹪高分组的难度,P2=27﹪低分组的难度
区分度D=P1-P2
或区分度D=〔27﹪高分组的平均分-27﹪低分组的平均分〕?
/font>总分为值
〔2〕利用积差系数r计算区分度D
当两个变量都是正态连续变量,而且两者之间呈线性关系,表示这两个变量之间的相关成为积差相关。
积差相关的使用条件
a、两个变量都是由测量获得的连续性数据。
如百分制分数。
b、两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称的分布。
c、必须是成对的数据,而且每对数据之间是相互独立的。
d、两个变量之间呈线性关系。
积差相关系数r的计算在计算机上是很容易进展的。
积差相关系数r的公式如下:
r=〔无法显示〕原谅!
2、试卷的信度
试卷的信度主要从两个方面进展分析,一方面是考试成绩期望值与实际成绩平均值的差异,考试成绩期望值一般应以平时成绩的平均值为依据确定.另一方面是考试成绩的预期与格率与实际与格率的差异,考试成绩与格率的预期值同样以平时成绩的与格率为确定依据.两个方面的差异性较小,说明试卷信度较高.
考试信度,简单地说是考试结果的可信程度,是推测考试可信与否的最重要的量化指标。
任何考试结果都会因考试误差的客观存在而受到或多或少的影响,这种误差到底有多大,可用考试信度来刻画。
考试信度越高,说明考试分数的误差越小,考试成绩越能代表学生个体的真实水平。
譬如:
信度为0.8的考试就意味着,学生群体的成绩波动有80%由真实水平的差异性引起,另外20%如此由各种误差引起。
一般认为,标准化考试的信度系数应该在0.9以上。
据研究,托福考试的信度在0.95以上,HSK考试〔中国汉语水平考试〕的信度一般都在0.98左右,大学英语四、六级考试客观题的信度达到0.9以上。
考试信度越高,说明考试分数的误差越小,考试成绩越能代表学生个体的真实水平。
譬如:
信度为0.8的考试就意味着,学生群体的成绩波动有80%由真实水平的差异性引起,另外20%如此由各种误差引起。
一般认为,标准化考试的信度系数应该在0.9以上。
据研究,托福考试的信度在0.95以上,HSK考试〔中国汉语水平考试〕的信度一般都在0.98左右,大学英语四、六级考试客观题的信度达到0.9以上。
3、试卷的效度
试卷的效度主要从内容效度和结构效度两方面进展分析.内容效度Z1表示,是试题所含知识点数与教学大纲中应试内容知识点数之比;结构效度用Z2表示,是指试题考核学生的记忆,分析和运用的各种方法以与各方面解决问题的能力点数与应试包含的各方面广泛与能力点数之比.比例较高如此说明效度较高.根据当前情况,对于试卷效度的分析主要从内容效度进展分析,鼓励同时进展结构效度的分析.
高考试题的效度信度〔区分度难度〕什么意思?
高考的性质最主要的在两个方面:
一、高考是一种选拔性考试,高考成绩是高等学校录取新生的依据,这是高考的选拔性质。
二、高考是一种导向性考试,高考是中学教学的指挥棒,起着对中学教学的引导作用,这是高考的引导性质。
高考性质的这两方面决定了高考试题应有的信度、效度、难度和区分度,而这些是我们进展高考生物复习首先要清楚的,能够防止我们在复习时的盲目。
下面我先简单地介绍一下信度、效度、难度和区分度四个概念:
信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。
效度是指考试有效性或正确性的质量指标,考试效度的上下反映着考试是否达到它的预定目的,是否考了要考的内容。
难度指试卷(题)的难易程度。
一般用试卷(题)的得分率或答对率表示,所以难度事实上是容易度或通过率。
其值在0~1之间,数值越大,说明试卷(题)越容易。
区分度是指试题对不同考生的知识、能力水平的鉴别程度。
如果一个题目的测试结果使水平高的考生答对(得高分),而水平较低的考生答错(得低分),它的区分能力就很强。
题目的区分度反映了试题这种区分能力的上下。
一般认为,区分度的数值达到了0.3,便可以承受;低于0.3的题目,区分能力差。
高考的性质决定了高考试题首先要保证信度,缺少信度或信度较低都无法向几百万考生交代,无法向考生家长交代,无法向社会交代。
从这一角度看高考试题所考查的一定是确定性和稳定性的内容,对于现在还没有被确定的内容或者说有争议内容是不能作为高考命题依据的。
你知道了吗?
复习时,可不要让这样的问题浪费你的精力呀!
同时要注意,有些题目看起来让你回答的是假设和猜测,你可不要忘记高考试题确实定性,不要得意忘形呀,还是老老实实从生物学的根本原理来回答,只有这样你才能得分。
OK!
高考的效度要求高考试题是有效和正确的,考查的是考纲规定的内容。
你想想牵动着百万考生、千万家庭、亿万人员,如果哪位命题大人在命题中出了错误或者超出了考试要求,会怎么样呢?
哪他可就大了,他将成为千夫所指,这样的事情是每一位命题人都不会干的。
鉴于此,我们的复习一定要紧紧盯住考试纲要,对考试纲要要求的内容理解、记牢,让它扎根心田;对于违背考试纲要或超出纲要要求的内容,如此不要理睬;一些脑筋急转弯、文字游戏类的问题就让它见鬼去吧。
高考试题要有难度,这个难度有多大,平时复习需要用什么样的态度去对待不同难度的试题呢?
高考试题的难度与参加考试人数和当年高等学校的录取人数是密切关联的。
去年某某省高考报名人数是70多万,实际录取人数接近40万,高考试题的难度定位应该是有利于把这40万考生选拔出来,因此,试题的难度系数应在0.6左右。
这意味着什么?
意味着将有60%左右的考生通过高考被定位在根底较好、能力较强、具有学习潜能;而90年代只有10%左右的考生能够进入高校相比,那时10%左右的考生通过高考被定位在根底较好、能力较强、具有学习潜能。
这不是说现在学生中优秀的比例提高了,而是高考试题的难度变了,高考试题的侧重点变了。
变成什么样了呢?
变成60%的试题是根底题目了。
你只有能把根底概念、根本原理、根本事实掌握了你就至少能拿到60%的分,你就进入了优秀根底较好、能力较强、具有学习潜能的考生的行列。
高三复习,特别是一轮复习的重点和目标就确定了——根本概念、根本生物事实、根本生物学原理、根本生物学方法、根本生物学思想。
记住了,抓根底,把60%先抓在手中。
高考是选拔性考试,高考试题一定要有区分度,以利于不同层次学校对人才的选拔。
因此高考还要有中档题和难度较大的题目,根据考生人数和录取人数的比例,这两类题目所占的比例将在40%左右。
对于生物学科讲,这局部试题的难度主要表现在生物科学思想和生物知识的运用,以与生物试题的解题技巧上。
要想在这局部试题中得高分也不难,需要在平时复习时注意在做题目的同时总结方法,逐步建立起生物科学的思维方法和熟练生物学试题的解题技巧。
前60%是进入高校的保证,后40%如此是进入较好大学所必需的,谁不想上大学,谁不想上好大学,因此这局部试题往往成了香饽饽,为此,今后每期我们都专门开设专门栏目进展辅导,设计专门的创新题供大家热身。
这局部确实很重要,但要有前面的60%作根底,切不可逐末舍根呀。
高一化学备课组2009.3.26
什么是试题难度系数?
考试难度系数如何计算?
难度系数反映试题的难易程度,即考生在一个试题或一份试卷中的失分程度。
如总分为
150分的试题,考生平均得分108分,平均失分42分,如此难度系数为42/150=0.28。
难度
系数的计算公式为:
L=1—X/W
其中,L为难度系数,X为样本平均得分,W为试卷总分〔一般为100分或150分〕。
什么是试题区分度?
试卷区分度计算公式是什么?
试卷区分度反映试题区分不同水平受试者的程度,即考出学生的不同水平,把优秀、
一般、差三个层次的学生真正分别开。
区分度高的考试,优秀、一般、差三个层次的学生都
有一定比例,如果某一分数区间学生相对集中,高分太多或不与格太多的考试,区分度如此低
如果把成绩从高往低排序,前50%的考生为高分组,后50%为低分组,其计算公式为:
D=2〔XH—XL〕/W
其中,D为区分度,XH为高分组平均分,XL为低分组平均分,W为试卷总分〔一般
为100分或150分〕。
从以上公式可以看出试题难度系数和区分度并没有直接联系,因为前者是反映样本总
体的一个参数,后者是反映样本2个局部的参数。
测试的命题质量如何,否对考生的知识程度和能力进展有效的测量,除了上面介绍的试题难度和区分度知识外,还需要对试卷做整体分析,试卷整体分析的指标主要是信度和效度。
测试信度也叫测试的可靠性,指的是测试结果是否稳定可靠。
也就是说,测试的成绩是不是反映了受试者的实际语言水平。
例如,如果同一套测试在对同一测试对象进展的数次测试中,受试者的分数忽高忽低的话,如此说明该测试缺乏信度。
测试的信度与测试的效度有着密切的关系。
一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。
测试的信度主要涉与到试题本身的可靠性和评分的可靠性这两个方面。
试题本身是否可靠主要取决于试题的X围、数量、试题的区分度等因素;评分是否可靠如此要看评分标准是否客观和准确。
测试的信度通常用一种相关系数〔即两个数之间的比例关系〕来表示,相关系数越大,信度如此越高。
当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,如此测试的可靠性降到最低程度。
在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。
对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在0.90以上,例如“托福〞的信度大致为0.95,而课堂测试的信度系数如此以0.70-0.80之间为可承受性系数。
测试信度的计算方法有很多种,以下仅介绍三种易于操作的方法:
1〕重测法。
用同一套试卷在两个不同时间内来测试同一批受试者,这样便获得两组分数,然后计算出两组分数的相关系数。
当然,在两次测试中,学生第二次的测试成绩理应比第一次的要高,因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。
但是假如该试题是比拟可靠的,每个学生在两次测试中的排名次序应该是根本不变的。
2〕交替形式法。
对同一批受试者使用试题类型完全一样,难易程度相当,但具体题目不同的两套对等试卷先后进展两次测试,然后计算出两次得分的相关系数。
3〕对半法。
测试只进展一次,但将整份试卷的题目按单、双数分成两组来分别计分,算出两组分数的相关系数,然后再用Spearman-Brown的公式计算整份试卷的信度系数。
具体计算步骤是:
将两组分数的相关系数乘以2,再除以1加两组分数的相关系数。
测试效度亦称测试的有效性,指一套测试对应该测试的内容所测的程度。
也就是说,
一套测试是否达到了它预定的目的以与是否测量了它要测量的内容。
例如用听写来测量学生的听觉能力,其效度是不理想的,因为书面记录有声语言不仅涉与学生的听觉能力,而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。
测试的效度一般可分为以下几类:
1〕外表效度。
指测试应达到的卷面标准,即一套测试题从外表看来是否是适宜的。
例如,
假如一次阅读理解力的测试包括许多受试者没有学过的方言词汇,如此可认为这次测试缺乏
外表效度。
外表效度是测试出受试者正常水平的一种保证因素。
2〕内容效度。
指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测
试的要求,即测试的代表性和覆盖面的程度。
例如,如果某一套发音技能测试题仅仅考
查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在
词语中的发音,那么,该测试的内容效度就很低。
3〕编制效度。
指一套测试题的诸项目对编制该测试所依据的理论的各个根本方面的反映程
度。
例如,以结构主义语言理论为根底,认为系统的语言习惯是通过句型而获得的,那
么,强调词汇和语法环境的测试题目就失去了编制效度。
4〕经验效度。
经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准
尺度相对照而得出。
经验效度可分为两种:
一是共时效度,即将一次测试的结果同另一
次时间相近的有效测试的结果相比拟,或同教师的鉴定相比拟而得出的系数;二是预测
效度,即将一次测试的结果同后来的语言能力相比拟,或是同教师后来对学生的鉴定相
比拟而得出的系数。
一般来说,对某次测试的效度进展检验时,除了要根据教学大纲的要求和观念有效性
的理论对试卷的内容进展考查以外,还须采用计算相关系数的定量方法,即计算出本次
试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。
系数高如此有效性
大。
课堂测试的效度应在0.4-0.7之间,规模较大的测试其效度应在0.7以上。
信度与效度的关系:
1.信度低,效度不可能高。
因为如果测量的数据不准确,也并不能有效地说明所研究的对象2.信度高,效度未必高。
例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平。
3.效度低,信度很可能高。
例如,即是一项研究未能说明社会流动的原因,但它很有可能很准确很可靠地调查各个时期各种类型的人的流动数量。
4.效度高,信度也必然高。
引用试卷分析的四个度:
难度、区分度、信度、效度
一、难度
难度是指试题的难易程度,它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。
一般认为,试题的难度指数在0.3-0.7之间比拟适宜,整份试卷的平均难度最好在0.5左右,高于0.7和低于0.3的试题不能太多。
1、难度的两种定义:
〔1〕P=1—x/wx为某题得分的平均分数,w为该题的总分为。
这种定义法,难度值小时明确试题容易,值大时明确试题难,最小值为0,最大值为1。
〔2〕P=x/w这种定义法,难度值小时明确试题难,值大时明确试题容易,最小值为0,最大值为1。
2、难度的计算:
〔1〕主观性试题的难度
A根本公式法:
P=1—x/w
B极端分组法P=1—(XH+XL)∕2WXH :
高分组的平均得分〔前27%〕,XL:
低分组的平均得分〔后27%〕。
〔2〕客观性试题的难度
A根本公式法:
P=1—R/NR为答对人数,N为全体人数。
B极端分组法:
P=1—〔PH+PL〕∕2
PH=RH/n叫高分组通过率,RH:
高分组答对人数,n:
总人数的前27%。
PL=RL/n叫低分组通过率,RL:
低分组答对人数。
二、区分度
区分度是区分应试者能力水平上下的指标。
试题区分度高,可以拉开不同水平应试者分数的距离,使高水平者得高分,低水平者得低分,而区分度低如此反映不出不同应试者的水平差异。
试题的区分度与试题的难度直接相关,通常来说,中等难度的试题区分度较大。
另外,试题的区分度也与应试者的水平密切相关,试题难度只有等于或略低于应试者的实际能力,其区分性能才能充分显现出来。
≤D≤+1.00,区分度指数越高,试题的区分度就越强。
一般认为,区分度指数高于0.3,试题便可以被承受。
2、区分度的计算方法:
根本公式法:
D=〔H-L〕÷N〔D代表区分度指数,H代表高分组答对题的人数,L代表低分组答对题的人数,N代表一个组的人数即高分组与低分组人数之和〕。
极端分组法:
〔1〕主观性试题:
D=SH—SL∕n(WH-WL)
SH:
高分组得分总数,SL:
低分组得分总数,WH:
该题的最高得分,WL:
该题的最低得分,n为高分组〔或低分组〕的人数,即总人数的27%。
〔2〕客观性试题:
D=PH—PL,或D=RH—RL∕n〔3〕一般也可以用D=XH—XL∕X满计算。
XH:
高分组某试题的平均分,XL:
低分组某试题的平均分,X满:
该题的总分为。
三、信度
信度是指测得结果的一致性或稳定性,稳定性越大,意味着测评结果越可靠。
相反,如果用某套试题对同一应试者先后进展两次测试,结果第一次得80分,第二次得50分,结果的可靠性就值得怀疑了。
信度通常以两次测评结果的相关系数来表示。
相关系数为1,明确测评工具如试卷完全可靠;相关系数为0,如此明确该试卷完全不可靠。
一般来说,要求信度在0.7以上。
1、评价信度的方法:
〔1〕重测法,〔2〕复本法—副题,〔3〕折半法,或者说:
用再测信度、复本信度和内部一致信度三种方法来进展评估。
再测信度是指将同一试卷在一样的条件下对同一组考生先后实施两次,两次测评结果的相关系数。
复本信度是指用两份或几份在构想、内容、难度、题型和题量等方面都平行的试卷进展测试,测评结果之间的相关系数。
内部一致信度是指试卷内部各题之间的一致性,通常是将试卷一分为二,然后计算一半试卷与另一半试卷之间的相关系数。
2、信度系数γxx=ST2∕SX2ST2叫真分数方差,SX2为获得分数方差。
信度系数的最大值为1,表示测验的可靠性高,最小值为0,表示测验的信度低。
当γxx≥0.70时,测验可用于团体间的比拟。
当γxx≥0.85时,测验可用于个体之间的比拟。
四、效度
效度是一个测试能够测试出它所要测试的东西的程度,即测试结果与测试目标的符合程度.
任何测试工具,无论其它方面有多好,假如效度太低,测试的结果不是它要测试的东西(如用英语试卷测试学生的数学能力),那么,对目前所要测试的东西,这个测试将是无价值的。
由于心理现象本身的特点,测评的效度尤为重要。
心理属于精神方面的东西,目前人们还无法直接观察它,只能通过一个人的行为模式或者对测试题目的反响,来推论其心理特质。
如智力水于主要是借助于个体对一些问题的反响与正误等结果来推断的。
效度是一个相对概念,即效度只有上下之分,没有全部有效和全部无效之分。
效度从种类上可分为卷面效度、内容效度、构想效度、预测效度和共时效度。
试卷质量分析的两个类:
试题分析和试卷分析
一、试题分析
对试题〔考试〕的性质、来源、内容X围、难度等进展概述。
1、测验内容的覆盖面如何,
2、各知识点所占的比例是否恰当,
3、试题内容的选择是否合理,是否有错题,超纲等题目。
4、各层次行为目标所占的分数比例是否恰当。
如果是自命题,列出试题的双向细目表。
如果是非自命题,要对试题分析列出考查知识的细目表,或者是直条图〔各局部知识所占比例〕。
从效度、信度〔考试成绩〕,难度、区分度〔试题〕四个角度分析。
二、试卷分析
分定量分析和定性分析两局部。
〔一〕定量分析:
1、逐题统计分析〔可用列表法、或统计图法〕
填空题,统计答对率。
如:
题号
1
2
3
4
5
总计
全对人数
半对人数
答错人数
平均分
难度
选择题,按选项统计,如:
题号选项
1
2
3
4
5
A
B
C
D
平均分
难度
计算题,按等级统计。
如得零分人数,得总分为人数,得局部分的人数,计算出难度和平均分。
2、统计学生成绩频率分布情况〔次数分布图〕。
3、三率一分,即优秀率、与格率、低分段率与平均分。
要注明试卷的总分是多少,最高和最低分是多少。
〔二〕定性分析
1、诊断:
指出问题,分析原因。
问题应分共性和个性,找出共性问题与原因,教与学两方面都要分析。
2、制定措施:
改良、矫正。