教育测量.docx
《教育测量.docx》由会员分享,可在线阅读,更多相关《教育测量.docx(16页珍藏版)》请在冰豆网上搜索。
教育测量
第七章测验的编制与实施
•在教育与心理测量中,测验的编制是较为重要也是较难的一个环节。
对编制人员的相关知识和技能(教育与心理学知识、内容知识、测验编
制知识和技能)有着较高的要求。
一个好的测验是编制者的理论知识和实践技能的体现和结晶。
因此了解这方面的知识,不仅为日后自己编制
测验打下基础,也能为评价其他测量工具提供知识保证。
•测验的编制是一个非常复杂的过程,并没有一个完全统一的方法。
测验的性质不同,编制测验的具体方法各异。
但不管它们有多大的差异,
都得按照一定的理论基础、一定的程序去做。
本章所提供的方法就是一个一般程序。
第一节明确编制测验的目的
•确定目的是测验编制的第一步。
主要解决两个问题:
测量什么(What);所测量的对象是谁(Who)。
•一、测量什么
•涉及测量的目标和内容
•1、测验的目标
•测验的编制者首先要明确所要编制的测验是用来测量什么,是测能力、人格,还是学业成就,然后才能有的放矢地寻找测验的理论根据。
•不但要明确测量的目标,还要对测量目标加以分析,将此目标转换成可操作的术语,即将目标具体化。
•如美国著名测验学家瑟斯顿(L.L.Thurstone)通过因素分析,将智力分解为七种基本心理能力:
•语文理解──阅读时了解文字意义的能力;
•语词流畅──正确迅速拼字与敏捷联想词义的能力;
•数字运算──正确而迅速使用数字解答算术问题的能力;
•空间关系──运用感觉器官及知觉经验正确判断空间方位及各种关系的能力;
•机械记忆──用重复感知的方法记住事物的能力;
•知觉速度──迅速而正确地观察与辨别事物的能力;
•一般推理──根据已知条件推出新判断的能力。
•瑟斯顿根据上述七种因素于1941年编成了“基本心理能力测验”。
•就教育测量而言,其测量目标应能体现教学目标,能有效地促进教学目标的实现。
一个教育测验所测量的学习效果,应能忠实地反映教学目
标。
编制测验时首先要选定测验所欲测的教学目标,其次要使陈述目标的方式适合于测验的编制,使阐述的教育目标既明确又具有可测性。
•布鲁姆的教育目标分类体系为我们提供了一个比较科学的目标体系。
•布卢姆BenjaminBloom是美国教育心理学家,突出贡献是教育目标分类学和掌握学习理论。
•根据布卢姆的理论,知识可以分成以下三个领域:
•认知领域(CognitiveDomain)
•技巧领域(PsychomotorDomain)
•情感(态度)领域(AffectiveDomain)
•每一领域内又划分为学习的不同层次,而较高层次对应学科内较复杂的内容,也越接近对该学科的掌握水平(Mastery,台湾译作“精熟”或
“通达”)。
目前常用的认知领域学习水平分类
情感(态度)领域的学习水平分类
•描述人们在情感方面的反应方式、以及他们感受他人的苦痛与快乐的能力。
态度方面的目标通常针对态度、情感及感受方面的觉醒与成长。
•态度领域内的过程从低至高可分为五个层次:
•接受(Receiving):
是态度范畴内最低层次的过程,学生只是被动的要求专注。
•反应(Responding):
在这层次,学生不只对刺激作出反应,更可能主动参与学习过程。
•评价(Valuing):
学生可对一件物件、一个现象或一份信息给予评价。
•组织(Organizing):
学生把不同的价值、信息及意念摆在一起,并利用他们本身的来将他们容纳在一起。
比较、关联和引申所学过的内容。
•内化(Characterizing):
依据自己价值观形成信念并内化为品格,指导自己的言行
•2、测量的内容
•测量的内容是能体现测验目标的材料,也就是编选试题的材料或选材范围。
应注意测验目标与测验内容的区别:
测验目标是指学生的心智发展水平。
测验内容是指为了考察这些项目应选用哪些材料的问题。
确定测验内容的要求:
(1)体现测验目标的要求
(2)适合被试的认知水平
(3)符合课程标准的要求
(4)应保证对考察知识的覆盖面
•二、测验的对象
•任何一个测验,都有它的实施对象范围,世界上没有放之四海而皆准的测验。
人们之间由于存在年龄、教育水平、文化背景等诸多因素的不
同,为了平衡这些因素,编制测验时往往针对具有不同背景的人群设计不同的测验。
•比如韦克斯勒采用同样的智力结构,针对不同年龄的人群设计了不同的智力测验,针对同样的任务所选用的材料极为不同。
第二节设计测验蓝图
•一、设计测验蓝图的意义和作用
•为了使测验的取样对教学内容与教学目标有较好的代表性,既能覆盖学科教材的全部内容,又能反映各部分内容和各认知层次的相对比重,
还能确定各部分内容和各认知层次测验题目的数量比率,就必须设计测验蓝图。
如果将测验比作一项系统工程,那么,测验蓝图即可以看作是
一份工程蓝图,它是编制测验试题的指导和依据。
如果蓝图设计得准确、合理,只要测验编制者严格按测验计划编制试题,就能保证测验内容
具有适当的代表性,从而保证测验的质量,实现测验的目标。
•
•一份高质量的测验蓝图具有两个最基本的作用:
一是它为试题的编制提供了科学的指导,保证测验试题是所测量的教学内容的代表性样本,
且能反映出各部分内容之间的相对重要性,以便测验内容取样适当,提高测验的效度。
•二是由于明确规定了代表不同的知识内容的学习水平的试题分配比例,在保证测验效度的同时,保证测验的难度合理。
二、双向细目表及其设计
测验的蓝图一般用反映测验内容和学习水平的命题双向细目表表示。
(一)何谓命题双向细目表
命题双向细目表是一种考查的内容和考查的教学目标之间的列联表。
(二)双向细目表的构成
双向细目表具备三个要素:
教学目标、学习内容以及各学习内容对各教学目标所占的比重。
一般地,表的纵向列出的是待考察的教学目标或学生认知行为上要求达到的水平;表的横向列出的是要考察的教学内容;表的中
间所填数字表示由目标和内容共同决定的试题分数在总分中所占的比重。
•
•(三)命题双向细目表的编制
•1、确定测验内容要目,并把它们排列在表中最左边的一栏中
•如何确定测验内容要目,必须依据课程标准和教学大纲,并视学生的实际而定。
因为课程标准或教学大纲在整体上规定了该学科的性质及其
在课程体系中的地位、教学目的和任务、内容范围以及选择内容的主要依据、编排学科内容的顺序等,另外还对教学时数、教学活动和课外活
动、作业量和测验作出了安排,并提出了考试要求、运用教学方法教学手段和教学参考书的建议和指导等。
因此课程标准和教学大纲不仅是教
师工作的指南,同样也是测验的根本依据。
•测验内容要目可以按章节罗列,也可以按课程的内容结构划分。
•2、确定该科目应考查的目标层次,并把这些目标层次从低级到高级依次安排在表中顶端第一行的有关格上
•确定某科目的掌握目标层次时,最好要从学科内容特点出发,以课程标准或教学大纲中确定的教学目标为依据,借鉴布鲁姆等人把教育目标
分为认知、情感和动作技能三个领域的分类方法,有创造性地进行,以符合实际需要。
•国内有关教育研究人员借鉴布鲁姆的教育目标分类理论,结合我国国情和学科特点进行研究,对教育目标分类学提出了改进方案。
他们认为
,在“高级”学习水平中,布鲁姆提出的“分析”、“综合”,是解答一个综合问题的两个方面,这两方面往往同时出现在解决同一问题的过
程中,很难人为地划分,因此,可以合为一个层次。
综合如果是创造性运用的话,它不会比“评价”层次低。
“评价”是在分析综合的基础上
提出见解,作出判断,它在一定程度上意味着发挥学生在学习中的创造性。
基于这种认识,他们把教育目标定为“识记、了解、简单应用、综
合应用、创见”5个层次。
我国高等教育自学考试大纲则把考查目标划分为“识记、领会、简单应用、综合应用”4个层次。
当然,测验目标还
应当考虑把动作技能和情感态度包括进去。
•3、确定各项测验内容要目下的权重。
根据课程标准或教学大纲所规定的教学时间和分配比例,以及测验性质和其他因素,对列入测验范围
的内容要目或内容点,赋以合适的相对比重即权重。
该比重是测验试题数量、测验时间、分数分配的依据。
•4、把每一项考试内容的分数比重逐一分配到若干必要的测验目标层次上去,形成网格状的分数分配方案,即命题双向细目表。
在对目标予
以相对比重时,除考虑学科特点之外,也应强调高级目标的相对重要性,以促进学生智能的发展。
第三节编制测验试题
•一、试题形式及其选择
•鲍勃海姆(Popham)曾经将题目形式分为两种类型:
要求被试选择的和要求被试回答的。
有人称之为选择型和供应型。
这两种类型的最大区别
在于前者提供备选答案,而后者则是被试根据要求自己写出答案。
一般来说,同样的测验内容,采取前一种类型时测题的难度较低。
前者由于
答案明确,评分较为客观,因而又被称为客观性试题;后者无标准答案,评分者主观因素难以避免,因而又被称为主观性试题。
客观性试题和
主观性试题是依据试题评分是否客观来确定的。
•
(一)客观性试题的功能与特点
•客观性试题适合测量记忆、领会、应用、分析几个层次的目标。
•客观性试题答案明确、回答简便,在限定的测验时间内可以包含足够的试题数量,保证知识覆盖面。
客观性试题答案确定、评分简单、准确
,并可利用计算机评阅试卷,节省人力物力财力。
•客观性试题不适合测量综合、评价层次,其编制较为困难,较费时间,且对编制者要求较高。
此外,客观性试题仍受到受测者阅读能力影响
,而且难以排除对试题的猜测。
如果测验只用或绝大多数时候只采用这种试题形式,就有可能影响平时的教学,压抑师生的创造性思维,鼓励
学生单纯记忆等。
•客观性试题一般包括选择题、判断题、匹配题等
(二)主观性试题的功能与特点
•主观性试题适合干测量较高层次的认知目标,尤其适合测量综合、评价两个层次的认知目标。
它能够考察学生的理解和表达能力,像组织知
识、整理论据、构思、评价和表达观念等能力。
•这种试题编制容易,省时、省力。
还可鼓励学生对所学知识加以独立思考,表达自己观点,有利于培养和评价学生创造性思维,还可间接了
解学生的情感、态度、价值观等情意性特征。
•但主观性试题没有固定明确的答案,评分易受评卷人的主观因素影响,而且试题的回答耗时较多,在限定时间内,题量少,因而知识的覆盖
面小,内容样本缺乏代奏性。
它还容易造成学生以模棱两可的叙述掩盖其知识缺陷,测验成绩可能受学生书写和写作能力的影响。
一般包括:
填空、简答、论述、计算、设计等
二、几种常用的题型介绍
•
(一)选择题
•1、选择题的构成
•选择题是客观性试题中应用最为广泛的一种题型。
它一般是由题干和选项(备选答案)两部分构成。
•题干的表述有的用不完全陈述句,有的用一般疑问句。
•选项部分由正确项和干扰项或诱答项所构成。
•2、选择题的优缺点
•见教材P129
•3、编制选择题应注意的事项
•见见教材P129
•
(二)判断题的编制
•判断题通常要求被试在两种可能的答案(对或错)中选择一个,因此又被称为是非题或正误题。
•判断题的优缺点(见教材)
•编制判断题应注意的问题(参教材)
•(三)填空题的编制(参教材)
•(四)论文性试题的编制(参教材)
三、初步组成测验
•编写和收集试题是一个耗时费力的工作,一般初选题目的数量应是测验计划题目数量的2-3倍,以备修改和删减。
•测题的来源:
一是直接选用国内外优秀的测题;二是修改他人的测验中的有关测题;三是自己编写。
•测题初步形成之后,编制者应自己或请资深人员对测题进行初步检查。
检查的方面主要包括:
一是测题编制技术性问题。
如词汇是否恰当,
语法是否有问题,句子是否产生歧义,是否涉及到文化或年龄等方面的偏见等。
二是初步判断测题是否有效和可信。
第四节预测
•一、预测的意义
•预测是标准化测验编制中的关键环节。
测题初步确定以后,在小样本被试内试验一下,以获得测题性能优劣的客观性资料,同时也为进一步
筛选题目提供依据,而不是凭测验编制者的主观臆测来决定。
•二、预测阶段的主要任务
•预测阶段主要有两项工作:
一是预测的组织与实施;二是预测后的质量分析。
•
(一)预测的组织与实施
•1、预测对象的选择
•接受预测的人员必须能在各种属性上(年龄、性别、职业、文化程度、居住条件等)都能充分代表以后正式应试者的各种属性。
•2、预测的实施
•
(1)预测应力求按正规的要求进行,使其与将来正式测验的情况相近似。
•
(2)预测的实施在时间上应使被试有足够的时间尝试每道试题,以便为接下来的试题质量分析提供足够的信息。
•(3)在预测实施的过程中,应就被试的反应情况随时加以记录,如一般被试完成预测所花费的时间、题意有哪些不清、长时间的停顿等方面
,都要加以记录。
•
(二)预测结果的质量分析
•1、试题的难度分析
•2、试题的区分度分析
第五节试题编辑
•试题的编辑就是把经过预测以后证明有价值的题目按一定的原则排成有组织的测验。
它要解决的问题有两个:
一是题目的选择;二是测验项
目的编排。
•一、选择试题应注意的事项
•
(一)试题类型要恰当。
不同的题目类型有不同的测量功能,不同的测验内容需要不同的题目类型加以配合。
(二)试题的内容取样应有代表性。
能够体现测验的内容范围和要求,有较大的覆盖面。
•(三)试题的数量要恰当。
既要使大多数被试能在规定的时间内完成解答,又使他们感到时间并不十分充裕。
•(四)试题的难度要合适。
试题的难度必须要适合大多数被试的水平,由易到难,有一定的分布范围,能测量出不同考生在知识和能力方面的
差异。
在一个测验中,应做到既有能反映课程中基本要求的试题,又有用来检查学生学习知识的灵活性和运用所学知识综合分析问题、观察问
题和解决问题能力的综合题,还有需要学生运用所学理论、思想或概念,经过逻辑推理、判断或证明才能作出正确回答的提高题。
至于各类难度
不同试题的比例,视测验对象和目的而定。
•(五)各个试题之间应保持互相独立。
不要使一个试题的解答对另一个试题的解答有暗示作用。
•(六)试题的表述必须清楚明白。
试题中用词不能模棱两可,文句要简明扼要,对解题要求的叙述必须准确、明了。
(七)题型应多样化。
要有客观性试题,也要有一定量的主观性试题。
各类试题所占的比重应恰当。
测验编制者应根据测验各部分内容所
要考查的目标,结合各种题型的特点,遵循有关题型的命题要求来选择和确定测验的具体题型。
•(八)评分标准应合理,命题应有利于制定清晰可辨、公平合理的评分标准。
•二、测验的合成与编排
•合成测验时应注意如下3点:
(一)先易后难。
即题目的排列应按先易后难的顺序。
在测验开头应安排几道较容易的试题,而后逐渐增加题目难度。
这样可以使被试熟悉
作答程序,解除紧张情绪,建立信心,较快进入测验情境。
同时还可避免被试在难题上耽误时间过多而影响后面试题的解答。
在测验最后安排
少数难度较大的试题,以测出被试的最高水平。
(二)同类组合。
即尽可能将同一类型的试题组合在一起。
这样使每一类型的试题仅需作一次回答说明,也使被试可用相同的反应方式来回答,同
时可以简化计分工作和对测验结果的统计分析。
(三)讲究测验题目编排的方式。
常见的题目编排方式有两种:
一是并列直进式,将整个测验依据试题材料的性质,分为若干个分测验;对于同一分测验的测验题
目,依其难度由易到难排列。
(韦克斯勒量表)二是混合螺旋式:
先将各种类型的试题依照难度分成若干不同的层次,再将不同性质的试题予
以组合,作交叉式的排列,其难度则渐次升进。
这种编排的优点主要是让被试不至于在一段时间内只对同一性质试题作答,保持被试的作答兴
趣。
(比-西量表)
•三、编制复本
•为增加实际的效用,一种测验至少要有等值的两份,所谓等值需要符合下列条件:
•
(一)各份测验测量的应是相同的心理特质
•
(二)各份测验具有相同的内容和形式
•(三)各份测验不应过多重复的项目
•(四)各份测验长度相等
•(五)各份测验应具有大体相同的难度和区分度
•如何编制复本?
•首先需要准备足够数量的试题,其次将所有项目按难度排序,再次按一定的规则分成不同的等份。
•比如要分成两个等值的测验,可采用下面的分法:
各项目按难度排好顺序,并标上1、2、3、4、5、6、7、8、·············
,
•A本:
1、4、5、8、9、12、13、16、17、20·············
•B本:
2、3、6、7、10、11、14、15、18、19·············
•如果要分成三个等值的测验,可采用下面的分法:
•A本:
1、6、7、12、13、18、19、24·············
•B本:
2、5、8、11、14、17、20、23·············
•C本:
3、4、9、10、15、16、21、22·············
•复本编制完成后一般应再测验一次,检验它们之间是否等值。
第六节测验的标准化
•一个测验的好坏,取决于对该测验的标准化水平。
所谓标准化是指测验的编制、实施、评分以及测验分数的解释的一致性。
具体地说,测验
标准化包括一下内容:
•
(一)测验内容的标准化
•
(二)施测过程的标准化
•(三)评分环节的标准化
•(四)分数解释的标准化
•
(一)测验内容的标准化
•标准化的首要前提,是对所有被试施加相同或等值的题目,只有测验内容相同,测验分数的比较才有意义。
•
(二)施测过程的标准化
•标准化的第二个条件是所有被试必须在相同的条件下受测。
•1、相同的测验情境
•2、相同的测验时限
•3、相同的指导语
•指导语一般包括两个方面:
一个是针对被试的;一个是针对主试。
•针对被试的指导语包括:
测验的目的、测验的时限、回答的方法、计分的方法。
•针对主试的指导语包括:
测验场所的安排、测验材料的分配、计时和计分、意外情况处理的原则等。
•(三)评分环节的标准化
•评分的客观性是标准化测验的第三个条件。
评分的客观性意味着两个或两个以上的评分者对同一份测验或同一个项目评定的一致性。
只有当
评分是客观的时候才能将分数的差异归于被试本身的差异。
•客观性评分要求:
•1、制定标准答案和评分规则,对于客观性试题来说,标准答案就是正确反应的号码或字母;问答题记分规则包括正确答案和允许变化的范围
;论文性试题的评分规则包括一致可接受答案的要点;人格测验没有正确答案,记分表上指明的是具有或缺少某种人格特征者的典型反应。
•2、对被试的反应要及时清楚地记录,尤其是对于口试和操作性测验更是如此。
•(四)分数解释的标准化
•测验分数的解释涉及到测验量表和常模的问题。
•何谓量表?
何谓常模?
•所谓测验量表是指用以测量的准尺,它是一个有单位和参照点的数字连续体,将被测量的事物置于该连续体上,看它离开参照点多少单位的
距离,便得到一个数值。
在心理与教育测验中,常用的测验量表有百分等级量表、标准分数量表、T量表、发展量表、智力商数量表、年级量
表、年龄量表。
•所谓常模通常是标准化样本组在测验上实际得到的分数的分布。
它是解释测验结果的参照指标。
一个人的测验分数通过与常模比较,获得对
于这个常模团体来讲的相对位置。
所以常模对于测验来说非常重要。
•建立常模应注意的问题:
•1、选择合适的常模团体
•常模团体是指具有共同特征的用来获得常模的某群体样本。
•为了选择一个好的常模团体,一定要注意以下几点:
•a群体构成的界限必须明确。
•b必须是所测群体的代表性样本
•c取样过程要明确有详尽的描述
•d样本大小要适当
•2、常模团体应是现时代的
•3、注意一般常模与特殊常模的结合
第七节鉴定测验、编写测验说明书
•测验编好后,必须对其可靠性和有效性进行鉴定,以便确定该测验是否可用。
对测验的鉴定主要是确定其信度系数和效度系数。
•一、信度
•二、效度
•三、测验说明书
•说明书包括以下内容:
•1、测验的目的与功用
•2、对测验内容和作答方法的说明
•3、测验的标准答案和评分办法
•4、关于测验的信度、效度资料的说明
•5、常模表及其说明
第八章测量分数的整理和转换
第一节教育测量分数的整理
v一、检查分数
v二、组合分数
v三、整理分数
第二节教育测量分数的转换
v一、原始分数及其局限性
v1、何谓原始分数
v原始分数(rawscore)就是指按测验评分标准对被试所作的回答和反应所评的分数。
v2、原始分数的局限性
v
(1)原始分数位置含义不明确
v
(2)原始分数不可比
v(3)原始分数不可加
v二、导出分数及其应用
v
(一)何谓导出分数
v有原始分数按一定规则转换成的量表分数就叫导出分数。
v常用的导出分数有百分等级分数、标准分数、T分数等。
v
(二)几种常用导出分数
v1、百分等级分数
v
(1)百分等级的含义
百分等级也称百分位,是一种地位量数。
百分等级反映的是某个观测分数以下数据个数占总个数的比例的百分数,在0~100之间取值
。
v例如,在200名学生参加的某次语文水平测验中,有30%的学生其成绩低于60分,有50%的学生其成绩低于72分;有95%的学生其成绩低于85
分;那么,这三个测验分数在团体数据中所处的百分等级分别是30、50和95。
v
(2)百分等级计算
v对于未归类的一大批观测数据,可以精确地计算出各个观测数据的百分等级PR。
其步骤如下:
第一步:
把观测数据从大到小依次排列
v第二步:
按不同的数据逐个地统计次数(不必分组归类),并把它们列表记录。
v第三步:
从低端开始向高端方向,计算各个观测点数据以下的累积次数(不包括本得分点的次数)。
v第四步:
计算各观测点数据的“以下累积相对次数”,即比例数。
计算方法是把以下累积次数除以数据总个数n。
第五步:
确定各
观测点数据的百分等级计算方法,即把各数据的“以下累积相对次数”乘上100即得之。
v(3)百分等级应用
a.成绩的相对评价与记分
评价学生的学习成绩,有绝对评价和相对评价两种。
利用测验原始分数直接评价学生的学习情况,往往是绝对评价;根据原始分数在次数分布
中的相对地位来评价,则是相对评价。
由于测验分数与命题难度有关,有时从卷面分数难以客观比较不同学科的成绩水平,因此,欲客观了解
学生的原始分数在学生成绩总体中所处的地位高低,可借助百分等级这一位置信息。
vb.心理与教育测验的常模
常模是用来解释测验结果的数据资料。
在制定测验常模时,其中有一种方法是通过有效的抽样测试,取得测验原始数据,并且在测验原始分数
和百分等级之间建立对应关系,用以解释测验分数。
这种常模称为百分等级常模。
它在教育与心理测验中有特殊的使用价值。
在智力测量工具
中,我国引进与修订的瑞文标准推理测验常模资料就是按不同年龄组建立百分等级常模,以百分等级位置信息来解释和评价人的智力发展水平
。
v(4)运用百分等级分数应注意的问题
va、百分等级分数是一种顺序量表
vb、百分等级对两级原始分数反应迟钝
vc、百分等级对原始分数较为密集的地方反应过于灵敏。
v2、标准分数
v
(1)标准分数的含义
v标准分数又称为Z分数,