大学生教育测量与评价期末复习资料.docx

资源描述

大学生教育测量与评价期末复习资料.docx

《大学生教育测量与评价期末复习资料.docx》由会员分享，可在线阅读，更多相关《大学生教育测量与评价期末复习资料.docx（15页珍藏版）》请在冰豆网上搜索。

大学生教育测量与评价期末复习资料.docx

大学生教育测量与评价期末复习资料

教育测量与评价

第一章教育测量与评价的学科发展

1.测量:

从广义上讲，就是根据某些法则与程序，用数字对事物在量上的规定性予以正确和描述的过程。

2.测量的要素:

量具、单位、参照物

3.教育测量，指针对学校教育影响下学生各方面的发展，侧重从量的规定性上予以准确和描述的过程。

4.教育评价:

是指按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。

5.教育测量与教育评价的实际联系与区别:

教育测量可以为教育评价提供价值判断的基本数量事实，教育测量是教育评价的基础，教育评价往往是教育测量过程的延续，是对测量结果的解释与应用，并朝着价值判断与释放教育功能的方向拓展。

6.中国是考试制度的发源地:

西周选士是我国考试制度的萌生阶段

7.中国科举制度:

中国古代科举考试制度对世界教育、政治、文化，尤其是考试制度产生过重大的影响。

8.教育测量学科的诞生:

美国心理学家桑代克，《精神与社会测量导论》，首次较系统地介绍了教育统计方法及其编制测量的基本原理，它标志着以科学理论为指导的教育测量理论的诞生。

9历史意义:

美国的“八年研究”是教育评价的催生剂。

10.泰勒在“八年研究”中提出了评价活动原理和课程编制原理，形成了“行为目标评价模式”，被称为当代教育评价之父。

第二章教育测量与评价的类型与功能

1.教育测量与评价的主要类型

⑴按测量与评价在教学中运用的时机分类:

①形成性测量与评价:

是在教学过程中经常实施的，在性质上大致相当于现在的中小学单元测验。

目的:

对于教师而言，可以获得教学过程中连续性的反馈，了解学生的学习效果、特点和困难等信息，作为随时修正自己教学的参考。

对学生的学习，也可提供反馈信息，学生可以根据反馈结果获知自己学习后的表现情况，从而肯定或修正自己的学习方式。

②诊断性测量与评价

③终结性测量与评价:

用于教学结束后在性质上相当于现在学校中所举行的期末考试。

目的:

Ⅰ.在教学目标之下，检查学生一学期学业达到了什么程度，从而判断教学效果的得失。

Ⅱ.根据结果，评定学生的学业成就，并将评定结果通知学生家长或记入档案。

⑵按解释测量结果和评价结果时的参照点分类:

①常模参照测量与评价

②标准参照测量与评价:

也称为目标参照测量与评价，是将被试的表现与既定的教育目标或行为标准相比较，以评价被试在多大程度上达到该标准。

（学校的教育测量与评价，主要目的是为了确定学生达到教学目标的程度，考查学生对知识技能的掌握程度，因此，一般都采用标准参照测量与评价）

③潜力参照测量与评价

⑶按测量与评价被试行为表现的性质分类:

①最佳行为测量与评价②典型行为测量与评价

⑷按测量与评价的内容分类:

①智力测量与评价

②能力倾向测量与评价

③成就测量与评价:

目的在于测量评价个人在接受教育或训练后的成就。

常见有两种类型:

Ⅰ.学科成就测验:

旨在测量与评价被试在某一学科上的学习成就。

Ⅱ.综合成就测验:

旨在评价与测量被试在多个学科或综合学科上的学习成就。

综合成就既可以单个测验，也可以成套测验。

④人格测量与评价

2.教育测量与评价的主要功能

①实现教育判断的功能

教育测量与评价的最基本、最原始、最现实、最普遍的功能，就是实现教育判断。

它包括测量评定的功能、事实判断的功能、价值判断的功能、问题诊断的功能、区分选拔的功能。

②改进教师教学的功能

③促进学生学习的功能

④行使教育管理的功能

第三章教育测量与评价的质量特性

第一节信度

一、信度，简单的说就是测量结果的可信程度。

信度指的是测量结果的稳定性程度，记为r

。

也就是说，如果用同一测量工具反复测量同一种特质对象，则多次测量结果间的一致性程度就叫信度。

二、信度的估计方法。

（一）重测信度：

重测性都指的是用同一个量表（测验或评价表）对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。

公式

公式中，n为被试的数量，X

是每个被试第一次考试分数，Y

是每个被试第二次考试分数。

重测信度有个基本假设，那就是假设某测验所要测量的潜在特质，短期内不会随着时间推移而改变。

因此重测信度的用途也在于估计测验结果（以测验分数表示）经过一段时间后是否仍然维持稳定、一致的特性，所以又称为稳定性系数。

（二）复本信度

所谓复本测验是指在试题格式、题数、难度、指导语说明、施测要求等方面都相当，并且都用来测量相同潜在特质或属性，但试题又是不相同的测验，复本测验也称作平行测验。

复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的相关系数。

实施复本测验有两种方式：

一种是在同一个时间连续施测，另一种是间隔一段时间后施测。

前者主要可以反映出测验内容造成的误差的多少，也就是说可以反映出两个测验是否是真正的平行测验，所以这种复本信度称作等值性系数。

（三）同质性信度

同质性信度也叫内部一致性信度，它是指测验内部所有题目间的一致性程度。

1.分半信度。

分半信度指的是将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。

斯皮尔曼—布朗公式

公式中，

为整个测验的信度系数，

为两个“半测验”上得分的相关系数。

（1）弗朗那根公式

（2）卢仑公式

2.库德—理查逊信度。

该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。

（1）KR

公式

公式中，KR

为测验的信度，K为题目数，

和

分别表示答对和答错第i题的被试人数比例，

为测验总分的方差。

（2）KR

公式

公式中，KR

为测验的信度，

是全体被试测验总分的平均数，其它符号的含义与

（1）相同。

3.克龙巴赫α系数

当测验题型较多，并非都是二分记分题时，估计测验信度可采用克龙巴赫α系数。

公式

（4）评分者信度。

评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。

公式

公式中，W为肯德尔和谐系数，K为评价者的人数，N为被评价的试卷（或作品）个数。

S为每一个被评价对象的K个等级之和的离均差平方和。

即：

公式

为第i个被评价对象的K个等级之和。

第二节效度

1、效度，就是一次测量的有效程度，严格的说效度是指一个测量或量表实际能测出其所要测量的特性的程度。

内容效度就是测验题目样本对于应测内容与行为领域的代表性程度，如果是教学情境下的成就测验，那么其内容效度就是看测验题目样本体现教学目标与教材要求的程度。

因此内容效度主要适用于教育测量（尤其是学业成就测验）的情境。

内容效度也适合于某些用于选拔和分类的职业测验，这种测验所测的内容就是实际工作所需的知识和技能。

二、结构效度的验证方法：

测验内部寻找证据法，这种方法是通过研究测验内部结构来验证测验的结果效度。

因素分析法。

因素分析法是目前研究结构效度最常使用的实证方法之一。

第三节难度

一、难度，就是被试完成题目或项目任务时所遇到的困难程度，定量刻画被视作答一个题目所遇到的困难程度的量数就叫题目的难度系数，也常称为难度值，用符号P表示。

二、难度系数的计算方法

1.二值记分题的难度值计算：

公式

（P为难度值，N为被试人数，K为答题答对该题目的人数）

P值介于0与1之间，P值越大，表明通过这个题目的人数比例越大，P值越小，表明通过该题目的人数则越少。

2.多值记分题的难度值计算：

公式

P代表题目难度，

为全体被试在某题目上的平均得分，X

为该题目的满分。

3.难度值的其他计算方法：

公式q=1-Pq为失分率。

2、测验题目的恰当难度和恰当难度分布

在常模参照测验中，测验的目的主要是区分学生能力或成就的高低，因此教师所期望的难度系数以接近0.50左右为理想，此时的试题最能够区分学生水平的高低，但是在标准参照测验中测验的目的是检验学生们是否已达到教学目标规定的掌握程度，因此教师所期望的是学生都能够在教学之后掌握所有的教学内容，也就是说学生在试题上的表现应该都是100%答对，亦即答对率接近一。

筛选参照测验，针对划界点水平来确定恰当难度。

第四节区分度。

一、题目区分度就是题目区别被试水平能力的量度，常记为D。

区分度的实质就是题分与总分的相关程度。

区分度的值域范围在-1.00~+1.00之间。

通常D为正值，称作积极区区分，D为负值，称作消极区分，D为0，称作无区分作用。

具有积极区分作用的项目，其D值越大，区分的效果越好，具有消极区分作用的项目，其D值越小，区分效果就越好。

二、区分度的计算

3、做题步骤：

选公式，计算，显著性判断（P70），下结论。

1、相关法

（1）点双列相关系数：

（1，0）题型，连续变量

公式中，

为点双列相关系数，

为此题对的人平均总分，

为失分平均总分，所有被试总分标准差，p得分率，q失分率。

（2）二列相关系数：

总分，等级评分。

公式中，

为二列相关系数，Y为正态分布下百分比p与q分割点所在位置的曲线高度（有正态分布表给出，书本附表二），其余符号同

（1）。

（3）积差相关系数：

（k，0），分值评分。

可简化为

公式中，

为全体被试在某题目上得分的标准差，

为全体被试在某题目上得分的方差，

为全体被试总分的标准差，

为全体被试总分的方差，

是由被试总分减去某题目得分而获得的一个新变量（D=X-Y）的方差。

（

小题分，

总分。

）

项目区分度评价标准：

区分度值

评价

区分度值

评价

0.40以上

优良

0.20-0.29

尚可，需修改

0.30-0.39

合格

0.19以下

一般需要淘汰

第四章

测验题目分为两大类：

客观性试题和主观性试题

客观性试题：

（一）选择题：

运用最多

编写原则：

（1）意义完整，并能表达一个确定的问题；

（2）题干简明；

（3）题干不要滥用否定结构，要尽可能地采用正面陈述；

（4）诱答项具有似真性；编制良好选择题的技术取决于有效的干扰选项的编写。

增加干扰选项似真性的具体方法有：

①使用学生共同的错误观念或过失来作为诱答项

②以学生惯用的模糊性用语叙述诱答项

③在正确选项和又打象中使用同样精确的重要性等堂皇的用语来叙述；

④诱答项的长度和措辞的复杂性与正确选项相似；

⑤在右打向中使用额外的线索；

⑥保持选项之间的同质性

（5）不能对正确答案有任何暗示。

（二）是非题，又叫做二项选择题，通常是给被试一个句子，要被试做出正误的判断；

编写原则：

（1）考核的内容应是重要的知识，应有考核价值；

（2）题目应该是测量理解能力，而不应测验记忆性的知识，更不要直接焯六教科书中的知识，以免引导被试死记硬背二不求理解；

（3）一个题目中只能有一个中心问题或一个重要概念，避免两个以上的概念在同一题中出现；

（4）试题应做到是非界限分明，用词准确，避免模棱两可的语句，不致引起对正确答案的争议；

（5）题目承受应简单明了，避免使用复杂的句子结构，以减少因被试的阅读能力而对测量产生的不良影响，应尽量采用正面叙述，避免用否定和双重否定的语句；

（6）正句和误句的排列要随机化，且数量应大致相等。

（三）填空题

编制原则：

（1）题意要明确，限定要严密，使空白处应填的答案是唯一的；

（2）空白中所填写的烟是关键词语，而且要和上下文有密切的关系，使被试不至于有填写困难；

（3）题目中空白地方不能太多，以免句子变得支离破碎，不利于被试理解题意；

（4）尽量将空白放在句子的后面或中间，而不要放在句子开头；

（5）所有空白处的线段长度应当一致，不能随正确答案文字的多少而长短不一，以免产生暗示作用；

（6）若答案是数字，应指明单位和数字的精确程度。

（四）简答题

编制原则：

（1）问题的叙述要明确，要确实能使被试用简单的语言来回答；

（2）而问题和答案应该只有一个，并且答案要简短具体；

（3）避免出只考机械记忆的题，应注重知识的应用；

（4）在考查某公式的应用时，不要给太复杂的数字，以免给计算带来麻烦；

（5）尽可能使用直接问句来提出问题。

主观性试题：

（1）论述题

编制原则：

（1）试题应该用来测量较高层次的教学目标，像综合、评价等目标层次，限于那些客观题不能测量的学习成就；

（2）要明确而系统的陈述问题，使被试能清楚的了解题目的要求；

（3）一般应采用答案具有统一定论的试题；

（4）当有多个论述题时，可以设置一个必答的论述题，剩下的题目可允许被试选择作答。

（5）最好在题目中能给出回答本题所需的参考时间；

（2）作文题

编制原则：

（1）根据考试目的，考试对象来确定作文文体和要求；

（2）根据社会需要，现实生活和学生实际设计命题，作文命题要直接测量语文素养和书面表达能力；

（3）作文命题不能过于抽象，要让学生有话可说，有内容可写，有思路可走，有发挥的余地；

（4）避免材料或话题出现测验偏倚，再确定选材和写作意图时；要考虑对所有被试都是公平的，并且试题应符合被试的心理特征；

（3）表现性测验题

是指以行动、作品、表演、展示、口头回答、操作、写作、科学研究、制作等更真实的行为表现，来测量与评价学生在真实情境或模拟真实情境下的所知与所能的一种测验类型。

类型：

（1）纸笔的表现性测验

（2）辨认的表现性测验（3）结构化的表现性测验（4）模拟情境的表现性测验（5）工作样本的表现性测验

编制原则：

（1）测验材料和要求应与日常教学内容和目标有关联，关注重要的学习结果；

（2）将考察重点放在测量复杂和高层次能力上；

（3）将干扰测验目的的无关困难降到最低；

（4）测验尽可能选择真实的情境或问题；

（5）提供必要的操作指导与让学生了解作业任务和期望内涵；

（6）指导语简单清晰，向被试明确说明实际的情境，任务以及评价的标准；

（7）确定科学合理的计分方法。

第五章制定教育评价表的一般方法和步骤

第一节教育评价表的基本类型与制定原则

1.教育评价表P112

是根据教育教学的特性编制而成的，它由评价指标、评价项目、评价标准、评定等级、指标权重等构成。

它是进行教育测量与评价的工具，为了使评价的接过更为可靠，需要对教育评价表进行更深入的研究。

2.制定原则P114

教育规律性和导向原则；

科学性和可操作性原则；

超前性和发展性原则；

第二节教育评价表的构成及编制方法

1.编制方法P115

确定教育评价的对象和目标；

初拟评价指标；

筛选评价指标（经验法、调查统计法）；

确定评价指标权重；（关键特征调查法、两两比较法、专家评判平均法、倍数比较法）；

设计教育评价标准；

整合、修改与完善教育评价表；

第八章学生课业发展的测量与评价

一、课业考评

指对学生的课程学业所取得的发展进步进行考核评价。

在课业考评过程中，考试是最常用的一种测量与评价手段。

二、我国学校传统课业考评目前存在的问题

1.考试评价改革的发展很不平衡。

2.考试评价的指导思想与学校教育理念、目标不适应，把考试的教育功能简单化，考试的评定功能绝对化。

3.考试评价只注重考试结果量化的分数表达，不重视分析研究学生的试卷，不重视学习过程和发展进步在质性方面的描述评价；只重视对认知领域可测性内容的考试测量，不重视学校教学目标的广泛性和学习内容的丰富性；只重视用抽象概括化的考分来评价学生的学习结果，不重视采用多种方法来对学生发展进步作实质性的描述评价；只重视学习的共性目标，不重视学生学习的特点、发展进步以及潜能结构作个别化的评价。

在这种单调和抽象的课业考评的方法下，容易忽视了学生在心理发展和智能结构方面差异的多面性和客观性。

考试命题常带有随意性，缺乏基本的命题结构和起码的教育测量与评价学当面的质量要求。

三、国外课业考评改革的主要经验

1.减少考试次数，强化课程作业，把经常性评价同若干关键年龄段所举行的校外统一考试相结合，以便在宽松自主的教育环境下全面落实教育目标。

2.小学阶段宽松、初中阶段次之、高中阶段相对绷紧。

3.课业考评方法多元化，教学评价整合化，尤其是表现性测验和实验技能教学考试受到高度重视并被广泛采用。

4.学习成绩和学生素质发展的评价大量使用观察表现的等级评定量表、学生参与评价、记录成就与成长的多功能的学习成绩报告单得到普遍重视。

5.考试评价结合学生年龄特征和学习内容等特点是采用游戏化的、活动化的和动态化的评价方法。

四、课业考评改革的主要目标

1.要实现考试观向发展性评价观转变。

2.要努力实现从重视“掌握性结果”的评价转变到既重视“掌握性结果”又重视“发展性结果”的评价。

3.内容要从认知领域转变到涵盖学习结果的更广泛的教育目标领域上来。

4.要努力实现从表征性分数机制到实质性内容机制的转变。

五、评价学生课业发展进步的主要方法

1.客观题评价法与主观题评价法

2.表现性测验评价法

①　含义：

指的是客观测验以外一类的以行动、作品、表演、操作、写作、制作档案资料等更真实的表现来展示学生的口头表达力、文字表达力、思维思考力、随机应变力、想象力、创造力、实践能力及学习成果与学习成果与过程的测验。

②　口头测验:

常用于测量那些用纸笔测验难以考查的知识、技能及情感（口试、课堂提问、论辩或辩论）

③　论文题测验：

不仅可以考查各种认知学习问题，而且在组织、架构、表达、创意及完整思考历程等能力特性的测量与评价方面都有着独特的作用。

（扩展反应论文题又称申论题与限制反应论文题，短文题考试与写作测验）

④　实验技能教学考试评价

3、评定量表评价法

4、档案袋评价法

①　含义：

是教师依据教学目标与计划，请学生持续一段时间主动收集、组织与省思学习成果的档案，以评定其努力、进步、成长情形的一种评价方法。

②　按内容侧重点可以把档案袋分为成果型、过程型和综合型。

成果型主要展现学生的优秀作品与学习成果。

过程型重点是呈现与展示学生学习进步、探索、努力、进取、反思、达成目标与成就的历程。

综合型是兼具成果型和过程型，或者是兼具多个主题的学习档案袋。

③　按生成结构可以分为结构型、半结构型和非结构型。

结构型是学生在制作档案袋之前，教师或教研人员就已经对档案袋的生成给予结构型较强的设计。

④　按用途分可以分为评价型、展示型、反思学习型。

5、动态评价法

第九章课堂教学的测量与评价

课堂教学测评

是以现代教育教学理念、现代教学观为依据，运用现代教育评价理论和科学评价标准及方法，按照规范的评价程序，对课堂教学活动的状态和效果进行价值判断的过程。

六大系统（矢量系统、理念系统、定位系统、条件系统、运行系统、输出系统）

运行系统：

教学组织

（教学组织是联系教师的教和学生的学的纽带，是教师根据一定的教学思想、教学目的和教学内容及教学主客观的条件来组织安排教学活动的方式。

）

教学组织的观测点：

在教学环节的组织上，“自然地有序”是最高法则，“问题导学式”的分布课堂可以被实践。

在教学内容的层次组织上，进行“编码式”精心加工，引领学生对教材内容进行“主编式”的深度解读。

课堂常态管理要在做好时间管理、信息管理、环境管理、事件管理等具体工作的基础上，把握科学性与艺术性的原则，关注与课堂教学发生关联的全过程。

输出系统：

教学质量（“全面质量”“学生收获质量观”）

三维立体质量标准”：

一维是纵向层面的课堂教学比较适宜的深度，体现为问题解决的分析过程；

二维是横向层面课堂教学比较适中的广度，体现在课堂内容的知识面；

三维是课堂教学的厚度，体现在课堂教学的思想性和文化性。

第十章教师发展的测量与评价

意义：

有利于贯彻和落实国家教育法规

有利于提高教师的素质和工作积极性

有利于提高教师的教育教学质量

有利于加强教师队伍建设和科学管理

内容：

教师基本素质；

教师工作过程（备课、上课、辅导作业、课外活动、

学业成绩考评、教研科研、出勤）

教师工作绩效（教育效果、教学效果、教育教学科研成果）

其他工作（班主任工作、继续教育培训）

教师发展测量与评价的设计与实施

一、教师发展测量与评价的设计

（一）测评目标：

促进教师专业化水平提升；改进教师的教育教学实践；实现教师与学校的共同发展

（二）测评主体：

教师同行学生领导专家

（三）测评工具：

教师发展测评量表、教师发展评价手册

（四）测评方式

绩效考评法课堂听课评价法教学档案袋评价法微格教学评价法

二、教师发展测量与评价的实施

（一）测评程序

1.测评前期准备

建立教师发展测评领导小组

确定测评的时间、形式、范围等基本内容

确定评价者，即根据测评目标选取最为适宜的测评主体

2.收集测评信息

信息收集的渠道包括：

课堂听课、问卷及量表调查、与教师进行面谈

3.分析测评信息

通过问卷及量表获得的信息需要通过量化统计，采用统计软件来进行处理

通过课堂观察以及听课等质性评价方法获得的材料，则需要给予质性判断

4.撰写测评报告

教师发展的测评包括一般包含：

测评概况、测评结论、测评中发现的问题、提出建议四个部分

（二）测评监控

测评者与被测评者之间的关系问题

实事求是与形式主义测评的价值取向问题

测评指标标准性与灵活性辩证统一的操控问题

测评的条件、过程与效果的相互关系处理

三、教师发展测量与评价的结论

（一）测评结论反馈：

多元化的反馈主体、测评结论的双向反馈

（二）测评元评价

内部元评价主要由学校领导、管理人员、评价人员进行，评价内容包括教师发展测评的方案设计、方法、组织形式和过程监控等。

外部元评价一般由专业评价人员主导进行，主要对测评的整体理论框架体系进行评价。

（三）测评优化

测评目的观的优化：

由奖惩性测评转向发展性测评

测评技术方法的优化：

由偏重量化测评转向定性和定量测评充分结合

测评标准的优化：

由普适性标准向差异性、个性化的标准转变

重视教师发展的再测评

补充：

教育测量与评价的基础理论

一、经典测量理论

1.内容：

（1）三大核心词：

真分数、观测分数、误差分数。

（2）“三个基本假设”：

①真分数的恒定性；②误差具有完全随机性；③观测分数。

（3）“两个重要推论”

2.优缺点：

优：

①广泛的适用性②易于理解和掌握③易于测量本土化的实现

缺：

①在实际使用中所求得的项目统计指标具有不稳定性，容易受受测者样本选取的影响；②项目统计量和受测者测验得分往往是分别求得的，因此受测者测验得分与测验统计量之间无法建立一定的函数关系；③用到的两个假设条件，即严格意义上的平行测验以及测验误差与真分数之间的不相关，这在实际的测验操作中最难控制并实现的。

二、发展性评价理论

特点：

非奖惩性、协作性、诊断性、过程性、个体差异性、评价主体多元性。

展开阅读全文