教育测量与评价复习高效笔记资料讲解.docx

资源描述

教育测量与评价复习高效笔记资料讲解.docx

《教育测量与评价复习高效笔记资料讲解.docx》由会员分享，可在线阅读，更多相关《教育测量与评价复习高效笔记资料讲解.docx（83页珍藏版）》请在冰豆网上搜索。

教育测量与评价复习高效笔记资料讲解.docx

教育测量与评价复习高效笔记资料讲解

（一）研究对象教育测量与评价theEducationalMeasurementandEvaluation一课程性质

教育测量与评价主要是研究对教育现象进行测量和价值判断的理论方法和技术。

本门课程分为两大部分：

第一教育测量与评价的基本原理与方法；第二教育测量与评价的具体应用。

（二）学科性质

在课程设置和学科建设中，教育测量与评价可以看成是测量学和评价学内容的整合，而且侧重于教育测量，是综合性教育科学。

又可以看成兼容了教育统计教育测量心理测量教育评价教育评估教育督导甚至教育科学研究方法在内的学科群，所以这门学科是一门应用性的学科，但又是一门综合性的课程。

在教育学科分类中，教育测量与评价属于研究如何运用方法分析教育活动。

总之教育测量学是应用性学科，又是综合性学科。

二教学内容组织

1教育测量与评价的基本概念

2教育测量的质量指标

3教育测验的编制与实施，包括各种题型的设计和使用试题编排测评实施和评估等

4教育测量结果的整理和解释

5教育评价方案的编制与实施

6教育评价的方法：

很多方法如诊断性评价形成性评价总结性测量与评价等等。

综合是用多种评价。

7教育评价的应用，包括课程评价（课程大纲教学设计等）学生评价（老师的评价学生自己的评价同学的评价等）教师评价等方面

8教育质量评价

9现代教育测量与评价的发展趋势

三教学目标

1了解教育测量与评价的形成和发展历史。

2掌握教育测量与评价的概念一般原理和方法。

3掌握编制测量量表的方法和步骤。

4掌握评价方案设计以及建立评价指标体系的方法和技巧。

5树立科学的先进的教育测量与评价理念。

6初步具备开展教育测量与评价的能力。

四课程学习的重要意义

1教育测量与评价知识是构成现代教育技术教育管理小学教育专业学生必备知识的重要组成部分

2掌握先进的教育测评理念，以促进学生的健康发展

五教育测评的学科地位和作用

（一）现代教育科学研究的三大领域之一

教育基本理论研究教育测量与评价科学研究以及教育发展研究已成为教育科学研究的三大领域。

美国教育测量与评价理论研究

第一创办了大量有关教育测量与评价方面的研究杂志。

第二出版了大量的学术著作与教科书。

第三许多学术团体都加盟对教育评价的研究，成立了一些全国性的教育评价协会：

全国教育测量委员会全国教育进展评估中心全国教育评价联合会等。

国际教育评估协会（IAEA）：

1975年在日内瓦成立，当时有18个国家参加。

其宗旨是帮助世界各地的教育机构通过发展和应用评价技术来提高教育质量和促进教育机会均等。

。

（二）在教育改革中具有重要作用

1教育测量与评价在教育系统中的作用

在教育系统运转过程中，除了对教育效果（输出）要进行测量与评价外，还要针对影响教育效果的诸因素（输入）进行客观的分析和评价。

教育测量与评价在教育系统中对实现教育目标起着十分重要的作用。

2教育改革常常以教育测量与评价作为突破口

学校教育考试制度和评价制度是教育制度的一个组成部分，但教育考试和教育评价具有很强的导向功能。

英国“11岁考试”

（三）教育改革呼唤教育测评更加科学化

教育目标的多样性，必然要求教育测量与评价方法手段的多样化和科学化。

由于基础教育在整个结构和提高国民素质中具有特殊的作用，因此，基础教育课程及其考试评价改革尤为紧迫。

（四）教育测评是教师的专业素养和能力

1正确评价学生的发展是教师职业能力的重要组成部分。

教师需要对学生的性向成就态度兴趣潜能及发展等作出一系列决策和判断，需要采用教育测量与评价多种方法，以弥补教师非正常观察的不足。

手段不再是唯一的书面考试，而是测量与非测量的一整套评价技术。

目的不再局限于给学生分等级排名次，而是发现其优点长处，指出其缺点不足。

测量和评价的指导思想非常重要。

指导思想是为了创造适合学生发展的教育环境，而不仅仅是为了选拔适合精英教育的学生。

现代教育测量与评价的思想方法对于教师创造性地教学因材施教提高教学质量具有重要作用。

2国外教师教育普遍开设“教育测量与评价”这类课程。

在许多经济发达的国家和地区，虽然教师教育模式不一定相同，但对所有想当教师的学生至少要学习十门左右的教育理论课程。

第一章教育与心理测量概述第一节教育测量与评价基本问题

一教育测量概述

1测量的定义及要素

测量的定义：

从广义上讲，就是根据某些法则与程序，用数字对事物在量上的规定性予以确定和描述的过程。

测量的要素：

第一单位。

单位是测量的基本要求，具有明确的意义和相等的价值；教育测量的单位常常是“分”，难以达到这个要求。

第二参照点。

量的计算的起点，一般有两种：

绝对零点（理想的）和相对零点（只能加减，不能乘除）；

第三量表（具）：

能够使事物的特征数量化的数字的连续体。

确定了测量单位和参照点并具有取值系统的测量工具。

四种测量量表

命名量表：

用数字代表事物（名称量表）或用数字对事物进行分类（类别量表）；

顺序量表：

按照事物的大小等级程度而；排列数字的量表。

如“名次”；无相等单位，无绝对零点。

等距量表：

有相等单位，无绝对零点。

如“温度”

比率量表：

最高水平的量表，具有类别等级等距，并有绝对零点。

如“长度和重量”。

能进行加减乘除运算。

2教育测量的含义和特点

（1）教育测量的含义：

就是针对学校教育影响下学生各个方面的发展，侧重从量的规定性上予以确定和描述的过程。

广义：

对教育现象进行定量化测定的一门教育科学，主要研究对教育或训练效果进行测量的原理与方法。

狭义：

只对学习结果——知识技能的测量。

（2）教育测量的可能性：

“凡物的存在必有其量”；“凡有数量的东西都可以测量”

（3）教育测量的特点：

间接性和推断性；测量对象的模糊性和测量误差的不可避免性；量表具有多样性，结果具有相对抽象性。

任何一个测量必须具有明确的目的，教育测量必须为实现教育目的而服务。

不能脱离教育目的和教材的要求，任意制定量表，随意进行测量。

3正确使用教育测量

1）慎选测验

（2）具备资格

（3）内容保密

（4）控制误差

（5）正确解释和看待结果

二关于教育（教学）评价

1评价的含义：

广义地讲，评价泛指衡量判断人物或者事物的价值。

2教育评价的概念。

当把“评价”一词特别地用于学校教育领域或课堂教学情境时，在一些情况下，“评价”就是“教育评价”的简称。

在另一些情况下，指的是教育目标分类中最高层次的认知能力水平——评价。

国内外有不同的定义。

格兰朗德的观点

评价是为了确定学生达到教学目标的程度，收集分析和解释信息的系统过程；评价包括对学生的定量描述和定性描述两方面再加上价值判断。

斯塔费尔比姆的观点

评价是一种划定获取和提供叙述性和判断性信息的过程。

他认为：

评价最重要的意图不是为了证明，而是为了改进。

美国教育评价标准委员会

评价是对某些现象的价值如优缺点的系统调查，为教育决策提供依据的过程。

泰勒的观点

评价过程在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程。

德雷斯的观点

所谓评价，就是决定某种活动目的及程序的价值的过程。

日本的桥本重治的观点

评价是与教育的目标和价值有明确关系的概念，是按照教育目标和价值观对学生的学习成果及教育计划的效果等进行测量的过程。

因此，评价概念的重点在于以教育目标为标准的价值判断。

布卢姆的观点

在《教育评价》一书中对“评价”作了两种解释：

第一种解释在本质上是针对“教育评价”来说的；“评价是系统收集证据用以确定学习者实际上是否发生了某些变化，确定学生个体变化的数量或程度。

”

第二种解释实际上是针对教育目标分类来说的。

教育目标分认知情感和动作技能三大领域，认知领域的教育目标又分知识领会应用分析综合评价。

教育评价包含的共同点

1强调以教育目标为标准的价值判断过程；

2强调用多种方法系统收集资料与信息；

3教育评价的内容既可以是教育计划，也可以是课程；既可以学生的学习结果，也可以是某种教育现象教学活动教育目的或教育程序。

4强调为学生发展和教育决策服务。

教育评价的定义

按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。

三概念辨析

（一）教育测量与教育评价

教育测量是评价的依据，教育评价是测量的解释和具体体现。

教育测量与评价是两个不同的概念，教育测量以量化为主要特征的事实判断；教育评价在定性和定量资料基础上做出的价值判断；测量关心的是数据的多少，评价关心的是价值的高低。

测量是一种纯客观的过程，是一种单一的活动，而评价是主观与客观的统一，是一项综合的活动。

（二）教育评价与教育评估

不同学者对评价和评估的关系认识不同。

教育评价与评估既有联系又有区别。

第一根据《Collins汉英双解词典》，教育评价与教育评估的英语表示不同；第二从目前国内出版的著作来看；第三对“评估”一词的考究；第四从概念及习惯用语上讲。

从概念的分析和理解中，我们可以看到教育评价教育评估和教育测量三个概念之间是两两既有联系又有区别，即交叉重叠又相对独立的关系。

（三）教育测验与考试

测验是测量的工具，用它能引起人的代表性的行为，以便对人的行为特性或心理特性进行测量与评价，是教育测验或心理测验的简称，考试有广义和狭义之分。

测验的概念比考试的概念更广泛。

在某些情境下，教育测验活动或者考试本身就是一种教育评价活动。

教育测验（test）：

测量一个行为样本的程序；教育测量的工具

考试（examination）：

广义的考试泛指人类社会一切测度和甄别人的身心各个方面之群体或个体差异的活动。

狭义指由主试根据一定社会的要求，在一定场所，采取一定的方式方法，选择适当的内容，对应试者的德学才识体诸多方面或某方面所进行有组织有目的测度或甄别的活动。

教育考试是根据教育内容和目标，选择有代表性的内容与问题，按照一定的方式，对应试者的知识技能等进行测量与评价的过程。

考试也是一种教育测验。

第二节教育测量与评价的发展简史

1中国是考试制度的发源地

2中国科举制度的世界地位

3教育测量学科的诞生

4教育测量学科的发展

5美国的“八年研究”

6教育测量与评价理论的发展

一中国是考试制度的发源地

1考试制度起始于西周时期

2春秋战国时期侧重于日常考察

3两汉时期，考试制度正式建立

二中国科举制度的世界地位

1科举制度就是“开科取士”，即国家设立许多科目，通过定期的统一考试选拔人才，这种制度开始于隋炀帝大业二年（606），终结于清朝。

2科举制度在中国历史上延续了1300年，形成了完备的考试制度和独特的考试方法，积累了丰富的经验。

3对西方文官考试制度的建立和现代教育测量与评价的发展起到很重要的作用。

中国科举考试虽然对世界文官考试制度有过重要作用，但我国古代对科举制度缺乏教育学心理学统计学哲学等科学视角进行反思与改进。

因而还不是现代意义的教育测量与评价科学。

三教育测量学科的诞生

11864年，英国人费舍完成《作业量表集》。

21894年始，美国赖斯编写测验，开展相关研究。

31904年，美国桑代克的《精神与社会测量导论》标志着教育测量理论的诞生。

桑代克的《精神与社会测量导论》提出假设：

“无论什么东西，只要存在的，总存在于数量之中”；美国麦柯尔：

“任何东西，存在于数量中，都可以被测量。

”

公理：

“凡存在的东西必有数量，凡有数量的东西都可以测量“。

四教育测量学科的发展

1二十世纪初，美国的教育测量学发展迅速，应用广泛。

编制了大量的教育测量。

2心理测验的发展与应用促进了教育测量学的发展，如1905年比纳等人发表的《比纳量表》英国斯皮尔曼的“能力结构二因素学说”以及武德沃斯的第一个标准化人格测验的问世，对教育测验起了一定的促进和导向作用。

五美国的“八年研究”

背景：

1929-1933年期间，经济危机。

美国高中学生人数大量增加，教学理论脱离实际，许多人要求重新协定高中课程方案和教学大纲，以满足社会的需要。

美国进步主义教育协会负责人艾钦在1933-1940年间领导“八年研究”。

“八年研究”的基本原则

其一应当帮助学生学习什么。

其二为了帮助学生达到教育目标，应当提供什么样的学习经验。

其三怎么组织学习经验，使这些经验累积效果最大。

第四怎么评价教育效果。

“八年研究”的经验

其一传统测验是片面的。

其二只是关注客观的信度。

其三测验是教科书主义。

其四对测验或考试的过分依赖必然养成个人主义与被动式的学习态度等。

提出尊重儿童的个性兴趣和需要；教材不应脱离生活，进行启发式教育。

泰勒提出的两条原理

课程编制原理和评价活动原理。

确定多元需要的价值目标—用行为表达教育目标—构建合宜的教育情境—选择包括测验在内的多种评价手段—对达标程度做出判断—对学生优缺点进行分析并提出改建措施—修改教育方案，如此循环。

泰勒在“八年研究”报告中首次提出了“教育评价”的概念，“教育评价在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程。

评价是一种确定行为实际变化的程度的过程。

”

形成了泰勒的“行为目标评价模式”因此泰勒被称为“教育评价之父”。

虽然受到了批评，但泰勒的行为目标评价模式思想和方法，在当今世界教育测量与评价领域，以及对课程编制和教育目标管理都有现实意义。

第三节：

教育测量的类型

国内外学者对教育测量与评价的分类，不仅角度不同，而且看法不一。

其中格朗兰德的分类具有代表性和启发性，他在《教学测量与评价》中对教育测评进行了分类。

一按测评在教学中运用的时机分类

1形成性测量与评价

在教学过程中经常实施的，在性质上大致相当于现在的中小学单元测验。

形成性测量与评价对于教师以及学生的作用。

2诊断性测量与评价

对经常表现出学习困难的学生所作的测量与评价，它的目的是对个人的问题行为及其原因进行诊断。

诊断性多半是在形成性测评后实施。

3终结性测量与评价

用于教学结束后，在性质上相当于现在学校中所进行的期末考试。

其目的有两个：

其一是在教学目标之下，检查学生一学期的学业程度；其二是根据终结性测评的结果，评定学业成就，并通知学生家长或记入档案。

二按解释测评结果时的参照点分类

1常模参照测量与评价

常模参照测量与评价是将被试水平与测验常模相比较，以评价被试在团体中的相对地位的一种测验与评价类型。

也就是说，常模参照测量与评价对学生成就的解释采用的是相对的观点。

2标准参照测量与评价

将被试的表现与既定的教育目标或教育行为标准相比较，以评价被试在多大程度上达到该标准。

测评和教育目标常连在一起，也称目标参照测量与评价。

3潜力参照测量与评价

被试实际水平与其自身潜在水平相比较，以评价被试有无充分发挥自身潜力为目的。

在强调人性化动态化和个别化的教育评价潮流下，潜力参照测量与评价理应发挥更大的作用。

三按测评被试行为表现的性质分类

1最佳行为测量与评价

以测量被试的最佳行为表现为目的。

凡是以成就或能力的高低行为评价基础的，都属最佳行为测量与评价。

2典型行为测量与评价

典型行为测评目的不在测评被试能力的高低，而是测评其是否具备某种典型行为。

四按测量与评价的内容分类

1智力测量与评价

目的在于测量被试的智力并对被试的智力发展水平和特点作出评价。

2能力倾向测量与评价

目的在于测量与评价个人的潜在才能，预测个人能力发展倾向。

分为两种：

一是关于能力倾向测量与评价；一是特殊能力倾向测量与评价。

3成就测量与评价

目的在于测评个人在接受教育或者训练后的成就。

常见的两种：

一是学科成就测验；一是综合成就测验。

4人格测量与评价

也称为个性测量与评价，其目的在于测评被试的人格心理特征。

本测量与评价所涉及的内容层面也很多。

五教育测量与评价的其他分类

（一）按测量对象

1个别测量与评价

指的是同一主试在同一时间内只能测量一个被试。

主试与被试有更多的交流机会，对于一些特殊的被试，如幼儿文盲等，只能采用个别测量与评价。

但是个别测量费时费力，特别主试必须经过严格的训练才能胜任。

2团体测量与评价

指的是同一时间内由一位主试测量多位被试。

优点是节省时间，可以在短时间内收集到大量的数据，不足是不易有效控制被试的行为，容易产生误差。

第二节：

教育测量与评价的

主要功能

教育测评有许多重要的功能，如评定的功能判断的功能选拔的功能反馈的功能教育功能导向的功能威慑的功能预测的功能诊断的功能激励的功能改进学习的功能和改进教学的功能等。

根据格朗兰德的分类，主要分为以下几种。

一实现教育判断的功能

包括测量评定的功能事实判断的功能价值判断的功能问题诊断的功能区分选拔的功能等。

二改进教师教学的功能

1了解学生的起点行为

摸清学生的学习和发展状况是因材施教的前提。

在教学或教育前，教师可以先针对学生实施一次测量，用来评价学生在学习之前已具有的背景知识，以作为有效教学的起点。

2作为改进教学的参考

根据教育测量与评价的结果，教师可以明了自己在教学上的缺失，判断教材的可用性，判断教学方法的有效性。

测量与评价的结果为教师改进教学提供参考信息。

3作为补救教与学的依据

教师可以针对不同学习类型的学习行为特征，以及不同的认知结构缺陷的所在，有针对提出符合个别需要的补救教学的策略与措施。

4确保教学目标的达到

根据测评结果，教师可以知道目前的教学情况，是否需要修正目标或改变教学策略，是否需要改换教材以及教法等。

三促进学生学习的功能

1激励学生的学习动机

2帮助学生的记忆和促进迁移

3促进学生的自我评价

四行使教育管理的功能

1对教师的管理

一是教师资格评定；

二是教师的教学艺术水平的评定；

三是教学管理水平的评定；

四是教师的个性评定。

2对目标的管理

教育测量与评价是根据教育目标进行的，通过对现状与目标之间的差距进行判断，能有效地促进被测量与评价的对象不断接近预定的目标。

3对过程的管理

利用教育测量与评价，可以全面地掌握教育的各种情况，及时发现教育过程中存在的问题，对教育教学任务完成的数量与质量进行控制，为促进提高教育过程的有效性提供科学的依据。

心理与教育测量的误差

什么是误差

误差的来源

真分数理论

一误差（error）的定义和种类

误差是在测量中与目的无关的因素所产生的不准确的或不一致的结果。

定义的后半部分从准确性和一致性两方面对误差做了区分。

准确性和一致性的关系可以用射击靶环来说明。

假设有ABC三支枪，对准靶面中心固定位置后各放9枪，所得结果见图4－1。

随机误差：

由与测量目的无关的偶然因素引起的变化无规律的误差。

大小和方向的变化完全是随机的，无规律可循。

系统误差:

由与测量目的无关的因素引起的恒定的有规律的误差。

稳定地存在于每一次测量中。

二测量误差的来源

（一）测量工具引起的误差

（二）施测过程引起的误差

（三）被测对象引起的误差

心理测量工具往往是一套量表。

当量表在测出人的某种心理特质时，若项目所测的东西与我们所欲测的目的之间出现偏差，则测量会出现误差。

1.施测环境：

施测现场的温度光线声音桌面的好坏空间的宽窄都可能产生影响。

2.施测时限:

时限没有严格控制，过宽或过紧都会使测验结果存在误差。

3.主试因素:

主试的年龄性别外表言谈举止表情动作对测验过程的熟悉程度都可能会对测验结果产生一定的影响。

4.意外干扰:

在施测环境复杂，特别是受测者较多时，容易发生意外情况。

5.评分记分back

1.应试动机

受测者对测验的动机不同，会导致不同的作答态度注意力持久性和反应速度，从而影响测验成绩。

动机效应在人格测验中也有表现。

2.测验焦虑

测验焦虑是指受测者在应试前和测试过程中出现的一种紧张的不愉快的情绪体验。

一般出现在能力和成就测验

对于人格测验如果主试没有讲清测验目的和出现不合适的表情动作，也会使受测者产生焦虑，尤其对于年龄较小的儿童和本身有焦虑特质的个体。

焦虑和作业成绩的关系呈倒形的V字曲线，适度的焦虑可以提高作业成绩，焦虑水平太高和太低都不利于受测者水平的发挥。

3.测验经验

当使用一种新的测验形式的时候，由于被测者不熟悉，缺乏测验经验可能会影响测验成绩。

4.练习效应

有些测验需要第二次应用，甚至多次应用。

比如，在开始一项教学改革前对学生的能力和学习成绩进行前测，过半个学期后进行后测，看看成绩或能力有没有提高。

这时就会存在练习效应。

在能力测验方面，练习效果的研究大体获得了以下结论：

（1）练习对于智力较高者，效果较为显著。

（2）着重速度的测验，练习效果较明显。

（3）再做同一个测验要比做复本的练习效果显著。

（4）两次测验之间的时距越大，练习效果越小，相距三个月以上，练习效果可以忽略不计。

（5）一般的平均练习效果，约在个标准差以下，但第二次再测时，练习效果即接近于零。

5.反应倾向

被试的独立于测验内容的反应方式也会影响被试的测验成绩。

6.生理变因

受测者的疲劳失眠心境等都可以影响测验成绩，心理学研究表明，人的智力情绪体力等都存在着节律性的变化，生物节律会影响测验成绩。

三真分数（truescore）

真分数：

指一种测量工具在测量没有误差时得到的纯正值。

（真正水平）

操作定义：

无数次测量所得结果的平均值。

观察分数：

实测分数

观察分数接近真分数时，就说测量的误差较小。

经典测量理论（ClassicalTestTheory,CTT）的数学模型：

经典测量理论假定：

实得分数真分数测量误差存在下述线性关系，用公式表示如下：

X=T+E（公式4－1）

式中X为实得分数或观测分数，T为假设的真分数，E为测量误差。

关于测量误差还有如下假设：

（1）如果对一个人测量无数次，其误差之和为0，平均误差为0，即

（2）误差与真分数相互独立，即

（3）一个团体的平均真分数等于该团体中所有被试实得分数的平均值。

（4）对于一个团体来说，实得分数真分数和测量误差之间有如下关系：

真分数的变异可以分成两个部分：

与测验目的有关的变异（有效的变异数ValidVariance）和与测验目的无关的变异（无效的变异数InvalidVariance），即

（公式4－3）

式中，是与测量目的有关的变异数，即有效的变异数；是与测量目的无关的变异数，即无效的变异数。

将公式4－3代入公式4－2得下列公式：

第三章测量的信度

第一节什么是信度

第二节估计信度的方法

第三节影响信度系数的因素

第一节：

什么是信度

一信度的意义

二信度系数的作用

一信度的意义

信度即测验的可靠性，指的是测量的一致性程度。

信度受随机误差的影响，随机误差越大，信度越低。

在测量学中，信度被定义为：

一组测量分数的真变异数与总变异数（实得变异数）的比率。

即

式中代表信度系数，代表真分数的变异数，代表实得分数的变异数，即总变异数。

根据公式3－1，信度还可以表示为：

误差变异越小，测量信度越高；误差变异越大，测量信度越低。

这个定义有两点要注意：

（1）信度是一组测量分数的特性，不是某个测量分数的特性。

是对一个人测量多次或对一个群体进行测量得到一组测量分数的特性

（2）真分数的变异数不能直接测量，因此信度是一个理论上构想的概念，只能根据一组实得分数进行估计。

对于信度系数，还应该注意以下几点：

（1）在不同的情况下，对于不同的样本，采用不同的方法会得到不同的信度系数，因此一个测验可能不止一个信度系数。

（2）信度系数只是对测量分数不一致程度的估计，并没有指出不一致的原因。

（3）获得较高的信度系数并不是心理测量有效的充分条件，只是一个必要条件。

二信度的作用

展开阅读全文