数学教育测量与评价.docx

资源描述

数学教育测量与评价.docx

《数学教育测量与评价.docx》由会员分享，可在线阅读，更多相关《数学教育测量与评价.docx（16页珍藏版）》请在冰豆网上搜索。

数学教育测量与评价.docx

数学教育测量与评价

1. 学习目的：

通过学习了解数学教育测量与评价的基本原理，运用数学教育测量与评价获得信息，对数学教学进行测量与评价，从而指导数学教学实践。

2．内容介绍：

了解和掌握数学教育测量与评价的基本概念，学会运用教育统计学的基本理论进行教学测量与评价。

3．考核或方案：

运用教育测量与评价的基本原理，结合教学实践，选一个课题进行教学评价。

4.主要参考书目：

[1]田万海等著数学教学测量与评估上海教育出版社，1995年12月第1版

[2]王孝玲编著教育统计学，华东师范大学出版社，2001年7月第1版

[3]王孝玲编著教育测量华东师范大学出版社，2001年4月第1版

第一章绪论

§1.1教育统计学的内容

一、什么是教育统计学

教育统计学是运用数理统计的原理和方法，研究教育问题的一门应用科学。

它的主要任务是研究如何搜集、整理、分析由教育调查和教育实验所获得的数字资料，并以此为依据，进行科学推断，揭示教育现象以蕴含的客观规律。

二、统计学研究的内容

分成描述统计、推断统计、实验设计

1．描述统计

对已获得的数据进行整理、概括，显现其分布特征的统计方法，称为描述统计。

通过教育调查和教育实验获得大量的数据。

用归纳、编表、绘图等统计方法对之进行归纳、整理，以直观形象的形式反映其分布特征；通过计算各种特征量，来反映它们分布上的数字特征。

例如，计算集中量（算术平均数、中位数、众数、加权算术平均数、几何平均数、调和平均数等）来反映它的集中趋势；计算差异量（如全距、四分位距、百分位距、平均数、标准差、差异系数等）来反映它们的离散程度；计算偏态量及峰态量来反映它们的分布形态；计算相关量（如积差相关系数、等级相关数、点二列相关系数、相关系数、四分相关系数、C相关系数、肯德尔和谐系数、多系列相关系数等）来反映一个事物的中特性之间变化的一致性程度（尤其是测量评价中）。

这些均属于描述统计范围。

目的：

在于将大量零散的、杂乱无序的数字资料进行整理、归纳、概括，使事物的全貌及其分布特征清晰，明确的显现出来。

2．推断统计

根据样本所提供的信息，运用概率的理论进行分析，论证，在一定可靠程度上，对总体分布特征进行统计、推测，这种统计方法称为推断统计。

例如，对总体参数值，即总体数字特征值（如总体平均数、总体标准差、总体相关系数等）的估计；对总体数字特征值或总体参数之差（如总体平均数之差、方差之差、总体相关系数之差等）的假设检验；对总体分布是否服从某种分布的假设检验等，都属于推断统计的范围。

其目的在于根据已知的情况，在一定概率的意义上估计、推测未知的情况。

3．实验设计

教师为了揭示实验中自变量与因变量的关系，在实验之前所制定的实验计划，称为实验设计。

其中包括选择怎样的抽样方式；如何计算样本容量；确定怎样的实验对照形式；如何实现实验组和对照组的等组化；如何安排实验因素和如何控制无关因素；用什么统计方法处理及分析实验结果等。

以上三部分内容，不是截然分开，而是相互联系的。

描述统计是推断统计的基础，推断统计可以通过样本信息估计，推测总体。

从已知情况推测、估计未知情况。

良好的实验设计才能使我们获得真实的有价值的数据，对这样的数据进行统计处理才能得出正确的结论。

而良好的实验设计又必须以统计就原理为根据，符合统计方法的要求才能对实验结果进行统计处理。

§1.2学习统计与测量评价的意义

1．可以顺利地阅读运用统计方法进行走量分析的科研报告和文献，从中可以间接地学习国内外先进地研究成果。

2．可以提供一种科学方法为教科研服务——工具。

3．可以提高教育工作的科学性和效率（学制的改革、课程的建设、课程分量的确定、数学效果的考核、各种教法和学法的比较、学科成绩的评定、各类调查、学业成绩的比较）。

§3几种基本概念

一、随机变量

二、总体与样本

三、统计量与参数

四、数据的分类

1．名称量表——点计数据

测量与统计中最简单的形式——分类。

即属于同一类的事物用同一个数字表示。

属于另一类的事物用另一个数字表示。

用来描述各类事物的数字仅仅是事物的名称或符号。

没有数量大小的含义，只具有相同与不同的特性。

即只能区分事物的类别，没有数量的大小、多少、位次和倍数关系。

也就是说，它只具有数的同一性和区分性，而不具有等级性、等距性和等比性。

因此，不能将之进行加、减、乘、除四则运算。

所进行的统计处理，只是归入每一类中个体的数目（频数），对这类数据所允许和运用的统计方法，有比率、百分比、相关系数、x2检验。

2．等级量表——等级数据

对于事物的属性按一个标准进行分类，用来描述各个类别的数字，不仅具有区分性，而且还具有等级性（位次性）。

这些数字之间能表示事物大小的位次关系。

但不具有等距性和等比性。

甲、乙、丙三个等级，甲3，乙2，丙1。

构成3>2>1的位次关系。

但这些数字只能确定事物相等或不等的关系。

在不等的情况下，只能确定大于或小于的关系。

如3>2，2>1，则3>1的关系。

不能确定甲等的3比丙等的1大多少个相等的单位。

因为3与2和2与1之间的差距是不相等的。

不能进行四则运算。

它们所适用的统计方法：

中位数、百分位数、等级相关系数。

肯德尔和谐系数（多列等级相关），以及符号检验，秩次检验、秩次方差分析（3-22-1）。

3．等距量表——等距数据

有相等单位和人定参照点德测量数据，不仅具有区分性、等级性，还具有等距性。

例如9℃与6℃之差=6℃与3℃之差。

但是参照点（零点），而是人定德零点，0℃并不意味着没有温度。

钟表上的0点，并不意味着没有时间。

同样，并不意味着9℃是3℃的3倍。

这类数据只能作加减运算，不能作乘除运算。

适用的统计方法有平均数，标准差、积差相关系数的n级Z、t、F检验等。

4．比率量表——比率数据

这是最高水平的测量。

有相等单位和绝对零点的数据，不仅具有区分性、等级性、等距性，还具有等比性。

具有绝对零点。

所谓绝对零点，就是量表上称表0的地方，表示所要测量的属性是无。

这类数据既可以确定一个事物比另一个事物大多少，又可以确定大多少倍。

因此，数据可以进行四则运算。

例如长度、身高、重量等。

它所运用的统计方法。

除了等距数据所运用的统计方法外，还可以计算几何平均数和差异系数。

注：

一般而言，学生知识、技能的测验分数多属于等级数据。

因为测验分数之间只能表明哪个大，哪个小，不能表明大多少，小多少。

例如，一次数学测验的平均分为70分。

在这里，60分与70分之间和90分与100分之间，虽然都差10分。

但是，它们的差异是不相等的。

众所周知，90分与100分之差要比60分与70分之差难度大得多。

已表明，测验分数是不等距的。

另外，测验得零分的学生，并不意味着他在所测验的知识、技能方面为零。

这表明，测验分数不是绝对零点开始的。

虽然测验分数属于等级数据，但我们通常把测验分数作为等距量来处理。

这是因为：

第一：

在统计就上可以将总体呈正态分布的测验分数转换成单位相等的标准分数。

第二：

如果测验编造得较好，特别是对于测验结果的极端分数的微小差异可能反映着巨大差异的这一现象给予注意的情况下，就可以使本来属于等级数据的分数，作为等距量表来处理所造成的误差减少到最小程度。

第三：

如果测验的编制程序能使测验分数接近等级数据，而且对测验分数当作等距数据处理时所得到的结果也确实是有意义的。

那么，也就表明这种做法是可行的。

第二章测验数据的处理与解释

§2.1测验分数的解释

当我们用一个信度效高，效度经过检定合格的测验，对一个学生施测后，就获得一个测验分数。

对这个测验分数应当如何解释，便是这一章所要论述的问题。

一、测验分数与所测量的属性

当我们用测验来测量人的某种心理属性时，总是假定：

测验分数的单位是相等的；测验分数相同的增量反映着心理属性的同等增量。

因为，这样的假定对于统计运算的使用是不可缺少的。

但是，由于人的心理属性只能通过其行为反应进行间接测量，而且人的行为反应常因多种因素的影响而容易发生变化。

也就是说，测量的误差较大。

因此，对于人类心理属性的测量很少有绝对的测度。

即使以时间、空间或能力作为单位的测量分数，它们的相同增量也很难代表着相同的心理增量。

例如，用一个、十几个题目组成的数学测验，对甲、乙两个学生施测，如果甲生全部答对，得100分，而乙生全部答错得0分。

这时，甲生的100分和乙生的0分，只能分别表示他们在这个特定的测验上所表现出的能力，并不能代表甲、乙两个学生学习数学的全部能力。

因此，我们不能根据这两个测验分数就作出关于甲生对于数学知识、能力全部掌握，而乙生对于数学知识、能力全部没有掌握的判断。

因为，若用另一套测验对他们施测，甲生就不一定得100分，而乙生也不一定得0分。

假如在上述测验中，甲生得100分，而乙生得50分，这也并不意味着甲生在数学方面知识和能力是乙生的两倍。

用理，甲生和乙生在同一个测验上获得相同的分数，也不能判定他们两人这方面的知识与能力是相同的。

甚至用同一个测验对同一个学生先后施测两次，可能由于在两次测验中学生的动机、情绪、态度、健康、睡眠、学习以及测验环境的光线、气压、湿度和考试的指导语不同，所获得的两个测验分数也不一定相同。

二、原始分数和导出分数

根据测验的记分标准，对被试的测验结果所计算出的测验分数称为原始分数。

例如，一个学生在数学测验上获得72分，这72分就是原始分数。

原始分数的本身意义甚高，因为仅从个别学生的原始分数，我们既无法了解他学习成绩的好坏，知识能力的高低，也无法与其他学生相互比较。

对于同一个学生不同学科的原始分数。

由于缺乏参照点和一定的单位。

因此，既不能相比较，也不能相加求和。

例如：

某生期末考试成绩：

语文为69分，数学为86分，英语为90分。

根据这三门学科的分数。

我们还是不能了解该生三门学科哪一门学科学得好。

哪一门学得差。

即我们不能说，该生英语最好，数学次之，语文最差。

为了使原始分数本身具有意义，使不同测验得分数可以相互比较，就必须将原始分数转化成导出分数。

所谓导出分数，就是经过统计整理过的。

具有一定参照点和单位的，可以相互比较的分数。

在教育测量中，常用的导出分数，有百分等级，标准分数，年级等值分数，年龄等值分数等。

如果对一个标准化的样本施行某一个测验之后，将所获得的原始分数以常模（平均数）为参照点转模成某种导出分数。

并以等值表的形式将原始分数与导出分数之间的对应值表示出来，这就是测验量表。

根据这种测验量表，我们可以为某个学生的原始分数寻找到在这个测验量表上的相对位量，以确定其测验成绩的优劣。

与上述的导出分数相对应，常用的测验量表有百分等级量表、标准分量表、年级和年龄量表等。

§2.2测验的种类

一、根据测量的属性分类

1．智力测验——主要目的在于测量智力的高低，它是最早发展起来的一种心理测验，目前从出生到老年人都有不同年龄阶段的智力测验。

2．智力倾向测验——主要目的在于发现被试的潜在能力。

所谓潜在能力是指经教育或训练以后，能够发挥出来的能力。

这类测验在职业训练或就业指导方面应用最为广泛。

3．人格标准——主要目的是测量人的态度、情绪、兴趣、品德、动机、意志、性格、美感等方面的行为。

4．教育测验—目的在于测量学生某些学科经过教育，训练之后所获得的知识、技能。

二、根据测验的标准化程度分类

1．标准化测验

它是由测验专家精心周密编制的。

测题根据试训的结果客观的筛选，测验经过客观地评价，应具有较高的信度和效度。

测验的手续——指导语，评分标准，环境布置，测验时限，分数的解释等都有详细明确的规定。

必须严格遵守，不得随意更改。

它一般以大量测验结果为基础，求出常模，建立测量验量表。

2．教师自编测验

教师自编测验的客观性和标准化程度不如标准化测验。

例如，测验的编制不如标准化测验那样精心周密，一般不进行试测，不求信度，效度和常模。

测验的记分也不那么严格。

优点：

它与教师日常的数学工作息息相关，使用频

展开阅读全文