教育测量结果的整理转换与组合.docx
《教育测量结果的整理转换与组合.docx》由会员分享,可在线阅读,更多相关《教育测量结果的整理转换与组合.docx(13页珍藏版)》请在冰豆网上搜索。
教育测量结果的整理转换与组合
第六章教育测量结果的整理、转换与组合
第一节教育测量数据的特点与种类
第二节教育测量分数的初步整理
第三节教育测量分数的转换
第四节教育测量结果的组合
教育测量的结果同物理测量的数据有本质区别,不能套用物理测量的计算方法。
一、数据的特点
(一)波动性
(1)一组数据多数取值是不相同的。
因为数据反映的是事物的量的方面的特性,而世界上不同的事物在量的方面的特性应该是不一样的。
比如,两个学生的数学成绩,一般而言,应该是不一样的。
(2)即使同一事物的数量表现,在不同的时间、场地,由不同的人来测试,采用不同的量表进行测试,其结果肯定也会有差别。
(二)规律性
大量数据的变化是遵从一定的规律的,而不是杂乱无章地变化的。
(三)正因为数据具有波动性,对数据进行研究才有必要;也正因为数据具有规律性,对数据的研究才有可能进行。
二、数据的种类
(一)按照数据的来源分,可将数据分为点计数据和度量数据
(1)点计数据是指计算个数所获得的数据。
如学校数、班级数、学生数、课程数、教室数、教学仪器数等。
(2)度量数据是指用一定的工具或一定的标准测量所获得的数据。
例如,用某种智力测验测得学生智商的数据,用某种学科测验获得学生该科知识、能力情况的数据,用米尺测得学生身高的数据,等等。
(二)按照数据的连续与否,可将数据分为间断性数据和连续性数据
(1)取值个数可数的数据,称为间断型随机变量的数据。
这种数据的单位是独立的,两个单位之间不能再划分成细小的单位,一般用整数表示。
(2)取值个数无限的数据,称为连续型随机变量的数据。
它们可能的取值范围能连续充满一个区间。
数据的单位之间可以再划分成无限多个细小的单位,数据可以用小数表示。
例如,学生的身高、体重、智商、学科成绩等,都属于连续型随机变量的数据。
(三)按照数据的精确性程度,可将数据分为类别变量、等级变量、等距变量和比率变量
(1)类别变量
根据法则指派给事物某一类别的数字或其它标志,仅是符号或称呼,没有任何数量大小的含义。
例如,区分性别的符号,男生用“1”表示,女生用“2”表示。
类别变量没有序列性、等距性、可加性。
(2)等级变量
等级量尺是按事物的大小、轻重等特征依次排列,进行分类和比较,或者依次划分为等第,它所标志的是测量某一类别的顺序关系,这类测量的数值具有等级性和序列性的特点。
例如,把学生的思想品德划分为优、良、中、差四个等级,它只能比较数值之间的大小,但不能作加减乘除运算。
(3)等距变量
等距变量具有等级变量的特征,还要求连续变量之间的差距相等,亦即具有相等的单位。
因此等距变量可以作加减运算,不能作乘除运算。
(4)比率变量
比率变量除含有等距变量的特性外,还有绝对的零点,因此,可以进行加减乘除四则运算。
物理测量中使用比率变量是普遍的,但教育测量的变量一般能达到等距变量就已经足够了。
三、教育测量数据的特点
(1)教育科学研究中绝大部分数据属于等级变量,这些数据的单位不等值、没有绝对零点,可以比较大小,不能加减更不能乘除。
而我们进行量化研究,最起码要求是进行加减运算,实际上是对之进行了代数运算。
从理论上说,这就产生了一大矛盾。
比如,教育与心理测验中通常采用百分制,其原始分数就是等级变量,不能进行加减乘除。
但是,现在我们在很多情况下还是将之直接相加求和;
如果将等级变量转换为所谓的等距变量,是否就完全科学合理了呢?
也不尽然!
因为,一方面我们承认等级变量不能直接相加求和,若将其视为等距变量,首先必须对之进行代数运算,如求平均数、标准差等,这实际上是默认了等级变量的可加减、可乘除以及可开方等,这在理论上产生了逻辑循环的矛盾。
(2)教育测量的多数数据从本质上说是主观的。
因为,教育测量的对象,主要是学生的内在精神属性,我们不能采用直接的测量方法,而只能采用间接的测量方法。
在测量的过程中,有很多人为的主观因素在里面起作用。
比如,一次测量的实施,从每一个项目的编制,测量的实施过程,一直到评分及分数的解释过程中,始终无法排除人的主观因素的作用。
因此,我们不能把具有主观性的数据当作客观性数据来进行处理。
(3)教育测量的数据还具有随机性。
教育测量的对象是教育现象的数量特征,而教育现象有多种。
一是确定性现象,另一是随机性现象,再是模糊现象。
所谓随机现象,必须具有以下三个特性:
〔1〕一次试验有多种可能的结果,其所有可能的结果是已知的;
〔2〕试验之前不能预料哪一种结果会出现;
〔3〕在相同的条件下可以重复试验。
教育现象的发展和变化包含着大量的随机现象。
对随机现象的处理,要用到数理统计的原理和方法。
在当前的很多教育测量中,一种是把随机现象作为确定性现象来进行研究;另一种情况,即便使用到统计方法,也表现为对其的一知半解,把一定概率意义上的统计结论解释为确定性结论;而且有些时候没有认真考虑所采用的统计方法的前提条件是否满足,就生搬硬套,结果出现错误。
(4)教育测量的数据也具有模糊性。
所谓模糊性,就是在人类认识活动中所产生的关于事物在性态和类属划分方面的不确定性,即亦此亦彼性和中介过渡性。
简单地说,模糊性就是概念外延的不确定性。
在人类实践中,主观对客观地反映关系本质上是一种介于完全反映客观与完全不反映客观之间的模糊关系。
精确性是相对于某种实际需要而言的,是模糊性被忽略和扬弃大量次要因素时的特例。
要对教育现象作明晰而精确的描述是非常困难的,不同程度的模糊描述是必然的和不可缺少的。
比如,教师和学生的语言表达、感情交流、思维活动、教学信息的传递与接受等等一系列教育活动的有效性、多样性、深刻性并非总是来自明晰与精确的认识形式和语言表达方式。
相反,各种模糊思维形式和语言表达方式在教育实践中更具广泛、完美和高效的特征,加速了教育信息的传递,使师生之间能彼此迅速沟通,因此,研究教育中的各种模糊现象具有十分重要的意义和作用。
第二节教育测量分数的初步整理
数据的初步整理分为列统计表和画统计图等等,本章只简单介绍统计表的编制问题。
统计表是用来表达统计数据与被说明的事物之间数量关系的表格。
一、统计表的结构
统计表一般由表序、表题、标目、线条、数字、表注等项构成。
编制统计表的基本原则是:
表的结构要简明。
一张表只能有一个中心,说明的问题要重点突出,一目了然;表的层次要清楚,项目、指标的排列要按照逻辑顺序合理安排。
(1)表序。
要写在表的左上方,一般以表出现的先后次序排列。
(2)表题。
是统计表的名称,应写在表的顶端中央。
表题应准确反映表的内容。
(3)标目。
即分类的项目,依据排列的位置分为纵标目和横标目。
(4)线条。
线条不宜太多。
顶线、底线、隔开纵标目与数字的横线,以及隔开横标目与数字的横线,是表的四种基本线条。
表的左右两侧不要用纵线封闭。
(5)数字。
表内数字必须明确。
一律用阿拉伯字母表示,位次对齐,小数的位数一致。
(6)表注。
写在表的下面,它不是表的必要部分。
它是对标题进行补充说明,数据来源、附记等都可以作为表注的内容。
见表6.1
表6.1统计表的基本格式
横标目的总标目
(亦可空白)
纵标目
(一般设谓语)
横标目
(一般设主语)
数字
二、频数分布表的编制
频数分布表是统计表中常用的一种,它是一种反映数据分布的统计表。
其编制步骤如下:
(1)求全距
将全部数据中的最大数减最小数,得全距。
(2)定组数
根据数据资料的性质和数据的多少而定。
通常数据在100以上可分为10—20组,数据在100以下的可分为5—10组。
(3)求组距
全距+1
组距≈———————
组数
(4)定组限
组限是分组的界限,其最小数为下限,其最大数为上限,一般分为:
0-5,5-10,10-15,…
(5)求组中值
上限+下限
组中值=——————
2
(6)归类划记
把数据一个个地归类于相应的组内,归类时要进行“划记”,常用划“正”来表示各组的频数,比如5可用“正”,最后,即可成为频数分布表。
如有36名学生的数学考试分数如下:
767166638883777268644262
707681797371664155654767
748678927484677276744968
按以上步骤可将这些数据编成表6.2
表6.236名学生数学考试分数的频数分布表
分组
组中值
频数
40——44
45——49
50——54
55——59
60——64
65——69
70——74
75——79
80——84
85——89
90——
42.5
47.5
52.5
57.5
62.5
67.5
72.5
77.5
82.5
87.5
92.5
2
2
0
1
3
7
9
6
3
2
1
第三节教育测量分数的转换
通常我们把教育测量所直接得到的分数,叫做原始分数(rawscores),亦即卷面分数。
由于不同测量的难度不同,导致各原始分数的意义模糊(每1分在不同的人心目中的含义不同),且单位也不等值(此“1”分不一定等于彼“1”分),因此,不能直接比较。
为了使不同的原始分数可以直接比较,就必须对之进行转换。
这种由原始分数转换成的量表分辨叫做导出分数(derivedscores)。
常用的导出允数有:
标准分数、T分数、百分等级分数等。
一、标准分数
(一)标准分数的概念
标准分数是较常用的一种导出分数,它是将原始分数与其平均数之差除以标准差所得的商数。
它是以标准差为单位度量原始分数离开其平均数的量数,表示一个原始分数在团体中所处的相对位置,亦即在平均数之上或之下多少个标准差的位置。
由于原始分数、平均数、标准差的单位相同(分子与分母的单位相同),因此,标准分数是不带单位的,它是一个抽象值,不受原始分数单位的影响,它是等距变量,可接受加减运算的处理。
(二)标准分数的计算
标准分数又叫Z分数,其计算公式为:
Z=
(6—1)
其中,Z为标准分数,X为原始分数,
为原始分数的平均数,S为原始分数的标准差,d=X-
为原始分数与其平均数的离差。
例题某班进行数学和语文测验。
已知数学测验的平均分为70分,标准差为5分;语文的平均分为80分,标准差为10分:
甲生数学得了75分,语文得了85分,问甲生哪科成绩在班上的位置较高?
解:
由于数学与语文的平均分不同,标准差不同,不能用原始分数直接比较,只有将原始分数转换为标准分数,才能判断哪一种成绩的位置高。
按照标准分数的计算公式得:
Z
=
=1
Z
=
=0.5
由上计算可见,甲生的数学成绩位于平均数之上一个标准差的地位,而他的语文成绩只位于平均数之上0.5个标准差的位置,虽然他的语文原始分数要高数学的原始分数10分,但其相对位置却是数学高于语文。
(三)标准分数的性质
如果原始分数的分布服从或近似服从正态分布,则经原始分数转换得的标准分数具有以下性质:
(1)一组数据中各个原始分数的标准分数的平均数为零。
(2)一组数据中各个原始分数的标准分数的标准差为1。
由于标准分数具有以上两点重要的特性,因此它是一个以相对零点做参照点和有相等单位的导出分数,可以进行加减运算。
(3)标准分数的绝对值表示某一原始分数与平均数的相等距离,正负号表示原始分数落在平均数之上或之下。
(4)标准分数的分布与原始分数相同。
(5)如果原始分数的分布是正态分布或接近正态分布,则标准分数的范围大致从一4到4。
由上可知,标准分数是以标准差为单位,有相对零点的等距量数,它具有可比性、可加性。
不管原来分布的平均数、标准差如何,相同的标准分数表示在分布中处于同样的相对位置,它司以直接合成运算。
由于标准分数是含义明确、单位等值的导出分数.所以在教育测量中使用较为广泛。
。
但标准分数也有缺点,它有负数和小数,与人们所熟悉的百分制相差太远,不易为人们所接受,也给以后的统计带来麻烦。
因此,需要对之进行进一步的转换。
二、标准分数的进一步转换
(一)T分数
T分数是由标准分数直接转换而来的,它是将标准分数乘以10,再加上50得到的一个分数。
由于标准分数一般在一4到+4的范围,因此,T分数就在10--90的范围之内,比较接近百分制,也克服了标准分数有负数的缺陷。
T分数实际上就是由标准分数派生出的标准化分数。
T=1OZ+50(6—2)
T分数的计算是先计算出标准分数,再用公式6—2计算出T分数。
T分数虽然比较接近百分制,但它的含义与原始分数完全不同。
它的平均数为50,标准差为10,也是一种相对位置量数。
(二)标准九
标准九(stanine),其全称是标准化九级分制(英文stanines是standardnine的简写),它是以0.5个标准差为单位,将正态分布下的横轴分成九段,最低一段为1分,最高一段为9分,中央一段为5分,其计算公式为:
标准九分数=2Z+5(6—3)
(三)CEEB分数
CEEB分数是美国大学入学考试委员会(CollegeEntranceExaminationBoard)所采用的一种标准化分数,它仍是以标准分数为基础所转换的导出分数。
其计算公式为:
CEEB分数=1OOZ+500(6—4)
CEEB分数的平均数为500,标准差是100,对于非常大的样本(如有几万考生),标准分数的范围可扩大至-4到+4的范围,因此,CEEB分数的范围可从100分到900分。
我国目前多数省的高考总分转换的模式,基本上沿用这一模式,不过这里的标准分数是所有考试科目的标准分的平均分罢了。
广东省采用的就是这一模式,先计算出每科的标准分数,再计算出每科的CEEB分数,而总分实际上是各科CEEB分数的平均数。
又如,“托福”考试,也是采用这一转换模式。
要注意的是,标准分数是一种相对位置量数,它实际上掩盖了原始分数的真实情况。
也就是说,从标准分数中无法看到全体考生的整体水平的高低以及是否达到了要求的目标。
譬如,某次考试,所有考生得分都较低,但某一考生得分远远超过平均数,这时他的标准分数就非常高。
所以,标准分数无所谓满分的概念(它甚至不是一种传统意义上的分数,连读多少“分”都是错误的),比如,通常谈高考的满分为900分,就是错误的。
这里“900分”的含义是你的分数正好超过了平均分4个标准差的分数,而不在于你是否得了满分(如果所有的考生都是满分,那么大家的CEEB分数都等于500了)。
标准分数并不是万能的,它无法改变原始分数的分布形态。
如果原始分数不服从正态分布,那必须先将之转换为百分等级分数,再转换成标准分数。
如果样本容量太小或考试的目的比较特殊的话(如国际奥林匹克竞赛),也没有必要进行转换。
三、百分等级分数
(一)百分等级分数概念t.
百分等级分数也是一种相对地位量数,它把参加测量的全体人数作为一百份来计算,从而以某一原始分数换算出其在全体中所占的地位。
如某学生的测验成绩为70分,经计算其百分等级为65,即表示参加测验的总人数中有65%的人低于70分,亦超过70分的仅有35%。
百分等级分数以P
表示,它不仅表示一个分数在团体中的地位,还可以比较一个人两种学科测验或两次不同测验的成绩,而且还能比较两个团体的成绩,因此百分等级分数也是使用较为广泛的一种相对地位量数。
【二)百分等级分数计算
百分等级分数的基本计算公式为:
P
=100-
(6-5)
其中,P
为百分等级分数,R为全体分数按大小排列,某一给定原始分数所占的名次,N为数据个数。
百分等级分数也有几点缺陷。
首先,它是一种顺序量数,不能进行代数运算;其次,它对两极原始分数反应迟钝,即处于两极端的原始分数发生较大的变化,也不能引起百分等级相应的变化;再次,对原始分数较集中的地方,原始分数的极小变化也能引起百分等级分数的极大波动。
因此,在运用百分等级分数时,对处于两端的分数要认真对待。
第四节教育测量结果的组合
一、合理组合分数的意义
教育测量通常是用许多独立的试题来测量应试者,有时是通过几个分测验(或量表)来进行的,每个分测验(或量表)都有自己的分数,这些分测验的分数有时需要测验的目的和任务,将它们组合起来成为一个合成分数。
譬如,我国高等学校招生对体检、政审、高考分数、中学成绩全面考虑,这实际上是将几个预测源所得的结果,组合起来进行计算和评价。
又如,韦氏成人智力量表是由11个独立分测验所组成。
其中6个分测验(词汇、常识、算术、理解、类似、记忆)构成言语量表,这6个分测验的总分叫做言语智商。
其它5个分测验(数字符号、图象完成、积木设计、图象排列、实物图象拼凑)则构成操作量表,其合成分数叫做操作智商。
此外,还可以把所有(11个分测验)分数合成而得到总智商。
当涉及到要综合考虑被试者数次(或数种)不同测量之间的分数时,必须对多次测量的结果进行组合,才能对被试者作出综合的评价,以决定是否作出相应的选择。
因此,分数的组合具有重要的意义。
二、几种组合方法
由于测量的目的与所用资料的不同,组合分数的方法可以是统计的,也可以是推理的或直觉的。
下面介绍几种常用的组合方法。
(一)直觉判断
直觉判断是评价者凭直觉经验,主观地将各种因素加权而作出结论或进行预测。
它能从整体上对各个因素进行综合考虑,不仅考虑各个因素的相对重要性,也考虑到各个因素间的相互作用。
它是人们常用的一种组合测量结果的方法。
例如,教师和家长在帮助学生填报考志愿、选择学校和专业时,总是根据学生的各科平时成绩、兴趣爱好、专长、身体条件、政治情况及其它因素,综合分析,作出报考学校与专业的判断。
这种方法是针对特殊的个体作出的判断,能考虑到每个人的具体情况。
但直觉判断也有它明显的缺点:
易受评判者偏见的影响,不够准确,并且缺乏精密的数学分析,没有精确的数量指标。
因此,严格时,要求评判者受过专门训练,并具有丰富的经验。
(二)加权求和
权重是指各分变量在总变量中所占的比例或比重的大小。
加权求和是将各次测量的结果按照一定的权重相加,采用所得结果作出判断。
根据权重的不同可分为下列几种情况。
1.等权相加
等权求和是加权求和的一种特殊情况,它是将各变量(题目、分测验或测验)的得分直接相加而获得一个合成分数:
x
=x
+x
+…+x
这里,x
为合成分数,x
(i=1,2,…)为各变量上的分数。
这种方法看起来似乎没有考虑到各变量的权重问题,但实际上是把各变量按等权相加的,只不过权重数”1”省略罢了。
2.加权求和
等权求和仅在各变量具有同等重要性时使用。
而在一般情况下,各变量的作用是不同的。
这时,需要用到一般的加权求和。
加权求和的计算公式为:
x
=W
x
+W
x
+…+W
x
其中,W
(i=1,2,…,n)为各变量的权重,x
(i=1,2,…,n)为各变量上的测验得分。
例如,我校学生综合测评,计算综合得分的量化方法就是先将德、智、文体三个方面算出平均得分,然后按照德育占20%、学业得分占70%、文体占10%的权重加权求和,作为对学生进行量化考评的主要依据,也是评优、毕业分配的主要依据。
3.多科测验分数加权平均的标准化
直接加权求和有几个主要问题:
一是各科原始分数不等值。
因此,不能直接相加,必须转换成其它导出分数后才能相加。
二是没有考虑到各门测验之间可能存在的相关情况。
三是结果没有标准化,故缺乏统一的解释标准。
所以,对多科测验分数的求和,要进行加权平均的标准化。
设x
是第i学科的原始分数变量,x
服从一般正态分布,Z
是第i学科的标准分数变量,W
是按标准分数加权计算总分时第i学科的权数,n为学科数,n个学科是两两相关的,r
是第i学科与第J学科之间的相关系数,i=1,2,…,n。
则多科标准分数加权平均的标准化计算公式为:
=
通过以上公式计算出的值,服从标准正态分布,其平均数为0,标准差为1,它具有统一的参照点和单位。
因此,可以利用它来合理地评定学生的知识水平及其在团体中的地位。
分数也可以对之进行进一步的转换。
如高等学校招生考试,以前理科考七门,文科考六门,理科考生可按公式:
=70
+350计算总分,所得的
在[0,700]上变化;文科考生可按公式:
=60
+300计算总分,所得分数在[0,600]。
(三)多重选择
在实际工作中,人们往往使用几个预测源,当几个预测源不具有互偿性,也就是在某一变量上的低劣无法由另一变量上的优势来补偿时,这就需要给每一预测源确定一条分数线,不论有多少预测源,只要应试者的得分在任意一变量上低于分数线,他将被拒绝。
对同时采用几个不具有互偿性的预测源的测验,多重选择是常用的组合分数的方法。
例如,具有两个预测源的多重选择模式如下:
拒绝
(-)
接受
(+)
拒绝
(-)
拒绝
(+)
接高
测验B
受
拒低
绝
低高
拒绝接受
测验A
图中的虚线分别为测验A和测验B的分数线,每个方格的文字及符号表示两个测验作共同预测源时所作的决定。
只有当测验A和B同时通过时,才作出接受的决定。
(四)多重回归
在有些情况下,人的某种能力或品质可能补偿其它方面的不足。
例如,有些学生的学习是靠勤奋刻苦,有的是由于思维敏捷或记忆力好,这些学生都能取得同样好的学习成绩。
对于这种情况,若采用多重选择法就会把一些本来可能成功的人淘汰掉,对于这种预测源之间具有互偿性的情况,多重回归是最常用的组合分数的模式。
多重回归是研究一种事物或现象与其它事物或现象在数量上相互关系和相互制约的统计方法。
多重回归方程式为:
=a+b
x
+b
x
+…+b
x
其中,
多为预测的效标分数,x
为第i个预测源分数(i:
1,2,…,n),b
为偏回归系数,或者称为第i个预测源的加权数,a是一个常数,用来校正预测源与效标平均数的差异。
多重回归模式中,一个预测源上的低分数可以由另一个预测源上的高分数来弥补。
但多重回归分析的计算比较复杂(参见有关教育统计学的教材),通常由计算机来进行。
要注意的是,当能力间不具有互偿性时,此方法不适用。