心理测量知识点之编制测验的一般程序毙考题.docx

资源描述

心理测量知识点之编制测验的一般程序毙考题.docx

《心理测量知识点之编制测验的一般程序毙考题.docx》由会员分享，可在线阅读，更多相关《心理测量知识点之编制测验的一般程序毙考题.docx（19页珍藏版）》请在冰豆网上搜索。

心理测量知识点之编制测验的一般程序毙考题.docx

心理测量知识点之编制测验的一般程序毙考题

心理测量知识点之编制测验的一般程序

第三章心理测验的编制

工欲善其事，必先利其器。

为了在研究工作和实践中更好地发挥测验的效能，首先要编制出各种高质量的、合用的测验。

第一节编制测验的一般程序

编造测验的方法，依测验的性质而异。

不同类型，不同用途的测验，编制的具体过程是不同的。

但由于测验原理大体相同，因而可以概括出一套通用的编制程序。

总的说来，编制心理测验一般要经过以下几个步骤，确定测验的目的，制定编题计划，编辑题目，题目的试测与分析，集合成测验，将测验标准化，对测验的鉴定，编写测验说明书。

一、确定测验的目的

（一）测量对象

在编造测验前首先要明确测量对象，也就是该测验编成后要用于哪些团体。

只有对受测者的年龄、智力水平、社会经济和文化背景以及阅读水平等心中有数，编制测验时才能有的放矢。

（二）测量目标

所编的测验用来测量什么，是测能力、人格，还是学业成就，也是必须首先考虑的问题。

不但要明确测量的目标，还要对测量目标加以分析，将此目标转换成可操作的术语，即将目标具体化。

如美国著名测验学家瑟斯顿通过因素分析，将智力分解为七种基本心理能力：

语文理解阅读时了解文义的能力。

语词流畅正确迅速拼字与敏捷联想词义的能力

数字运算正确而迅速使用数字解答算术问题的能力。

空间关系运用感觉器官及知觉经验正确判断空间方向及各种关系的能力。

机械记忆对事物强记的能力。

知觉速度迅速而正确地观察与辨别事物的能力。

一般推理根据已知条件推理判断的能力。

瑟斯顿根据上述七种因素于1941年编成了基本心理能力测验又如，在60年代后期，人们开始对测量创造力发生兴趣。

作为指导测验编制的操作定义，有人将创造力看作发散思维的能力，即对规定的刺激产生大量的、变化的、独特反应的能力，据此定义从反应的流畅性、变通性（灵活多变）和独创性三方面来测量创造力。

（三）测量目的

所编出的测验是要对被试做描述，还是做诊断，亦或是选拔和预测，这一点也是在测验编制前就应明确的。

目的不同，编制测验时的取材范围以及试题难度等也不尽同。

譬如，中学毕业考试的目的是考察学生是否掌握了中学阶段所学的各学科的基本知识，在命题时主要注意取材的代表性，不必过多参考虑题目的难度。

而大学入学测验的目的是把学生作区分，以便择优录取，因此试题取样的代表性并不重要（在我国，高考实际上还具有左右中学教学的指挥棒作用，所以应考虑题目取样是否符合教学大纲），但必须根据录取率来确定适当的难度。

而一个学科诊断测验，则只要能找出学生学习困难之所在就可以了，对题目的难度和取样的代表性都不必考虑。

二、制定编题计划

编题计划，实际上就是编制测验的蓝图，通常是一张双向细目表，指出测验所包含的内容和要测定的各种技能，以及对每一个内容、技能的相对重视程度。

不同的测验有不同的内容和技能，对于学绩测验来说，所谓内容就是某一学科教材中的各个课题;所谓技能，就是在教学中要达到的行为目标。

美国心理学家布鲁姆（BSBlJoom）最早提出教育目标的分类问题。

他把学习的心理活动过程分成认知、精神运动和情感三个领域，又把认知领域具体分为知道（记忆事实、条件、方法、原理等的能力）、理解、应用、分析、综合、评价六个层次。

在布鲁姆等人编的《教育目标的分类》一书中，为每个认知层次提供了许多题目范例。

后来人们一般就依据布鲁姆的认知性行为目标编拟学科试题，以测量学生的学习结果。

表31是一个小学高年级自然常识测验的编题计划。

表中的数字代表每一类题目所占的百分比，这些比例反映着每一个内容及目标的相对重要性。

在编制标准化的学绩测验时，这种双向细目表是由学科专家和有经验的教师，在对教材和教学大纲仔细分析的基础上，经过集体讨论制定的，以确保分类合理，比例恰当。

表3一1小学自然常识测验编题计划

获得基

本知识理解原

理原则应用原

理原则分析因

果关系综合成

系统

见解建立评

价标准合计

生物世界35632120

资源利用23311010

动力和机械23420112

物质、物性与能量56832125

气象24322013

宇宙25410012

地球2221108

合计1828301388100

[page]

测验计划有两个用途：

（一）在编题阶段，测验计划指出应该写多少和写哪些种类的题目;题目编好后可将题目的实际分布情况与测验计划对照，以确定测验题目是否恰当地代表了所要测量的领域，核对重要方面的内容是否有遗漏。

（二）在记分时可按表中百分比确定每类题目的分数。

三、编辑项目或题目

（一）搜集有关资料

测验计划编好后，就要搜集有关资料作为命题取材的依据，一个测验的好坏和测验材料的选择适当与否有密切关系。

为此要注意以下几个问题：

1.材料要丰富

资料搜集愈齐全，命题工作便愈顺利，这样测验内容便不致有所偏颇，而且能提高行为样本的代表性。

如编制人格测验，搜集的资料应包括：

人格的主要理论，用于描述人格的术语，临床观察的资料，以及其它人格调查表的题目等。

2.材料要有普遍性

所选择的材料对测验对象要尽可能公平，即受测者都有相等的学习机会。

譬如，编制标准化的学科成绩测验时，要以统一的教学大纲和统编教材作为题目来源，不能只考虑个别教师的意见，而要考虑大多数教师和专家的意见。

在编制智力测验时则要尽量避免特殊知识经验和文化水平的影响。

（二）选择项目形式

测验编制者还必须确定题目的表现方式，是纸笔测验还是操作测验，是只要受测者认出正确答案，还是需要他自己做出正确答案。

在大多数情况下，任何题目都可以用几种形式呈现，问题是如何选择最优的形式（各种题目形式的比较和编题原则，在下一节详细讨论）。

在一个测验中，可以采用一种形式，也可以采用几种形式。

在选择题目形式时，要考虑以下几点：

1.测验的目的和材料的性质

如果要考察学生对概念和原理的记忆，适于用简答题，要考察对事物的辨别和判断，适于用选择题，而要考察综合运用知识的能力，则适于用论文题。

2.接受测验的团体的特点

如对幼儿宜用口头测验，对于文盲识字不多的人不宜采用要求读和写的项目，而对有言语缺陷的人（如聋哑，口吃）则要尽量采用操作项目。

3.各种实际因素

譬如，当被试人数过多，测验时间和经费又有限时，宜用选择题进行团体纸笔测验，而人数步，时间充裕，又有某些实验器和设备，则可用操作测验。

我国的廖世承、陈鹤琴先生几十年前曾提出以下几条选择测验形式的原则：

使被试者容易明了测验作法;在做测验时不会弄错;做法简明省时，计分省时省力;经济。

（三）编写和修订题目

制定测题的过程包括，写出、编辑、预试和修改等一系列过程。

在获得一个令人满意的测题之前，这些步骤是不断重复的。

在这个过程中，编制者和有关方面专家要对题目反复审察修订，改正意义不明确的词语，取消一些重复的和不合用的题目。

然后将初步满意的题目集起来组成一个预备测验。

编写题目要注意以下几个问题。

1.题目的范围要与测验计划所列的内容技能双维表相一致。

2.题目的数量要比最后所需的数目多一倍至几倍，以备筛选和编制复份。

3.题目的难度必须符合测验目的的需要。

4.题目的说明必须清楚明白。

四、项目的试测和分析

初步筛选出的项目虽然在内容和形式上符合要求，但是否具有适当的难度与鉴别作用，必须通过实践来检验，也就是要通过预测进行项目分析，为进一步筛选题目提供客观依据。

（一）试测

项目性能之优劣，不能仅凭测验编制者主观的臆测来决定，必须将初步筛选出的项目结合成一种或几种预备测验，经过实际的试测而得客观性资料。

预测应注意以下几个问题：

1.预测对象应取自将来正式测验准备应用的群体。

例如，对于一个学绩测验来说，进行预备测验的学生必须和测验所指定的被试属于同一个年级。

并且具有相同的课程背景。

取样时应注意其代表性，人数不必太多，亦不可过少。

2.预测的实施过程与情境应力求与将来正式测验时的情况相近似。

3.预测的时限可稍宽一些，最好使每个受试者都能将题目做完。

以搜集较充分的反应资料，使统计分析的结果更为可靠。

4.在预测过程中，应对受试者的反应情形随时加以记录，如在不同时限内一般受试者所完成的题数、题意不清之处及其他有关问题。

预测的目的在于获得被试对题目如何反应的资料，它既能提供哪些题目意义不清，容易引起误解等质量方面的信息，又能提供关于题目好坏的数量指标，而且通过预测还可以发现一些原来想不到的情况，如检验时限长合适，在施测过程中还有哪些条件需要进一步控制等。

（二）项目分析

对项目的分析包括质的分析和量的分析两个方面。

前者是从内容取样的适切性，题目的思想性以及表达否清楚等方面加以评鉴，后者是对预测结果进行统计分析，确定题目的难度、区分度、备选答案的合适度等。

编制一套测验，只依据一次预测的结果所作的题目分析是不够的。

由于预测的被试样本可能会有取样误差，故由此得到的项目分析结果未必完全可靠;为了检验所选出的项目的性能是否真正符合要求，通常需再选取来自同一总体的另一样本再测一次，并根据其结果进行第二次项目分析，看两次分析结果是否一致。

如果某个题目前后差距较大，说明该题的性能值得怀疑。

这种在两个独立样本中进行项目分析的过程叫做复核。

[page]

五、合成测验

经过预测和项目分析，对各个题目的性能已有可靠的资料作为评价的根据，下一步就可以选出性能优良的题目加以适当的编排，组合成测验。

（一）项目的选择

在选择项目时，不但要考虑项目分析所提供的资料，还要考虑测验的目的、性质与功能。

最好的题目，就是只测定所需要的特征，并能对该特征加以有效区分的难度合适的题目。

首先是要测定所需要的特征，如果我们想测定语言推理能力，就不要包括主要测量阅读能力或算术知识的项目。

题目性能好坏是相对的，不同的测验对题目的难度和区分度有不同的要求。

一般说来，题目的区分度越高越好，这是选择题目的一条重要标准。

特别是对于选拔测验，此条尤为重要。

但有时根据需要也可以保留个别鉴别力不高的题目。

如在学科成就测验中有些内容十分重要，即使区分度低一些，也要包括在内。

选择题目的另一个指标是难度.难度多大合适并无一个绝对标准，而要根据测验目的来确定。

有的要求难一些，有的则要求容易一些，有的可不考虑难度，就是同一张试卷，题目难度也可以不同，只要整个测验的平均难度符合测验要求即可。

根据题目分析资料选出的题目，还要与测验计划（双向细目表）再次对照，看看在材料内容以及所测量的认知技能上的比率是否与计划相符，必要时须加以适当调整。

此外题目的数量还必须适合于所限定的时间。

（二）项目的编排

项目选出之后，必须根据测验的目的与性质，并考虑受试者作答时的心理反应方式，加以合理安排。

在测验开头应该有一，两个十分容易的题目，以使受测者熟悉作答程序，解除紧张情绪，建立信心，进入测验情境。

对试题的总的编排原则是要由易到难。

这样可避免受测者在难题上耽搁时间太多，而影响对后面问题的解答。

在测验最后可有少数难度较大的题目，以测出受测者的最高水平。

下面是两种常见的排列方式：

1.并列直进式

此种方式是将整个测验按试题材料的性质归为若干分测验，在同一分测验的试题，则依其难度由易到难排列。

2.混合螺旋式

此种方式是先将各类试题依难度分成若干不同的层次，再将不同性质的试题予以组合，作交叉式的排列，其难度则渐次升进。

此种排列的优点是，受试者对各类试题循序作答，从而维持作答的兴趣。

（三）编造复本

为增加实际的效用，一种测验至少要有等值的两份，份数越多，使用起来愈便利。

例如，我们要用测验来考察一班学生在一学期中的进步，必须测量两次，一次在开学初，一次在学期末，两次结果的差别代表一学期中成绩的提高。

如果测验只有一份，用两次就难免有练习的影响，不能完全代表进步的数量。

要是这个测验有好几份替换使用，就可以免掉这种困难。

测验的各份复本必须等值，所谓等值需符合下列几个条件：

1.各份测验测量的是同一种心理特性。

2.各份测验具有相同的内容和形式。

3.各份测验的题目不应有重复的地方。

4.各份测验题目数量相等，并且有大体相同的难度和区分度。

5.各份测验的分数分布（平均数和差异度）大致相等。

只要有足够数量的题目，编造复本的手续是很简单的。

先将所有合用的题目按难度排列，其次序为1、2、3、4、5、6、如果要分成两个等值的测验本，可采用下面的分法。

A本：

1、4、5、8、9、12、13、16、17、20、

B本：

2、3、6、7、10、11、14、15、18、19、

如果要分成三个等值的测验本，可用采下的分法：

A本：

1、6、7、12、13、18、19、24、

B本：

2、5、8、11、14、17、20、23、

C本：

3、4、9、10、15、16、21、22、

采用上面的分法可使复本之间在难度上基本相等，从而获得大体相同的分数分布。

复本编好后，应该再试测一次，以决定各份究竟是否等值。

[page]

六、将测验标准化

套好的题目并不一定是一个好的测验。

对于测验的基本要求是准确、可靠。

为了减少误差，就要控制无关因素对测验目的的影响，这个控制的过程，称作标准化。

具体包括以下几方面：

（一）内容

标准化的首要条件，是对所有受测者施测相同的或等值的题目。

测验的内容不同，所得的结果便无法比较。

（二）施测

尽管对于所有的受测者使用了相同的题目，但如果在施测时各行其是，所得的分数也不能进行比较。

为了使测验条件相同，必须有统一的指导语和时间限制。

1.指导语

给受测者的指导语属于测验刺激的一部分，它的内容通常包括对测验目的说明和受测者应该如何作答的指示（包括如何选择反应、记录反应、以及时限等）。

对于纸笔测验来说，这些指示一般印在测验的开始部分，也可以印在另外一张纸上。

要求简单明确，不引起误解。

如果题目形式对被试是生疏的，还应该有一些例题。

指导语会直接影响受测者的作答态度与方法。

有人以不同的指导语对几组被试实施同一个能力测验，结果表明，将该测验说成智力测验的一组，成绩最高;将之说成日常测验的一组，成绩最纸。

为了保证测验情境的一致，还要有对主试者的指导语，主要是对测验细节作进一步解释，以及其它一些有关事项，包括测验房间场地的安排（照明、桌掎、隔音、温度等），测验材料的分发，如何计时、记分，对被试的各种提问如何回答，以及在测验中途发生意外情况（如停电，有人迟到，生病;作弊等应该如何处理。

由于主试者的一言一行，甚至表情动作都会对受测者产生影响，所以主试者一定要严格遵守施测指导，不要任意发挥和解释。

总的要求是，无论什么人、在什么时候、什么地点使用同一测验，都必须做同样的事，说同样的话。

对主试者的指导语与测验是分开的。

2.时限

确定测验的时限，要考虑施测条件和实际情况的限制（如一节课时间的长度），以及被试的特点（如对儿童、老人、病人施测时间不宜过长），不过更重要的是考虑测量目标的要求。

对于人格测验来说，反应速度是不重要的，可不必规定严格的时限，但是在测量能力和学绩成就时，速度是需要考虑的一个重要因素。

依据速度在活动中所起的作用，可以把测验分成速度测验和难度测验。

纯速度测验时间应当严格限制，使被试中没有人能在规定时间内做完全部题目。

纯难度测验只考察被试解决难题的水平而不考虑完成时间。

实际上，大多数能力和学绩测验介于上述二者之间，既考察反应的速度也考察解决难题的能力。

通常所用的时限是使大约90%的受训者能在规定时间内完成全部测验，如果题目由易到难排列，应使大多人在规定对间内完成他会答的问题。

确定时限一般采用尝试法，即通过预测来决定。

假设根据第一次试测的经验，我们估计大部分被试可以在25分钟内做完，在第二次试测时，可以先叫被试用黑铅笔做20分钟，然后换成红铅笔，再过5分钟换成蓝铅笔，这样便可了解被试在规定时间内完成题目的数量。

另一种方法是在施测现场挂一只钟，每个被试做完后即将当时时间写在试卷末尾。

试卷收齐之后再根据被试完成情况规定合适的时限。

（三）评分

标准化的第三个要素是客观评分。

客观性意味着在两个或两个以上的受过训练的评分者之间有一致性。

只有当评分是客观的时候才能够把分数的差异完全归诸受测者的差异。

一般说来，自由反应的题目（如问答题、论文题等）评分者之间很难取得完全一致，而选择题的评分较为客观，因此有人将选择题组成的测验叫客观性测验。

无论哪种测验，为使评分尽可能客观，有三点要求：

1.对反应的及时的和清楚的记录。

特别是对口试和操作测验，此点尤为重要，必要时可以录音和录象。

2.要有一张标准答案或正确反应的表格，即计分键。

选择题测验的计分包括一系列正确的答案和容许的变化;论文题的计分键包含各种可能答案的要点;人格测验不可能有明确而统一的答案;计分键上指明的是具有或缺少某种人格特征者的典型反应。

3.将受测者的反应和计分键比较，对反应进行分类。

对于选择题来说，这个程序是很容易的，但是当评分者的判断可能是一个起作用的因素时（如问答题、论文题），就需要对评分规则作详细的说明，评分时将每一个人的反应和评分说明书上所提供的样例相比较，然后按最接近的答案样例给分。

无论采用何种评分方法，都必须符合客观、正确/经济/实用四项原则。

（四）常模

一个标准化测验，不但内容、施测和评分要标准化，对分数的解释也必须标准化，如果同一个分数可做出不同的推论，测量便失去了客观性。

多数测验用常模作解释分数的依据。

测验分数必须与某种标准比较，方能显出它所代表的意义。

例如。

某学生成绩单上写着：

物理85分。

我们仅从这个分数很难断定他学得如何，因为没有一个比较的标准。

在传统心理测验中，是把个人所得的分数与代表一般人同类行为的分数相比较，以判别其所得分数的高低。

此处所指的代表一般人同类行为的分数，即为常模。

例如，以摄氏温度计，便可确诊为发烧，因为一般人的正常体温是37℃，这就是成人体温的常模。

建立常模的方法是，在将来要使用测验的全体对象中，选择有代表性的一部分人（称标准化样本），对此样本施测并将所得的分数加以统计整体，得出一个具有代表性的分数分布。

标准化样本的平均数，即为该测验的常模。

常模可因标准化时选取样本的不同而有不同的类别。

常见的有年龄常模、年级常模、性别常模、地域常模、民族常模、职业常模等。

七、对测验的鉴定

测验编好后，必须对其测量的可靠性和有效性进行考验，为此就要进行测量学方面的分析，搜集信度和效度资料。

（一）信度

信度指的是测量的可靠性或一致性。

我们用钢片卷尺去量黑板的长度，所得的结果是可靠的，因为无论是由一个人量数次还是分别由几个人去量，所得的结果都是一致的。

如果我们改用橡皮筋做的软尺去测量黑板的长度时，因为拉力大小不同，多次或多人测量所得的结果就难得一致。

因此，用橡皮筋做的软尺测量长度是不可靠的，也就是说，这样的测量工具是缺乏信度的。

一个测验在标准化的时候，必须确定它的信度。

确定信度多采用相关法。

以相关系数的大小表示信度的高低。

（二）效度

效度指的是测量的有效性或正确性，这是测量工具的最基本的要求。

衡量一个测量工具有没有效，就是看它所测量的是不是它所要测的东西。

例如，以磅秤量体重是有效的，但如果用它量身高，虽然多次测量结果一致（信度高），但所得的数量并不能代表个人的身高，因此对量身高来说，磅秤是个无效或效度极低的工具。

在编制心理测验时，如何提高效度，无疑是个首要的问题。

效度的确定方法，视测量的性质和目的而定。

一般将效度分为三大类：

实证效度、内容效度、构想效度。

关于信度和效度问题，本书后边有专章讨论。

八、编写测验说明书

为使测验能够合理地实施与应用，在正式测验编写完成后，还要编制一份说明书，就下列问题作出详尽而明确的说明：

（一）本测验的目的和功用。

（二）编制测验的理论背景以及选择题目的根据。

（三）测验的实施方法、时限及注意事项。

（四）测验的标准答案和评分方法。

（五）常模资料，包括常模表，常模适用的团体及对分数如何做解释。

（六）测验的信度效度资料，包括信度系数，效度系数以及这些数据是在什么情境下得到的。

经过以上八个步骤，一个测验便可正式交付使用了。

展开阅读全文