第八章如何编制一个测验pptConvertor.docx

资源描述

第八章如何编制一个测验pptConvertor.docx

《第八章如何编制一个测验pptConvertor.docx》由会员分享，可在线阅读，更多相关《第八章如何编制一个测验pptConvertor.docx（38页珍藏版）》请在冰豆网上搜索。

第八章如何编制一个测验pptConvertor.docx

第八章如何编制一个测验pptConvertor

第八章如何编制一个测验

定义测验的结构、对象和目的

编制测验计划

编写测验项目

撰写施测指导语

进行初测

进行项目分析

修订测验

对测验效度进行检验

编制常模

编写测验手册

测验结构、对象和目的

编写一个测验计划

编写测验项目

编写测验指导语

进行初测

进行项目分析

修订测验

信效度检验

编制常模

编制测验手册

必要时会重复

测验开发流程图

一、界定测验的结构、对象和目的

心理测量的对象是？

结构

对文献进行全面的回顾，找出对于该结构进行了解释的研究。

已有的测量该结构的测验。

1.1测验的结构

明确量表将应用于那些个人或团体。

通常以年龄、性别、职业、受教育程度、民族、文化背景等指标来区分测量对象。

开发者写出将要参加该测验的人的特征列表，尤其那些可能影响到测验参与者如何对测验做出反应的特征。

测验对象的残疾或其他特征。

视力、文盲、文化背景差异。

参与者是否会诚实作答。

不诚实的人想通过诚实测验；精神疾病的人想得到健康的诊断结果。

1.2测量对象

举例：

对于智力的界定

文化差异容易导致心理结构取向有所不同。

RogoffandMorelli（1989）实验：

要求非洲原住民部族的被试将20中物品按照他们认为最聪明的方式进行分类，结果被试将橘子和小刀分为一类、把土豆和锄头归为一类。

实验完毕，主试问“愚笨的人会怎样分类？

”，被试迅速将物品分为两类：

食物和工具。

1.3界定测验用途

明确测验干什么用，包含两方面的含义：

一方面是测验将要测量的内容，是智力、人格还是注意力、创造力等。

另一方面是对于测验分数如何使用。

用于群体中的比较还是用于对个体心理特质的解释。

描述还是诊断

选拔还是预测

科研还是应用

返回流程图

二、编制测验计划

测验的结构及其定义与操作性定义

选择测验的形式（项目的形式）

规定施测的形式

评分方法

2.1界定测验的结构及其定义

通过对已有文献及测验的回顾，已经为编写测验的结构定义做好了准备。

定义包括用可观察和可测量的行为使该构想可操作化。

详细说明哪些内容应该被测量、哪些内容不适合被测量，为测验领域划定边界。

从每个维度中应该抽取几个题目。

举例：

大学生适应量表的结构

焦虑

抑郁

自杀意念

物质滥用

自尊问题

人际问题

家庭问题

学业问题

职业问题

自杀意念定义：

对最近想要自杀的意念程度的测量，包括绝望和放弃。

行为：

自杀意念表现为报告自杀的想法或与自杀企图有关的行为，包括制定一个自杀计划。

举例：

大学生适应量表的结构

2.2选择测验形式

选择测验的类型

主观题、客观题

投射测验

2.3规定施测形式

测验如何实施：

书面、口头、计算机

测验时间

群体施测、个体施测

测验出版商、施测者、完成人进行评分

数据类型转换

2.4评分方法

对于测验项目如何进行计分

各个指标的比重

返回流程图

三、编写测验项目（item）

客观题

单选

判断

迫选题

主观题

论述题

面试题

完成句子

反应偏差

有些测验参与者倾向于提供或者选择那些被社会所接受的答案或对自己有利的答案，社会赞许（socialdesirability）。

默认倾向（acquiescence），被试对所问及的任何观点和行为都表示同意的倾向。

在崇尚尊崇和礼仪的文化中最为常见。

随机反应。

被试不愿意或者不能够对测验项目做出正确的反应。

作假。

加入一些特殊题目防止识别哪些被试的回答是诚实可信的。

作假量表或效度量表。

表面效度，强化被试在测验过程中的合作意愿。

编写有效项目的技巧

通过参考测验计划来寻找项目主题。

将测验计划与测验本身紧密联系起来。

每一个测验项目都要围绕着一个核心结构。

测验项目应该来自于所测的心理结构，而不是通过常识就可以回答的内容。

每个项目都要直接、清楚。

精确的词汇、简单的句子结构以及正确的语法和标点。

使用对目标群体而言恰当的词汇或语言。

不要使用俚语或口头语。

使得每个项目独立于其他项目。

在其他测验项目不要有对于另外测验项目的提示。

请教专家进行核查。

单选与判断题的注意事项：

避免使用否定的题干或选项。

最好不要这样问“下面哪一个选项不正确”。

所有选项在细节和长度上都相似。

确保每个选项只有一个答案或是最好的答案。

避免使用“总是”、“从来没有”等词汇（测谎题除外）。

避免选项间的重叠。

A，10-20、B，20-30

使用随机排序来设置正确答案的位置。

返回流程图

四、编写测验指导语

施测者指导语

被试的指导语

评分及分数解释指导语

施测者指导语：

团体施测还是个体施测

施测环境要求

要求的工具：

铅笔，网络连接

测验的时间限制

向被试宣读的稿子，及被试经常会问到的问题

资格证或需要接受的培训

被试指导语：

传达测验时需要注意的问题

如何作答

鼓励被试提供准确的和诚实的回答

也有可能为被试设置一个背景：

回答下列问题时，请考虑你当时的工作环境。

简单明了，不能过于复杂。

评分及分数解释指导语：

确保对测验进行评分的每个人都会依据同样的程序进行。

测验分数与测验结构之间的联系。

高分意味着什么，低分意味着什么。

返回流程图

五、进行初测（预测）

预测中的目标群体、环境

预测群体的大小

收集额外的数据（指导语、项目编写、被试的反应）

初步的分析

返回流程图

六、项目分析

难度

区分度

项目间的相关

定性测验的分析

（探索性因素分析）

返回流程图

七、修改测验

修改、删减项目

修改指导语

返回流程图

八、信效度分析

信度分析

效度分析（验证性因素分析）

返回流程图

九、编写测验常模

返回流程图

十、编写测验手册

编写过程一直伴随着测验开发过程

测验的目的与功能

理论依据与材料来源

还包括：

答案、指导语、测验开发的有关信息、信效度验证、常模以及临界值。

返回流程图

有什么问题吗?

心理学是科学吗？

与物理学、化学有何区别？

第六章测验题目性能与题目编写

要点提示：

1、测验题目有那些类型？

各类型的题目功能如何？

2、难度、区分度、猜测度，计算，控制

3、选项分析与选项修改

第一节

测验题目类型、功能与题目编写

一、测验题目类型及功能

题目（item，也叫项目）。

题目主要分为客观题和主观题。

客观题有唯一标准答案

主观题只有一个参考答案

客观题包括：

选择题（含自陈选择题）、填空题、是非判断题、匹配题、行为情景判断题等。

主观题包括：

名词解释、简答题、计算题、证明题、论述题、案例分析题、作文题等。

类型

自陈选择题：

给出一系列陈述句或问题，描述一种特定的心理特质的行为特征，同时提供两个以上的选项供被试选择。

设置方式

内容

例子

是否式

选项为“是”和“否”两种

我喜欢独自玩游戏。

是否

是否折中式

选项为“是”、“否”、“介于是否之间”三种

我善于控制自己的情绪。

A是的

B不是C介于A和B之间

文字等级式

5-7个程度不等的选项

你对自己的生活满意吗？

非常满意比较满意无所谓不大满意极不满意

数字等级式

是文字等级式的变式，将文字变成数字

你对自己的生活满意吗？

非常满意──非常不满意

12345

类型

行为情景判断题：

给出一个日常生活中或工作中的具体情境，并针对该情境提供若干解决这一情境下具体问题的行为选项，要求受测者进行选择/评价的题型。

主要应用与实践能力及人格测量。

二、测验题目的编写

编写选择题的注意事项：

题干要描述清楚，应该让被试明白问题是什么，希望被试解决什么问题。

尽量避免与考核内容无关的材料

设问应尽量正向，尽量少出现“下面哪个是不对的”这样的提问。

题干文字的字体应尽量一致（不要有的粗体，有的斜体等），减轻被试的阅读负担。

备选项避免出现逻辑上的包含关系。

备选项的长度、结构、语言表达尽量一致。

增加干扰项的迷惑性，在干扰项中不要使用“绝对”、“总是”等词汇，避免暗示被试排除或确认某些选项。

干扰项的设置应能反映出被试缺乏特定的知识或技能。

案例分析题的注意事项

实际生活中发生的，且与实际生活相贴近。

试题材料必须条件充分，叙述完整，语言规范。

被试利用所学知识和已有能力确实可以得出结论的问题。

应该是有正确结论的案例，理论界还有正义的问题不宜作为考题材料

以大纲对考核知识的最高要求为度，不能超纲。

一般从不同的角度设问；也可通过递进式的层层设问，最终达到考察综合应用知识的目标。

第二节

难度

一.定义

测验项目的难易程度。

二.计算

根据计分方式的不同，测验难度的计算分为二分法难度的计算、非二分法难度的计算两种。

二.计算

（1）通过率

在不考虑猜测因素影响的情况下。

可以用通过率来表示，答对该项目人数的比例。

P=R/N

P代表难度，P值越大，难度越小。

R答对该项目的人数

N总人数

1、二分法计分项目难度的计算

二.计算

（2）极端分组法

在人数较多的情况下。

可以取前27%作为高分组，后27%为低分组。

P=（PH+PL）/2

1、二分法计分项目难度的计算

二.计算

对于简答、论述类的题目，被试的分数从零分到满分之间，有多种可能的结果。

计算公式：

P=平均分/满分

2、非二分法计分项目难度的计算

三.难度水平的确定

难度水平的确定取决于测验的目的、项目形式、及测验的性质。

考察性测试

选拔性质的测试

四.难度的等距变换

根据通过率P，计算得到的难度值，属于顺序变量，不方便进一步的分析。

需要将其转换为等距量表。

当被试样本容量很大时，其能力水平接近于正态分布。

可以用正态分布曲线表，将试题的难度P作为正态曲线的下面积，转换成Z分数。

五.难度对测验的影响

测验难度偏高，被试得分集中在低分端，正偏态；

测验难度偏低，被试得分集中在高分端，负偏态

中等难度，正态分布。

1、分布形态的影响

五.难度对测验的影响

过难、过易会使得测验分数集中在两端，分数的离散程度低。

不易区分被试的能力水平。

项目难度在0.5时，可以使被试分数分布的离散程度最佳。

取得高的信度。

2、分布的离散程度

第三节

测验的区分度

一.含义及作用

1、含义：

测验项目对被试心理品质水平差异的区分能力。

2、作用：

区分度可以作为一个测验是否具有效度的“指示器”。

注意：

区分度D的值介于-1到+1之间，D值越大，区分度越好。

但是区分度的高低，依赖于对被试水平的精确测量（效标分数）。

效标分数一般用的是测验总分，称作内部效标。

1项目鉴别指数法（二分法计分）

取前27%的被试作为高分组，计算通过率（PH）

取后27%的被试作为低分组，计算通过率（PL）

两者之差D=PH–PL为鉴别力指数。

注意：

被试样本人数过少，不宜使用27%规则。

二.区分度的计算

2相关法（注意各种相关法的适用条件）

（1）点二列相关

前提条件：

项目是0、1计分（二分变量），效标是连续变量。

注意：

需要对其相关系数做显著性检验。

二.区分度的计算

2相关法（注意各种相关法的适用条件）

（2）二列相关

前提条件：

都是连续的测量变量，但其中一组被人为分为两类。

注意：

对于分布形态有要求。

需要相关的显著性检验。

2相关法（注意各种相关法的适用条件）

（3）φ相关

前提条件：

两变量都是二分名义变量。

注意：

不满足其他相关条件的，可以用这个公式来计算。

（4）积差相关

前提条件：

项目与效标均是连续性变量，正态分布。

假设项目通过率为1，就是说高分组、低分组被试全部通过，即PH=1，PL=1。

D=PH-PL=0；

假设项目通过率为0，就是说高分组、低分组被试全部没通过，即PH=0，PL=0。

D=PH-PL=0；

假设项目通过率为0.5，那么有可能高分组全部通过、低分组被试全部没通过，即PH=1，PL=0。

D=PH-PL=1，取得最大值；

三.区分度与难度的计算

在实际运用中，应使难度分布广一些，呈正态分布，平均值在0.5左右。

1计算方法不同，所得值也不同

2样本容量大小

3分组标准

4被试样本的同质性

5所测心理品质的一致性

6题目本身的文字表述和内容质量

四.区分度的相对性

第三节

猜测问题与猜测率

一.猜测校正的性质与公式

原因：

在选择题测验中，猜测会引起项目难度的降低，使通过率或得分高于被试的实际水平，，需要对猜测进行校正。

在选择题中被选答案越少，机遇的作用越大。

因此，需要对于难度系数进行校正：

CP=（KP-1）/（K-1）

CP为校正后的通过率；K为被选答案数；P为实际通过率。

对于单个被试来说，参加多个项目所组成的测验，由于猜测因素的存在，同样需要校正：

S=R-W/（K-1）

S校正后的得分；R被试答对的项目数；W被试答错的项目数；K选项数目。

二、优缺点

第七章常模参照测验的设计与编制

要点提示：

什么是常模？

常模有什么作用？

常模的种类有哪些？

常模是如何建构的？

什么是标准化样本

什么是原始分数和导出分数？

不同常模分数之间的关系是怎样的？

第一节

分数转换

一.定义

导出分数：

在原始分数转换的基础上，按照一定的规则，经过统计处理后获得的具有一定参考点和单位，且可以相互比较的分数。

百分等级

标准分数

T分数

二.百分等级分数

1、概念

2、计算：

（1）未分组资料

（2）分组资料

3、评价

（1）优点：

是一种相对位置量数，具有可比性、易计算、解释方便，不受原始分数分布状态的影响。

（2）缺点：

单位不等，只具有顺序性，相对于特定群体环境而言。

三.标准分数

四.标准分数的变式

五.标准九分数

六.导出分数间的相互关系

第二节

分数合成

一.种类

分数转换是对于一个测验而言的。

高考？

招聘

将几个预测源结合起来，以获得一个总的分数或预测源，分数合成。

基本测验项目组成分测验

分测验得分组成合成分数

几个测验得分组合

考虑：

方法形式数量及性质

二.合成的方法

临床诊断-直觉合成

填报志愿

高度的综合性灵活的针对性

易受偏见的影响缺乏精确的数量分析

加权求和

（1）单位加权

X=X1+X2+X3+……+Xn

（2）等量加权

Z=Z1+Z2+Z3+……+Zn

（3）差异加权

Z=W1Z1+W2Z2+W3Z3+……+WnZn

多重回归

测验结果→估计预测效标

根据高考各科成绩预测大一期末学习成绩。

步骤：

高考各科成绩的平均数、标准差；大一期末学习成绩的平均数和标准差；分数间的相关矩阵。

输出：

各预测源的加权量；决定系数R2

注意：

线性关系

多重划分

考研究生专业课英语政治

所测特质之间不具有互偿性。

步骤：

先把最有效的预测源放在前面；

依次类推

第二节

常模参照测验概述

一.含义及作用

常模参照测验（norm-referencedtest）：

是通过测试将被试个体的心理发展水平与某一特定群体（测试对象总体）的心理发展水平进行比较，从而确定被试个体心理发展水平在这一特定群体中相对地位的测验。

标准化测验的重要指标是：

标准化的施测指导语、计分方法、结果解释以及分数报告模式。

来自于被试总体的足够大的有代表性的样本就叫标准化样本（standardizationsample）。

把被试在测验中通过累加题目得分而获得的测验分数叫原始分数（rawscore）。

一.含义及作用

1、含义：

常模参照测验是根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表。

2、作用：

被试可以根据自己的分数，找到在团体中所处地位。

步骤：

确定测谁、获得分数、分数转化

1定义：

具有共同特征的人所组成的一个群体，或者是该群体中的一个样本。

一个测验可以有多个常模团体；

常模团体要有代表性；

二.常模团体

2注意事项

（1）界限明确说明常模团体的性质与特征

（2）代表性

（3）取样过程详尽描述

（4）大小适当

（5）时效性

（6）一般常模与特殊常模相结合

补充：

为了便于确定个体测验得分在标准化样本群体中所处的地位，被试在测验中获得的原始分数经常会被转换成某种导出分数（derivedscore）。

经常使用的分数转换方式有两种：

一是纵向转换，即把个体得分与不同年龄的发展水平进行比较，并转换成相应的等级水平（发展性常模）；另一种是把个体得分与同一群体内其他人的分数进行比较。

1发展量表：

智龄、年级当量

人的许多心理特质是随时间有系统发展的，所以可将个人的成绩和各种发展水平的人的发展水平相比较，而制成发展量表。

三.几种主要的常模参照分数

1.1智龄

1908年比内和西蒙使用智龄来度量智力。

在年龄量表中，题目被划入各个年龄水平。

一个儿童的量表分数就是他所达到的最高水平。

一个儿童在年龄量表上所得的分数，就是最能代表他智力年龄的水平，这种分数就叫智力年龄，简称智龄。

中国比内测验（吴天敏）

适用于：

2-18岁。

每岁三个项目，每题4个月

1、比大小园；2、说出物体名称；3、比长短线；

4、辨别图形；……7、说出手指数……30、迷津……45、说明含义……49、解释成语……51、区别语义

年龄常模的基本要素

一组能区分不同年龄的题目

一个由各个年龄被试组成的代表性样本

一个表明答对那些题或得多少分该归入哪个年龄的对照表。

1.2年级当量

是一个特定年级的学生在测验中取得分数的平均值。

年级常模通常以月为区间，每个年级有10个区间，并假定其寒暑假期间所关注的特质没有成长或发展。

年级当量4.0，表示四年级开始时的平均成绩；

4.5表示第五个月时的平均成绩

需要注意的问题

容易产生误解：

二年级的学生得到了一个5.3年级当量。

恰当解释是：

在这些内容为2年级的测验中，这位被试与典型的5年级3月学生（期望）做的相似。

同一被试不同科目间的年级当量不能比较

年级常模仅适用于低年级及一般科目

年级常模不是标准

对于发展常模的评价

基于发展常模的分数是粗略的，没有精确的统计方法。

主要用于描述目的、临床病理诊断、科学研究。

2商数（智商教育商数成就商数）

斯坦福—比内智力量表第二版的突出进步是引入了智商（IntelligenceQuotient）来报告分数。

IQ=智龄（MA）/实龄（CA）由L.W.Stern首先提出。

智龄只能表示智力的绝对高低，不能比较不同实龄儿童智力高低；智商可以表示智力的相对高低。

百分等级分数常模

标准分数常模

3群体内常模（within-groupnorms）

第九章智力测验及其实施

智力的含义是什么？

智力测验有用吗？

智力的因素分析理论和智力的信息加工理论的异同点是什么？

常用的个别和团体智力测验有哪些？

简述二者特点。

第一节智力测验概述

1.1智力的定义是什么？

一、智力测验的相关概念

可以通过外显的，可观察的行为来识别智力。

有代表性的定义：

（1）智力是学习的能力

（2）智力是适应环境的能力

（3）智力是抽象思维的能力

（4）智力是加工信息的能力

（5）是个体心理能量的总和，能够使个体有目的的行动，使个体的思想有条理，并且能够对自身的环境作出有效的适应。

一个综合的定义

智力是人们认识、理解客观事物并运用知识、经验等解决问题的一般能力，它包括观察能力、注意能力、记忆能力、思维能力、想象能力、操作能力等。

由于智力被看做人的各种能力的综合，因此智力测验也被称为普通能力测验。

智力年龄

比率智商：

智力商数（IntelligenceQuotient）。

斯坦福——比奈智力量表。

离差智商：

把测验分数按照正态分布曲线标准化，把原始分数转换为平均数为100，标准差为15的标准分数。

韦克斯勒智力量表。

1.2智力测验及其指标

1.3智力的分布和分类标准

智商

类别

百分比

理论分布

斯比量表

韦氏量表

140以上

高超常

0.38

1.6

2.3

120-139

超常

8.8

11.3

7.4

110-119

高于平常

15.96

18.1

16.5

90-109

平常

49.72

46.5

49.4

80-89

低于平常

15.96

14.5

16.2

70-79

临界水平

6.9

5.8

70以下

智力缺损

2.28

2.9

2.2

天才？

gifted

二、智力测验的理论依据

智力的二因素说：

（CharlesE.Spearman）提出，

（1）一般因素（G因素）代表个人的普通智力，是一切心智活动的主题和智力的基础，个体间智力的差异决定于G因素的多寡；

（2）特殊因素（S因素），代表个人的特殊智力，只有在某些特殊情况（特殊工作或活动）下才会表现出来。

2.1智力因素分析理论

智力三因素说，（EdwardL.Throndike）:

（1）抽象智力，处理语言和数学符号的智力；

（2）具体智力，处理事物的智力；（3）社会智力，处理人际交往的智力。

智力多因素说，（LouisL.Thurstone）:

智力可以分为语文理解（V）、词语流畅（W）、数字运算（N）、空间关系（S）、机械记忆（M）、知觉速度（P）、一般推理（R或I）其中因素。

智力的层次结构模型（PhillipVernon）：

把智力结构分为四层。

第一层G因素；第二层，大因素群，即“言语和教育因素”与“操作和机械因素”；第三层小因素群；第四层，更小的特殊因素。

JoyP.Guilford的智力结构立体模型。

内容、操作、产品。

内容维度是指引起个体心智活动的各种刺激物；操作即智力的加工活动；产物即智力活动的结果。

RemondB.Cattel的流体智力和晶体智力：

流体智力，信息加工和问题解决过程中洞察复杂关系的能力，是一种普遍性能力，更多地依赖于遗传；晶体智力，知识与技能有效结合的一种能力，主要用于完成某种固定的任务，更多地依赖于环境的作用，取决于后天的学习。

Cattell-Horn-Carroll（CHC）智力能力理论：

该模型包含了十个宽层能力和七十多个窄层能力，每个宽层能力包含多个窄层能力。

十个宽层能力的编码和命名分别为：

流体智力、晶体智力、数量知识、读写能力、短时记忆、视觉加工、听觉加工、长时记忆和提取、加工速度和决策/反应的时间或速度。

HowardGardner的多重智力理论：

智力是个体用于解决问题和创造物质财富的能力。

七种不同的智力成分：

语文能力，说话、阅读、书写。

数理能力，数字运算和逻辑思考。

空间能力，认识环境、辨别方向。

音乐能力，对声音的辨识和表达韵律。

运动能力，支配肢体以完成精密作业的能力。

人际关系能力，与人交往且和睦相处。

反省能力，认识自己并选择自己生活方向。

后来又加入了自然智力、精神智力和存在智力。

2.2智力的信息加工理论

J.P.Das等人智力PASS模型，包括以下内容：

（1）四种认知成分：

计划（Plan）、注意（Attention）、同时性加工（Simultaneousprocess）、继时性加工（Successiveprocess）。

（2）三个系统：

1注意—唤醒系统（第一机能区），使大脑处于一种适宜的工作状态；2同时性—继时性加工系统，又称编码系统（第二机能区）负责对外界输入信息的接收、解释、转换、编码、再编码和储存；3计划系统（第三机能区），执行

展开阅读全文

第八章 如何编制一个测验pptConvertor.docx

第八章如何编制一个测验pptConvertor.docx