心理测量应用部分.docx

资源描述

心理测量应用部分.docx

《心理测量应用部分.docx》由会员分享，可在线阅读，更多相关《心理测量应用部分.docx（28页珍藏版）》请在冰豆网上搜索。

心理测量应用部分.docx

心理测量应用部分

第九章学绩测验

第一节学绩测验概述

一、学绩测验的性质

最高作为测验可以分为：

学绩测验、能力测验、能力倾向测验。

学绩，指经过一定的教学或训练后所学到的东西，是在一个比较明确的、相对限定的范围内的学习结果。

能力倾向指学习的能力，是在给予适当的机会时获得某种知识或技能的能力。

能力介于学绩和能力倾向之间，指的是当前的知识或技能的水平，既有正式学习的，也有非正式学习的结果，既包括学术技能，又包括非学术技能。

学绩测验用来描述现状，指明一个人已经学会了什么和能做什么。

二、学绩测验的基本假设

1学绩测验所测量的知识和技术的范围能明确界定。

2测验所测量的是研究者认为重要的东西，而不是与测量目的无关的东西。

3被试有同样的机会学习测验所包含的材料。

三、学绩测验的分类

（一）按测验的编制方法分

教师自编课堂测验，标准化学绩测验

（二）按测验内容分

单科测验，多科测验

单元测验，总测验

（三）按测验的用途分

考察性测验，诊断性测验，准备性测验，选拔与安置测验，职业水平测验，用于研究的测验

（四）按测验评分的参照系分

常模参照性测验，目标参照性测验

（五）按测验的题型分

客观测验，论文式测验

四、学绩测验的应用

1反馈功能

2诊断功能

3辅助教学管理

4研究工具

5人才选拔与安置

第二节标准化学绩测验

一、标准化学绩测验的基本要求

1命题组卷标准化

测验目标，试题的措辞、难度、区分度，题型比例、题量

2施测标准化

环境、时间、指导语、主试

3评分标准化

标准答案、评分细则、评分者人数

4测验分数解释标准化

是常模参照还是目标参照

二、标准化学绩测验的编制

由学科专家与测验编制专家共同完成，其步骤与一般心理测验的编制程序相同。

（一）确定测验目的，选定测验编制的方法

考察还是诊断，常模参照还是目标参照

（二）分析测量目标，拟订测验编制计划

双向细目表，题型，题量

（三）编题征题与选题组卷

编题征题→试测→组卷

（四）调查测验质量参数，编制测验常模

难度、区分度、信度、效度、常模

（五）编写测验指导书，正式出版发行

三、国外常用标准化学绩测验简介

（一）斯坦福成就测验

综合性学绩测验

适用范围：

1~9年级

内容：

词汇、阅读理解、拼字、听理解、词汇学习技能、语言、数学概念、数学计算、数学应用、社会科学常识、自然科学常识

斯坦福早期学校成就测验（适用于幼儿园和小学一年级）

斯坦福学业技能测验（适用于8~12年级）

导出分数：

百分等级、标准九、年级当量、量表分数、正态曲线当量

分测验信度均在0.80以上。

（二）关键数学算术诊断测验

适用范围：

学前儿童~小学六年级

测验内容：

内容块：

数学、分数、几何、符号

运算块：

加法、减法、乘法、除法、心算、数字推理

应用块：

文字题、补充、金钱、测量、时间

诊断：

总体水平诊断

分块水平诊断

分测验水平诊断

项目水平诊断

四、标准化学绩测验的题库建设

一个高质量的题库应具有的性质：

有一种科学的测量理论；

贮备一定数量的试题，所有试题品质优良，技术参数完备；

题库内部结构层次清楚、分类严谨，试题检索方便；

题库管理方便，可控性强，易于维护更新；

保密性强。

五、我国高考的标准化试验

第三节教师自编课堂测验

一、教师自编课堂测验的特点

测验形式灵活多变，与测验目的完全一致

测验内容与教材内容完全一致

测验难度切合学生的实际水平

测验编制简易快速

二、教师自编课堂测验的步骤与方法

审查测验目的

制定测验编制计划

命题与组卷

三、教师自编课堂测验应注意的问题

教师要深入研究教材，深入研究学生

要维护准确稳定的合格标准

要客观评价自己的命题技术，合理使用各种题型

要注意总结命题经验，提高命题技术

要尽量控制评分误差，防止简单粗糙

要做一些定量分析研究

第十章能力测验（上）

第一节智力测验的理论基础

（一）什么是智力？

Spearman（1904，1923）：

智力是一种普遍的能力，它主要涉及联系的引出（eduction）和相关的引出。

Binet&Simon（1905）：

智力是正确进行理解、判断和推理的能力。

Terman（1916）：

智力是形成概念，并且抓住其重要性的能力。

Thorndike（1921）：

智力是从真理或事实角度产生良好反应的能力。

Thurstone（1921）：

智力是抑制本能反应，灵活地想象不同反应，并且把修改后的本能反应转换为外显行为的能力。

Wechsler（1939）：

智力是个体有目的地行动，理性地思考以及有效地应付环境的总体能力

Piaget（1972）：

智力是总括性的术语，指用来适应物理和社会环境的认知结构的组织和平衡的高级形式。

Sternberg（1985）：

智力是指自动信息加工和产生适合于新情况的行为的心理能量，它包括元成分、操作成分和知识获得成分。

Eysenck（1986）：

智力是将信息无错地传递过皮层的能力。

Gardner（1986）：

智力是解决问题，制造在某些文化范围内有价值的产品的能力或技术

共同点：

智力是适应环境的能力

智力是通过经验进行学习的能力

智力是人们在获得知识和运用知识解决实际问题时所必须具备的心理条件或特征。

Boring（1923）:

智力就是智力测验所测量的东西。

Sternberg等（1981）的研究

专家认为：

语词能力、问题解决能力和实际智能最重要

外行认为：

实际问题解决能力、语词能力和社会能力最重要

（二）智力的理论

Galton和感觉敏锐度

1．二因素论

Spearman的一般因素（G）和特殊因素（S）

2．多因素论

Thurstone的群因素（语文理解、言语流畅性、推理、空间想象、数字、记忆、知觉速度）

内容

3.Guilford的智力结构模型（内容×操作×结果=150）

4.Vernon智力层次理论

5.二维结构模型

希莱辛格和古特曼（1966）

第一维：

言语能力、数学能力、图形和空间能力

第二维：

规则应用能力、规则归类的能力、学术成就

6.Cattell的流体智力与晶体智力

7.Gardner的多元智力理论

言语、逻辑-数学、空间、音乐、身体运动、社交、自知

8智力的生物学理论（反应时）

9智力的认知心理学理论

Sternberg

智力成分：

元成分、操作成分、知识获得成分

智力情境：

适应环境、塑造环境、选择新环境

智力经验：

处理新任务、自动化加工

10其他：

情绪智力（EQ）、成功智力、实践性智力（practicalintelligence）

第二节个体智力测验

一、比内量表

（一）比内-西蒙量表

1．1905年量表

世界上第一个智力量表；

内容：

30道题（记忆、言语、理解、手工操作）。

题目排列方式：

从易到难。

指标：

通过项目数。

如白痴最多只能通过6项，低能的成人可通过7~15项。

2．1908年量表

内容：

增至59道题。

方式：

把测验项目按年龄分组。

每一岁一组。

每个年龄组项目数量不等，最多8项，最少3项。

年龄范围：

3~13岁。

指标：

智力年龄。

3．1911年量表

题目：

删旧补新，但总数仍为59题。

增设一个成年组。

除4岁组仅有4个项目外，其他每个年龄组一律为5项，便于计算。

对比内-西蒙量表的评价

成就：

（1）比西量表是第一个采用复杂任务来测量高级心理过程的测验。

以前的测验主要测量感知觉、运动等低级心理过程。

（2）比西量表首次采用年龄作为智力的标准，这样可以对测验作出通俗易懂的解释。

（3）比西量表首次从整体上测量智力，也就是测量智力的普通因素，而以往心理学家把感觉辨别力、记忆力、注意力等割裂开来测量。

不足：

（1）施测和记分没有标准化。

（2）常模团体的代表性不够，因而有些项目的安排位置不当。

（3）测验项目过少。

（二）斯坦福-比内量表

1．斯坦福-比内量表的发展

（1）1916年量表

在修改基础上增设39个新项目，达到90个项目。

最早对施测和记分提供了详细的指导语。

引入了智力商数的概念（比率智商）。

适用年龄：

3~13岁。

样本：

1000名儿童和400名成人。

（2）1937年量表

由L和M两个等值型量表构成

年龄范围扩大：

1.5~18岁

样本：

3184名1.5~18岁儿童，但仅限城市白人

（3）1960年量表

合并了L和M两型中最好的项目，改为单一量表。

年龄：

2~成人

离差智商

4498名1.5~18岁儿童（1937年量表的施测对象）。

（4）1972年量表

测验内容未变；

取样范围扩大（地区、社会阶层、经济状况、民族）。

共2100名被试，其中2~5.5岁每半岁选100名，6~18岁每一岁选100名。

2．斯比量表的信度和效度

（1）信度

复本信度：

L和M相关在0.83~0.95之间。

再测信度：

高于0.90。

（2）效度

内容效度：

测验内容属于公认的智力范畴。

效标关联效度：

与学业成绩、受教育年限的相关在0.4~0.75之间。

结构效度：

假设智力发展随年龄增长，先快后慢（证据：

随年龄增长，再测稳定性逐步提高）；

存在G因素（证据：

各项目与测验总分的平均相关为0.66）

（三）中国比内测验

陆志伟和吴天敏1924年、1936年、1982年三次修订

内容：

51题

指标：

离差智商

年龄范围：

2岁~18岁

生活常识

知觉速度及观察力

空间知觉力和想象力

记忆力

语言能力

判断推理能力

例：

一个4岁儿童心理年龄的计算

二、韦克斯勒（Wechsler）智力测验

生平：

1896年出生于罗马尼亚，6岁迁居美国。

一战期间从事心理测验工作，用陆军甲、乙种测验、斯比量表来甄选新兵，积累了丰富的经验。

1919年去伦敦大学，师从Spearman和Pearson，接受G因素理论。

1920~1922年在巴黎与西蒙有过接触。

1925年，在哥伦比亚大学获博士学位，论文《情绪反应的测量》。

1932~1967年，任纽约贝尔韦精神病院的主任心理学家。

二、韦克斯勒（Wechsler）智力测验

编制背景：

寻找一种测量成人智力的有效方式

当时的智力测验存在下列问题：

测验项目引不起成人的兴趣；

过多的项目涉及语词的操作；

指导语过分强调速度，牺牲了准确性；

计算心理年龄，不适合成人测验要求。

这一年龄测验者的平均测验分数

*韦氏智力测验家族：

1939年，韦克斯勒-贝利弗测验

1946年，韦克斯勒-贝利弗测验Ⅱ

1949年，韦克斯勒儿童智力量表（WISC）

1955年，韦克斯勒成人智力量表（WAIS）

1967年，韦克斯勒学前和小学儿童智力量表（WPPSI）

1974年，韦克斯勒儿童智力量表修订版（WISC-R）

1981年，韦克斯勒成人智力量表修订版（WAIS-R）

1989年，韦克斯勒学前和小学儿童智力量表（WPPSI-R）

1991年，韦克斯勒儿童智力量表第三版（WISC-Ⅲ）

韦氏测验的特点：

（1）10~12个分测验：

使用多个分测验，不仅可以得到总IQ，还可以分析个体在智力上的强项和弱点；

（2）言语量表和操作量表各由5~6个分测验组成，可以单独评价言语或操作的各项智力成分，体现了左右脑功能的整合，而且可以显示个体的职业能力倾向。

（3）共同的IQ计分系统：

对所有测验和所有年龄组，IQ平均为100，标准差为15。

而且每个分测验的平均分为10，标准差接近3分。

这样就可以比较被试的各项分测验分数，了解其相对强弱。

（4）不同年龄组有相同的分测验：

例如，WAIS-R，WISC-R，WPPSI-R有相同的8个核心分测验。

这不仅方便施测者，而且有助于测验之间的相互比较。

韦克斯勒测验的分测验

（一）韦氏成人智力量表

共有11个分测验，其中6个言语量表（常识、数字广度、词汇、算术、理解和类同），5个操作量表（填图、图片排列、积木图案、物体拼凑、数字符号）

信度和效度

背数和数字符号分测验计算复本信度，其余部分计算分半信度，为0.88~0.98

结构效度：

“从各个方面来测量智力，而不是测量不同类型的智力。

”因素分析表明，有50%的变异来自智力一般因素；各分测验之间和分量表之间存在普遍的显著的正相关，表明智力G因素渗透于智力行为的各个方面。

内容效度：

测验项目均取自或参照前人成功用过的量表（比内量表、陆军a和b）编制。

效标关联效度：

与斯比量表的相关0.80；文职人员的言语智商高于操作智商，技术工人则相反。

2．韦氏成人智力量表中国修订本（WAIS-RC）

修订者：

龚耀先（1982年）

年龄范围：

16~65岁

共有11个分测验，其中6个言语量表（常识、数字广度、词汇、算术、理解和类同），5个操作量表（填图、图片排列、积木图案、物体拼凑、数字符号）

常模：

农村（992人）和城市（2029人）

信度：

分半信度为0.30~0.85，再测信度为0.82~0.89

效度：

高考成绩差异显著者，其智商也差异显著。

（二）韦氏儿童智力量表

12个分测验：

5个言语测验（常识、类同、算术、词汇、理解），5个操作测验（填图、图片排列、积木图案、拼图、译玛），2个备用测验（背数和迷津）。

适用年龄：

6~16岁

分半信度：

0.70~0.86

再测信度：

0.65~0.88

效标关联效度：

以年龄为效标，得分随年龄增长而提高。

与学绩测验或其他学业行为的相关为0.50~0.60；与斯比量表的相关为0.60~0.71

结构效度：

发现智力一般因素的存在

韦克斯勒儿童智力量表（WISC-R）中国修订本

修订者：

林传鼎、张厚粲等（1983年）

常模：

中等以上城市（3000人）

修订原则：

测题要适合中国儿童的特点；改动的测题尽可能与原题性质类似、难度接近。

主要改动有：

（1）我国社会中不常见的或我国儿童不熟悉的测题内容，如“一个镍币等于几便士？

”“美国成年男子平均身高是多少？

”

（2）不合我国国情的，如“为什么把钱交给慈善机关比施舍给街头乞丐好？

”

（3）由于语种不同，翻译后在难度上发生变化的，如“三月过后是几月？

”“啤酒和黄酒的共同点是什么？

”

（4）凡外国人名、货币名称以及图片上的人物等尽量使之中国化。

言语量表：

常识、背数、词汇、算术、理解、类同

操作量表：

填图、图画排列、积木图案、拼图、译码、迷津

（三）韦氏幼儿智力量表（WPPSI）

年龄：

4~6.5岁

11个分测验：

5个言语测验（常识、理解、词汇、算术、类同），5个操作测验（填图、迷津、积木图案、句子复述），2个备用测验（动物房、几何图案）。

分半信度：

再测信度

结构效度：

效标关联效度：

与斯比量表的相关

对韦氏量表的评价

优点：

（1）具有复杂的结构，能够较好地反映智力的整体和各个侧面；

（2）各年龄组都接受相同的分测验，可以相互比较，并节省指导测验的时间；

（3）用离差智商代替比率智商，克服了计算成人智商的困难。

（4）采用因素分析法研究结构效度更具有理论意义。

（5）各量表之间相互衔接，适用的年龄范围可以从幼儿直到老年。

缺点：

（1）施测程序复杂费时；

（2）对于测量智力极高或极低的被试不大适用；

（3）缺乏充分的效度资料。

第三节团体智力测验

一、陆军测验

一战时在Yerkes领导下编制。

陆军甲种（α）测验

8个分测验：

照令行事、算术、常识、异同（同反义词）、字句重组、填数、类比推理、理解

效度：

与军官评定、斯比量表、教师评定、学业成绩的相关

陆军乙种（β）测验

7个分测验：

迷津、立方体分析、补足数列、译码、数字校对、图画补缺、几何形分析

测试对象：

母语非英语的被试和文盲被试

效度：

与甲种测验的相关

二、瑞文推理测验

（一）瑞文推理测验的产生与发展

1．瑞文标准推理测验

6岁以上

5个系列，60个项目

A组测知觉辨别力、图形比较、图形想象

B组测类同、比较、图形组合

C组测比较、推理、图形组合

D组测系列关系、图套组合

E组测套合、互换等抽象思维能力

2．瑞文彩图推理测验

5~11岁

3个系列，36个项目

3．瑞文高级推理测验

适合于高智力成人

第一套12个项目，第二套36个项目

（二）瑞文标准推理测验中国修订本

修订者：

张厚粲（1985年）

取样：

大、中、小城市

年龄：

5岁~成人

信度：

分半信度、再测信度

效度：

与WISC-RC、高考成绩的相关。

三、认知能力测验

桑代克

初级型：

口头、词汇、关系概念、多重智力和数量概念

文字测验：

词汇、句子填充、语词分类、语词类推

数量测验：

数的大小比较、数列补充、建立关系

非文字测验：

图形分类、图形推理、图形综合

团体测验与个体测验的差异：

第四节婴幼儿智力测验

一、盖塞尔发展顺序量表

适用年龄：

出生~36个月

方式：

自然情景下对儿童的观察

测试工具：

响铃、三色环、拨浪鼓、积木、摇铃、蜡笔和纸、皮球、颜色板等

评定内容：

动作：

分大动作和细动作。

大动作指身体的姿态、头的平衡、坐、立、爬、走、跑、跳，细动作指手指的运用。

言语：

听、理解和表达

环境适应：

如对物体和环境的精细感觉、协调能力

社会应答：

与人交往

2岁小孩的动作发育

逐页翻书、叠起7~8块积木、用积木接成火车、把盛满水的杯子给人、学画圈、能说出4样画片的名称、踢球、跑且不摔交

二、丹佛发展筛选测验

DenverDevelopmentalScreeningTest,DDST）

年龄：

6岁以内

评定内容：

个人-社会行为、精细动作、语言、大运动

三、贝雷婴儿发展量表

（BayleyScalesofInfantDevelopment）

心理量表：

知觉、记忆、学习、问题解决、发音、初步的语言交流、初步的抽象思维

运动量表：

大动作和精细动作

行为记录：

情绪、社会行为、注意广度、目标定向等。

婴幼儿测验的预测效度

缺乏长期的预测效度：

1岁内婴儿的测验分数对预测3~4岁的智商有一定的效度，但对长期预测几乎不起作用；

对缺陷儿童的诊断非常有效。

对儿童以后的智力发展，父母受教育的程度及社会经济地位要比婴儿测验的分数更有预测力。

第五节传统智力测验中的几个问题

（一）传统智力测验的结构效度

不同智力测验有着不同的理论基础，其结构也不同，解释也不同，因此，应针对不同情况选择不同量表，也不能笼统地说一个人的智力如何。

（二）传统智力测验的功能

还不够精细，无法精确诊断。

不能贴标签，更主要的是要解决问题。

（三）传统智力测验的公平性

1．性别差异

传统智力测验中有利于男性和女性的项目的不平衡

2职业差异

经历对智力的影响

3．文化和教育差异

城乡差别、种族差别

能否编制出绝对公平的测验？

4.年龄（时代）差异：

人是不是越来越聪明？

（四）传统智力测验的预测效度（智商的稳定性与不稳定性）

1．智力随年龄成熟而发展

不同年龄的智力成分是否相同？

智力是随年龄而增长的吗？

一个人的智商是否终身不变？

早期智力开发有无必要？

2．智力随环境而变化

智力中的遗传与环境的关系

同一家庭中成长的孩子，其所处的环境是否相同？

3．智力随个性特质的不同而产生不同变化

人格、动机、情绪对智力发展的影响，而传统智力测验没有考虑这些因素的影响。

学习困难儿童在自我批评和自我监控方面尤为不足。

高智商的人，其智力发展速率快。

积极的人格（进取心、面对挫折的态度）能促进智力的成长。

第十一章能力测验（下）

第一节能力倾向测验

一、能力倾向测验的产生原因

1智力测验的局限

大部分智力测验只测量了言语能力和数目及抽象符号的关系能力，无法测得一些具体的能力。

2个体能力倾向的差异

3因素分析技术的发展

4来自实际的需要

二、能力倾向测验的特点

1能力倾向测验的预测目的性更强

能力倾向测验预测失败比预测成功更准确

2测验的编制

每个分测验针对一种能力，应该是相互独立的

重视特殊团体常模的建立

3测验结果的解释

注意被试与常模性质之间的差异。

三、具体能力倾向测验介绍

（一）学术能力倾向测验（SAT）

美国的高考测验

语言：

反义词、句子填充、类比推理、阅读理解

数学：

算术、代数、几何

（二）分辨能力倾向测验（DifferentialAptitudeTest,DAT）

适用于初中和高中学生的教育咨询及就业指导

言语推理

数的能力

抽象思维

文书速度与准确性

机械推理

空间关系

语言运用：

拼写

语言运用：

文法

（三）一般能力倾向成套测验（GATB）

综合式职业性向测验（36个职业群常模）。

一般智力：

言语能力

数的能力

空间关系理解力

形状知觉能力

文书知觉能力

动作协调能力

手指灵巧性

手部灵巧性

第二节特殊能力测验

一、音乐能力测验

（一）西肖尔音乐才能测验

音调、音量、时间音程、节奏、音色、音调

（二）音乐能力测验图

（1）T测验：

音调形象（旋律、和声）

（2）R测验：

节奏形象（速度、节拍）

（3）S测验：

音乐感受（短句、平衡、风格等）

二、美术能力测验

（一）梅尔美术判断力测验

包括10对的绘画作品，一幅是公认的名画，另一幅稍作改动，要求被试判断哪一幅更好。

（二）格雷福斯图案判断测验

由90套二维或三维的空间抽象图案组成，每一套包括2~3个同一图案的变式，它们在整体性、平衡性、对称性等方面有所区别，要求被试判断哪一图案更好。

（三）霍恩美术能力问卷

包括两部分：

（1）要求被试画出20种常见的物体或几何图形；

（2）在长方框规定的基本线条内作图。

三、机械能力测验

（一）空间关系测验

1．明尼苏达机械拼合测验

要求被试拼排随机摆放的机械物体。

2．明尼苏达空间关系测验

要求被试尽快将木块放入相应的几何形状的槽中。

3．明尼苏达书面形式拼板测验

包括64道选择题，每题包括一个分解几何图形题和5个拼凑成整体的选择图案，要求被试选择正确的答案。

（二）Bennett机械理解能力测验

适用范围：

9~12年级

限时：

30分钟

测量对实际情况中对机械关系和物理定律的理解。

第三节创造力测验

一、发散思维研究与创造力测验

二、吉尔福特发散思维测验

1词语流畅：

迅速写出包含一个指定字母的单词。

2观念流畅：

迅速列举属于某一种类的事物的名称，如“能燃烧的液体”有……

3联想流畅：

列举近义词。

4表达流畅：

写出每个词都以指定字母开头的四词句。

如“K—U—Y—I”，”KeepUpYourInterest”“KillUselessYellowInsects”

5非常用途：

报纸可以用于……

6解释比喻：

“一个女人的美丽就像秋天，它……”

7效用测验：

尽可能列举一件东西的各种用途

8故事命题：

9推断结果：

“假若人们不再需要睡眠，会出现什么情况？

”

10职业象征：

蜡烛——老师

11图形组合：

类似七巧板，包括4种形状（圆、三角形、长方形、梯形），可以重复使用，可以改变大小。

12绘图：

把一简单图形复杂化，组成尽可能多

展开阅读全文