第五章 心理差异测量理论与心理测验.docx
《第五章 心理差异测量理论与心理测验.docx》由会员分享,可在线阅读,更多相关《第五章 心理差异测量理论与心理测验.docx(39页珍藏版)》请在冰豆网上搜索。
第五章心理差异测量理论与心理测验
第四节心理测量理论
一、心理测量的性质和水平
1.测量与测量的要素
所谓测量,就是按一定的法则给事物指派数字。
法则体现在测量的两个要素——参照点和单位上。
(1)参照点
参照点有两种,绝对参照点(又称绝对0点)和相对参照点(相对0点)。
具有绝对0点的事物可以直接测量,如长度、质量等;没有绝对0点的事物只能进行间接测量,如时间和温度。
(2)单位
测量的单位有相等的单位和不等的单位。
2.测量量表与测量的水平
(1)测量量表
测量量表是一个连续体,把要测量的事物放在这个连续体上,看它距离参照点的远近(包含多少个单位)给出测量值。
如,尺子、称或心理测验的常模表。
(2)测量量表的水平
数字系统具有四个特性:
①唯一性;②顺序性;③可加减性;④可乘除性。
测量量表中的数字按具备数字系统特性的多少可以分成从低到高的四个水平:
属于命名量表的有考勤册,属于顺序量表的有排名榜,百分制的考试成绩等,属于等距量表的有时间和温度量表,属于比例量表的有长度测量量表和重量量表等。
3.心理测量的性质与水平
心理测量就是根据一定的法则用数字对人的心理特质或行为水平加以确定。
即根据一定的心理学理论,使用一定的操作程序,给人的行为确定出一种数量化的价值。
一般来讲,心理测量的工具是指心理测验,而广义的心理测验可以包括所有心理测量的工具、技术和程序。
比如,它包括纸笔测验、口头测验、绩效测验、面试、等级量表、评价中心、加权履历表等。
美国心理与教育测量学家布朗(F·G·Brown,1983)认为,测验是“测量一个行为样本的系统程序”。
通俗地讲,心理测验就是通过观察人的少数有代表性的行为,对贯穿在人的全部行为活动中的心理特点做出推论和数量化的一种科学手段。
① 心理测量性质是间接测量
科学发展到今天,我们还无法直接测量人的心理,只能测量人的外显行为,也就是说,我们只能通过一个人对测验题目的反应来推论出他的心理特质。
特质的概念我们今后还会经常遇到,因此在这里给出一个定义。
所谓特质,是描述一组内部相关或内在联系的行为时所使用的术语,是在遗传与环境影响下,个人对刺激作反应的一种内在倾向。
特质,乃是个体所特有的与他人不同的、稳定的、可分辨的(可与其他特征分开)的特征。
但它又只是一个构想,而不是一个被直接测量到的有实体的个人特点。
由于特质是从行为模式中推论出来的,所以心理测量永远是间接的。
有人对间接测量持怀疑态度,认为测量到的不是所要测的东西。
但心理测量学以这样观点为前提∶人的心理活动与行为具有因果关系,由“果”推“因”,这是科学研究的基本方法之一。
因为心理测量是间接测量,所以心理测量没有绝对参照点,在对人的行为作比较时,是看每一个人处在人群的什么位置上,由此测得一个人的智力高低、兴趣大小等,都是与其所在团体的大多数人的行为或某种人为确定的标准相比较而言的。
因此,心理测量的分数常常采用常模参照或内容参照(这在后面心理测验一章中会专门讨论)。
②、心理测量的水平
一般来说,心理测量是在顺序量表水平上。
因为对于人的智力、性格、兴趣、态度等来说,绝对零点是难以确定的,相等的单位也难以获得。
比如说,一个测验包括50个难度不同的题目,每题1分,我们能否说得10分的人与得15分的人的差别与得45分与得50分的人的差别是相等的?
表面看来都是5分之差,但仔细考虑一下就会发现45~50分的差别要比10~15分的差别大。
因为顺序量表没有相等的单位,因此顺序量表所能提供的测量信息非常有限。
为了提高心理测量的水平,心理测量一般通过统计技术将顺序量表提高到等距量表水平,最常用的转换方法是给顺序量表一个参照点(平均值),再给它一个单位(标准差),这样就把属于顺序量表的原始测量分数转换成等距量表分数,这个分数通常称之为标准分数,最常见的标准分数为Z分数。
(公式3-33)
③、心理测量的客观性
客观性是对一切测量的基本要求。
在心理测量中需要控制的变量越多,要做到客观性就越不容易。
心理测量的客观性是通过测验的标准化实现的。
测量工具的标准化,这是对一切测量的共同要求。
心理测验的标准化验经过长期的探索和努力已有了很大的改进。
心理测验的标准化验包括∶测验题目的标准化、验施测程序的标准化、评分方法的标准化、分数转换和解释的标准化。
关于测验的标准化问题我们将在后面介绍。
二、心理测量的误差种类
误差是由测量中与目的无关的因素引起的不准确或不一致的效应。
心理学研究中的误差按其性质可分为三类,随机误差、系统误差(又称恒定误差)、过失误差。
(1)随机误差∶又称偶然误差。
是由于实验中的一些偶然因素引起'而又不容易控制的误差。
它包括实验者在观测实验时主观和客观上不可控制的因素造成的误差,也包括被试的一些偶然的不可控制因素造成的误差,还包括主试、被试以及实验情境交互作用造成的误差。
随机误差产生的原因十分复杂,但其存在是绝对的。
随着实验观测次数的增加,随机误差的变化会呈现一定的规律性,即它总是围绕被观测的真正值(又称真分数,一般用多次观测的平均值来表示,由于观察条件、仪器等的限制,严格地说来,真正值是无法测量到的)波动,随机误差的算术平均数随着观测次数的增加而逐渐减少以至于趋近于零。
(2)系统误差∶就是观测过程中服从确定规律性的误差。
由于实验条件不同,造成不同的有一定规律性的误差属于这类误差。
心理学实验中,不同的实验方法、不同的被试样本等都会对实验结果产生规律性的影响。
这类误差不能通过增加实验次数消除。
如果需要可以通过实验设计加以消除,这一问题我们将在后边的变量处理和实验设计中讨论。
(3)过失误差∶一般把明显歪曲实验结果的误差成为过失误差,它是由于实验观测过程中的过失造成的。
这些错误有测错、传错、记错、仪器失灵、取样错误。
在实验数据整理过程中必须鉴别、舍弃这些含有过失误差的数据(又称异常点),否则会严重影响实验结果的准确性,得出不正确的结论。
在一组实验数据中,随机误差、系统误差、过失误差总是错综复杂地存在着,因而造成了观测数据的波动性或变异性。
三、心理测量的误差来源
一个测验要准确可靠,就必须控制各种误差,为此首先要了解误差的来源。
根据误差定义,误差是由测量中与目的无关的因素引起的不准确或不一致的效应。
在心理测量中,常见的误差来源于三个方面:
测验内部,施测过程,受测者本身。
1.有测验内部引起的误差
测验内部的误差主要来源于题目取样:
(1)当测验题目较少或取样缺乏代表性时,被试的反应受机遇影响较大(譬如一次考试碰巧准备到或没有准备到某题);当几个测验复本不等值时,接受不同的题目,就会获得不同的分数。
(2)除题目取样不当可引起误差外,其他一些因素,如题目用词的模棱两可,对反应步骤说得不清楚;题目过难引起猜测;时限短使被试仓促做答等,也可能成为误差的来源。
2.由施测过程引起的误差
在三种误差来源中,与施测过程有关的误差可能是最容易控制和检验的。
通过长期实践,测验的标准化水平越来越高,大部分施测条件能够得到控制。
但由于心理现象的复杂性,许多意想不到的偶然因素仍可能影响测验分数,使人防不胜防。
(1)物理环境
施测现场的温度、光线、声音、桌面好坏、空间阔窄等皆具有影响。
(2)主试者方面
主试者的年龄、性别、外表,施测时的言谈举止、表情动作等均能影响测验结果。
倘若不存在按照规定实施测验,如制造紧张气氛,给予特别协助货暗示,以及计时错误等,都会带来较大误差。
特别是当测验具有复杂步骤和说明,或测验题目本身是模糊不确定的形式时;当主试者在安排测验条件上有较多余地(例如个别实施)测时;当测验是对幼儿、有情绪困扰者以及对测验程序不熟悉的人施测时,主试者的影响更大。
(3)意外干扰
在测验环境复杂,特别是当受试人数较多时,容易发生出乎意料的干扰或分心事件。
例如:
停电、有人生病、有人作弊、计时表停了、临时发现题目或作答纸张印刷不清或装订错误等,无论哪种情况都会引起不安和扰乱,导致成绩不准确、不一致。
(4)评分计分
评分不客观以及计算登记分数出错也是常见的误差。
一般选择题的评分教为客观。
而问答题、论文题等自由反应型的题目,评分标准很难掌握,加之阅卷者的偏好各不相同,因而难以保证分数的一致性。
不仅教师间有此差异,即使是同一个教师受情绪疲劳、外界干扰、卷面整洁、考试前后位置引起的对比效应以及对学生成见的影响,标准也可能不统一,甚至同一张试卷隔一段时间再评,前后给分也可能不一致。
至于学校间、地区间的差别就更大了。
为了控制与施测过程有关的误差,主试者必须严格遵循标准化程序施测和评分,不得任意改动和发挥,同时要机智地处理各种意外情况。
3.由受测者本身引起的误差
即使一个测验经过精心编制,题目取样具有代表性,又有标准化的施测和记分程序,由于受测者本身的变化,仍然会给测验分数带来误差,这种误差是最难控制的。
来自受测者的误差因素,有些是属于个人的长期的一般的变化,有些是与特定测验内容和形式以及特定施测条件相联系的暂时的特殊变化。
(1)应试动机
受测者对测验的动机不同,会影响其作答态度、注意力、持久性、反应速度,以及回答的真实性等。
例如,当人格测验用于选员时,雇佣方感兴趣的是申请者的典型行为,但申请者为了给雇佣方留好印象,在回答时可能考虑雇主的期望或社会道德等因素,而不能按自己的真实情况作答,从而给测试结果带来误差。
应试动机对测验成绩的影响表现在各方面,如果动机效应使一个人在反复测量中以一定的方式进行活动,这便导致系统误差,使测量的有效性降低;如果受试者的动机引起了偶然性的不稳定的反应,这时一种随机误差,测量的有效性和可信性都会降低。
(2)测验焦虑
测验焦虑是指受试者在应试和测试中出现的一种紧张的、不愉快的情绪体验。
和一切情绪反应一样,焦虑的产生既有认知因素的作用,也有生理因素的作用。
一般说来,适宜的焦虑会使人的兴奋性提高,注意力增强,提高反应速度,从而对测验成绩产生积极影响。
然而,过高的焦虑却会使工作能力降低,注意力分散,思维变得狭窄、刻板,记忆中储存的东西提取不出来。
但焦虑过低,内驱力过小会使受测者采取满不在乎的态度,作答不认真而导致成绩降低。
焦虑对测验成绩的影响可用图3-9的倒U型曲线来表示。
研究表明,测验焦虑受主客观两方面因素影响:
i.能力和测验焦虑成负相关。
能力高的人,测验焦虑一般较低,而对自己的能力没有把握的人,测验焦虑较高。
ii.抱负水准与焦虑成正比,抱负水准过高,求胜心切的人,测验焦虑较高。
iii.患得患失、缺乏自信、情绪不稳、顺应不良的人容易产生测验焦虑。
iv.经常接受测验的人焦虑较小,而对测验程序不熟悉的人焦虑较高。
v.测验成绩对被试关系重大,后果严重,或被试受的压力很大时容易产生焦虑。
vi.被试不了解测验的目的,测验的指导语不清,采用了新的题目形式或施测程序以及严格事件限制等测验方面的因素,也会增加被试的焦虑。
(3)学习、发展与教育
由一般学习或发展变化引起的测验分数上的差异,在大多数情况下,只构成恒定误差。
但有时,大多数人对于某个侧翼没有准备,只有个别人获得了特殊训练,或在两次测验间隔中,有的人获得了特殊,训练,而其他人没有,在这种情况下,第二次测验所得到的分数,既反映了第一次测验时所测量的东西,也反映了在两次测验之间所学到的东西。
由于受测者的训练量不同,他们的分数就会受到不同的影响,而表现出误差。
(4)测验经验
被试对测验的经验也会影响测验成绩,对测验程序和技能熟练程度不同,所得分数不能直接比较。
(5)练习效应
任何一个测验在第二次应用时,都会有练习效应而使成绩提高。
在能力测验方面,练习效果的研究通常认为有下列影响∶
i.练习对智力高者,效果较为显著。
ii.着重速度的测验,练习效果较明显。
iii.再做同一个测验比作复本的练习效果显著。
iv.两次测验中间的时间间距越大,练习效果越小,间隔三个月以上,练习效果可以忽略不计。
v.一般的平均练习效果,约在1/5个标准差以下,但第二次再测后,练习效果即接近于零。
(6)反应方式
反应方式是指独立于测验内容的反应倾向。
例如,在速度性测验中,有的人“快而不准”,有的人“宁慢勿错”;是非题中,有的人有一种“默认反应方式”,即不管内容如何都答“是”,为了纠正这种误差,应使“是”“非”题大体相等。
(7)生理变化
不但心理因素会影响测验成绩,生病、疲劳、失眠等生理因素也会影响测验成绩而带来误差。
除上述原因外,某些情况下也会有过过失误差,如计时错误或指导语不当等。
为了有效的控制各种误差因素带来的误差,因此,心理测验采用标准化的测验工具和程序,以减少误差,使测验分数更可信、更有效。
三、真分数理论
在测量理论中,真分数是一个非常重要的概念。
所谓真分数就是一个测量工具在没有测量误差时,所得到的真正值。
这实际上是个循环定义,因为一个量具若测得真值,便没有误差。
真分数的操作定义是:
经过无数次测量所得的平均值。
可见,真分数是一个在理论上构想出来的概念,在实际测量中是得不到的,因为一个测量工具无论多么精确,也会有误差,我们只能通过改进量具来接近真值,而不能完全得到它。
真分数的定义表明,一个人在一个测验上所得的分数,是他的真分数的函数,也是测量误差的函数,用公式表示如下:
X=T+E(公式3-34)
这里X为实得分数或观测分数,T是假设的真分数,E是测量误差。
需要说明的是,这里的测量误差(E)指的是引起测量不一致性的变因产生的效应,指的是随机误差,不包括系统误差,后者不引起分数的改变,因而包含在真值中。
在公式3-1中,E可能是正的,也可能是负的。
这就是说,一个人的实得分数可能大于真实量,也可能小于真实量,总是围绕着真值上下波动。
关于测量误差(E)有以下假设:
(1)如果对一个人测量无数次,其平均误差为0,即
;
(2)真分数和测量误差是相互独立的,即
;
(3)误差分数和实得分数的相关为0,即
。
公式3-1只表明了在一个特定人身上实得分数、真分数和测量误差之间的关系。
在一个团体中,由于每个人的误差都是随机的,方向不同,只要团体足够大,其误差便会相互抵消。
因此,一个团体的平均真分数等于该团体中所有被试实得分数的平均值。
证明如下:
因为T=X-E(公式3—35)
则
(公式3-36)
则
(公式3-37)
对于一个团体来说,实得分数,真分数和测量误差之间有如下关系:
(公式3-38)
即,实得分数的变异数=真分数的变异数加上误差变异数。
公式3-38并不难证明:
(公式3-39)
公式3-39只涉及到随机误差的变异,系统误差的变异包含在真分数的变异中。
这就是说,真分数变异数还可以分成两个部分:
与测量目的有关的变异和与测量目的无关的变异,即:
(公式3-40)
式中的S2V是与测量目的有关的(亦即有效的)变异数,是由所要测量的变量引起的;S2I是与测量目的无关但却是稳定的变异数,是由其他变量引起的。
将公式(3-40)代入公式(3-39)得到如下公式∶
(公式3-41)
这就是说一组测验分数之间的变异性是由与测量目的有关的变异数、稳定的但是出自无关来源的变异数和测量误差变异数所决定的。
四、心理测量的信度与效度
一个测量工具的好坏可以从两个方面来考察:
信度与效度。
1.信度
指测量工具的稳定性、一致性。
即测量工具的重复使用,测量结果应该是相同的。
这就好比一把尺子,多次量一个1米长的物体,结果都应该是1米。
如果第一次测量为1米,第二次测量为1.05米,而第三次测量又是0.9米,那么这把尺子就不好。
信度只受随机误差的影响。
随机误差越大信度越低。
因此,信度也可视为测量结果受随机因素影响的程度。
系统误差产生恒定效应,不影响信度。
在心理测量理论中,信度被定义为∶一组测量分数的真变异数与总变异数(实得变异)的比率。
即∶
(公式3-42)
式中:
代表信度;S2T代表真分数的变异;S2x代表实得分数的变异,即总变异。
需要注意的是,真分数是不能直接测量的,因此,信度只是一个理论上的构想概念,只能根据一组实得分数进行估计。
2.效度
指测量工具的正确性与可靠性。
即一个测量工具是否能够测量出其所要测量的东西。
效度所要回答的基本问题是∶一个测验测量的是什么特性?
它对所要测量的特性测得有多准?
在心理测量理论中,效度被定义为∶在一列测量数据中,与测量目的有关的真实变异与总变异的比率。
(公式3-43)
式中:
效度;S2V有效变异;S2x总变异。
一个测验的效度表明,在一组测验分数中,有多达比例的变异是又测验所要测量的因素引起的。
和信度一样,效度也是一个构想概念。
3.信度与效度的关系∶
根据公式S2x=S2V+S2I+S2E,可以用图3-9表示信度与效度的关系。
从图可以看出,当随机误差的变异(SE2)减少时,真分数的变异(ST2)增加,测验的信度(ST2/SX2)随之提高。
信度的提高只给有效变异数(SV2)的增加提供可能。
至于是否能提高效度,还要看系统误差(SI2)的大小。
可见,信度高不一定效度高。
但一个测验要想效度高,真分数的变异必须占较大的比重,即测验的信度必须高。
例如,一杆秤,如果每次测量结果都不一样,即没有信度,这杆秤肯定"不准",即没有效;如果这杆秤每次称东西的结果都一样,我们说它有信度,但实际上,它恒定地少一两,我们仍然说这杆秤不准,没有效。
信度与效度的关系可以概括为∶信度是测量工具有效的必要条件,效度是测量工具有效的充要条件。
第五节估计信度的方法
心理测验的信度是一个理论构想概念,实际应用时,通常以同一样本所得两组资料的相关,作为测量一致性的指标。
由于测验分数的误差来源不同,估计信度的方法也不同,故而,每一种信度系数只能说明信度的不同方面,因此具有不同的意义。
在心理学中,以三种类型的信度来评价心理测验的稳定性。
一、再测信度
1.再测信度
用同一个测验,对同一组被试,前后施测两次,然后计算两次测验分数的相关系数,即为再测信度。
这种信度能表示两次测验结果有无变动,反映测验分数的稳定程度。
因此又称稳定性系数。
通常,心理学以+0.70以上为可接受的信度指标。
也就是说,当相关系数高于+0.70以上时,我们就认为这个测验的信度是高的。
而对个体的诊断测验应该比对团体的预测测验信度高些。
再测信度受两次测验的时隔时间的影响:
间隔过短,第一次测验的练习效果会使信度偏高;时间过长,会使信度偏低。
此外,个体差异及每次测验的实施情况都会对信度产生影响。
2.计算再测信度的假设前提
①所测量的特性必须是稳定的。
②两次测量之间被试的遗忘与练习的效果相同。
③在两次施测期间被试的学习效果没差别。
二、复本信度
第二种评价信度的方法是采用相同难度、内容、形式的两个测验对同一组个体进行测验,然后,比较它们在两种测验结果的一致程度,也用相关系数来表示。
通常该系数称为等值性系数,又称平行信度。
以复本法估计信度可以避免再测法的缺点,但必须使用真正的复本,即在题目的内容、数量、形式、难度、区分度、指导语、时限、以及所用的例题、公式和测验的其它所有方面都应该相同或相似。
在所有评价测验信度的方法中,这种方法最少使用。
因为对很多测验来说,很难设计出好的“等值复本”,只有在智力测验以及能力测验中复本相对容易得到。
在检验等值系数时,应有一半人先做原测验,另一半人先做复本测验,以抵消顺序效应。
等值信度没有个体发展水平、个体经验所造成的差异,但是,两次测验实施情境因素仍会对等值信度的估计产生影响。
表3-8检验复本信度的实验设计∶
时间1
时间2
测验A
被试组1
被试组2
测验B
被试组2
被试组1
A、B为等值的复本。
三、同质性信度
同质性信度又称测验的内部一致性信度,是检查测验内部题目间的一致性的一种方法。
计算同质性信度的方法∶
1.分半信度
这种估计信度的方法是对同一组个体进行测验,把测验分为两部分(奇数项目,偶数项目),计算这两部分题目测验分数的相关系数。
由于这种计算信度的方法把测验分成了两半,得出的信度只是半个测验的信度,因此,就必须采用专门的统计方法加以校正。
最普遍的一种校正方法是斯皮尔曼—布朗公式(Spearman—BrownFormula):
(公式3-44)
其中,γxx为整个测度的信度;γhh为分半信度系数。
斯皮尔曼的公式可以推广到测验分为n部分,则:
(公式3-45)
其中,n为测验分为多少部分数;γxx为整个测度的信度;γhh为各部分相关的平均值。
2.克朗巴赫α系数和库德—理查逊20系数
另一种评价同质性信度的方法为克隆巴赫(Gronbach)的α系数和库德—理查逊20系数(Kuder-Richardson20)。
克隆巴赫α系数运用于多重记分的测验项目。
(公式3-46)
其中,
为每一测验项目的变异;
为整个测验的总变异;K为测验项目的数目;γKK为总的信度系数。
库德—理查逊20系统适用于两种回答的测验:
(公式3-47)
其中,pi为通过项目的平均比率;qi为不通过项目的平均比率,
为测验总分的平均值。
其他各项与前一公式的解释相同。
这两种信度评估的概念都是把测验的每一个项目作为一个微型测验,来检验测验中各个项目的同质性。
测验的内部稳定信度高则说明测验的同质性高。
但是,有时异质性的测验可能也包含一些同质性的分测验和测验项目。
四、评分者信度
心理测验一般都采用标准化的评分程序。
如果测验采用客观性技木,由评分引起的误差变异可以忽略。
但是对一些无法完全客观计分的测验来说,评分者之间的变异就属于误差来源之一。
考察评分者信度的方法是,随机抽取相当份数的试卷,由两位评分者按计分原则分别给分。
然后根据每份试卷的两个分数计算相关系数,即得评分者信度。
一般要求在成对的受过训练的评分者之间一致性达到0.90以上,才认为评分是客观的。
当多个评分者评多个对象,并以等级法计分时,也可采用肯德尔和谐系数作为评分者信度的估计公式如下∶
(公式3-48)
其中,K为评分者人数,N为被评对象人数,Ri是每个对象被评等级的总和。
当K为3~20人,N为3~7人的小样本时,利用肯德尔和谐系数表来考验W是否显著。
当N大于7时,可以用2考验。
2=K(N-1)=N-1(公式3-49)
评价信度可以同时运用上述诸种方法。
用不同方式估计的信度可能有很大差异,一个测验可能有很高的再测信度,但却缺乏内部一致信度。
各种方法的评价结果是不能互换的,但可相互参照。
估计信度的方法远不止上述几种。
实际上,有多少种误差来源,便有多少种估计信度的方法。
一个测验,应该用最大的那种误差估计信度。
有时一个测验需要有几种信度系数,这样我们就能把总分数的变异数分成不同的分支。
表3-9总结了各种信度系数的误差来源。
表3-9各种信度系数相应误差变异的来源
信度系数的类型
误差变异的来源
再测信度
时间取样
复本信度(连续施测)
内容取样
复本信度(间隔施测)
时间与内容取样
分半信度
内容取样
同质性信度
内容的异质性
评分者信度
评分者间的差异
五、影响信度的因素
信度与误差变异之间有密切的关系。
除了前边实验误差外,还有以下几个因素会影响信度系数的大小:
1.被试样本
(1)团体的异质性
如同所有相关系数一样,信度系数受分数的分布范围所影响,而分数范围与被试团体的异质程度有关。
一个团体越是异质,其