心理学考研笔记测量心理学.docx
《心理学考研笔记测量心理学.docx》由会员分享,可在线阅读,更多相关《心理学考研笔记测量心理学.docx(24页珍藏版)》请在冰豆网上搜索。
心理学考研笔记测量心理学
三、心理测量的基本理论
心理测量的根本目的是帮助人们做出重要的决定。
(一)心理测量的理论基础
1.心理测量的基本概念
(1)心理测量的定义
心理测量:
根据一定的法则用数字对人的行为加以确定
即依据一定的心理学理论,使用一定的操作程序,给人的行为和心理属性确定出一种数量化的价值。
心理测验:
对行为样组进行客观和标准化的测量,其本质上是心理测量的工具
心理测验有三个要素,即行为样组、标准化、客观性。
(2)心理测量的特点
①间接性——心理属性是内在的不可直接测量到的特质,但可表现为一系列具有内在联系的外显行为,测量者可以通过一定的
方法测量这些外显行为,并由这些行为判别特质的性质。
②相对性——对人的行为进行比较,没有绝对的标准,亦即没有绝对零点,我们有的只是一个连续的行为序列。
所有的心理测量都是看每个人处在这个序列的什么位置上,也就是只有顺序量表的特征。
③客观性——实际上就是测验的标准化问题。
测验用的项目,说明、言语、态度、评分、分数转换、解释都需要标准化。
2.心理测量的特征分类
(1)按所测量的心理特征分类
①能力测验——个人已有的知识、经验、技能
②成就测验——经过正式教育或训练后对新知识和技能的掌握程度
③人格测验——性格、气质、兴趣、态度、品德、情绪、动机、信念、价值观等
(2)按接受测量的人数分类
①个别测验——一名主试在一段时间内测量一名被试
②团体测验——一段时间内一名主试同时测量许多人
(3)按测验目的分类
①描述性测验——仅仅是进行描述
②诊断性测验——对为了解决存在的问题而预先做出的诊断
③预示性测验——了解人的潜能和未来的表现
(4)按测验要求分类
①最高作为测验——被试尽可能做出最好的表现
②典型作为测验——被试按通常的习惯和没有压力的方式做出反应
(5)按评价所参照的标准分类
①常模参照测验——将被试的水平与常模比较,以评价被试在团体中的相对地位为目的
②目标参照测验——将被试水平与一个绝对标准比较
③潜力参照测验——将被试水平与自身潜力相比较
3.经典测量理论和真分数理论模型
(1)基本定义
真分数:
反映被试某种心理特质真正水平的数值
其是一个在理论上构想出来的抽象概念,在实际测量中很难得到
观察分数:
实测到的分数
我们希望通过改进和完善测量工具及方法的方式来使得观察分数尽量接近真分数。
CTT数学模型:
观察分数与真分数之间是一种线形关系,并只相差一个随机误差
其中X表示观察分数;T表示真分数;E表示随机误差(不包含系统误差)
(2)CTT模型的三个假设公理
①反复测量得到的观察分数的平均值会接近真分数,E服从均值为零的正态分布
②真分数和误差分数之间的相关为零
③平行测验上的误差分数之间相关为零
平行测验:
题目不同的测验测的是同一特质,且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布一致
(3)CTT模型的方差关系
①在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和
②真分数变异还可以分成与测量目的有关的变异和与测量目的无关的变异
(二)测量的信度与效度
1.测量的信度
(1)信度的定义
信度:
测量结果的稳定程度
若能用同一测量工具反复测量某人的同一心理特质,则其多次测量的结果间的一致性程度就叫信度。
信度的三个等价操作定义:
①信度是一个被测团体的真分数的变异数与实得分数的变异数之比
②信度是一个被试团体的真分数与实得分数的相关系数的平方
③信度是一个测验与其任意一个平行测验的相关系数(这个定义具有实际意义)
(2)信度系数的估计
Ⅰ重测信度:
用同一个量表对同一组被试施测两次所得结果的一致性程度
计算:
其大小等一同一组被试两侧测验所得分数的皮尔逊积差相关系数
(参见《MJ心理大纲详解-心统》P8)
实用的前提条件:
①所测量的心理特性必须是稳定的
②遗忘和联系的效果基本上互相抵消
③两侧测验的间隔被试的特质没有变化
Ⅱ复本信度:
两个平行的测验测量同一批被试所得结果的一致性程度
计算:
其大小亦等于两侧测验分数的皮尔逊积差相关系数。
前提:
①有条件构造出两份或以上真正平行的测验
②被试有条件接受两个测验
Ⅲ分半信度:
将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度
也可以把对等的半测验堪称是在最短时距内施测的两个平行测验。
计算:
先按照复本信度的方式计算出半个测验的信度,然后用斯皮尔曼-布朗公式校正
若两个分半测验分数变异不等时则用
或
前提:
①通常在只能施测一次或没有复本的情况下使用
②由于将测验分半的方法很多,因此一个测验有多个分半信度值
Ⅳ同质性信度:
测验内部所有题目间的一致程度
这里的一致性指所有题目都测的是同在一种心理特质,也指所有题目得分之间都具有较高的正相关
计算:
,
为题目数,
为答对答错
题的比例
,
表示所有被试在
题上的分数变异
Ⅴ评分者信度:
多个评分者给同一批人的答卷进行评分的一致性程度
计算:
评分者为2用积差相关或登记相关,大于2用肯德尔和谐系数估计
(参见《MJ心理大纲详解-心统》P9)
(3)信度的影响因素与改进
影响因素:
被试方面、主试方面、施测情景、测量工具、两侧施测间隔(越短越好)
提高方法:
①适当增加测验的项目数
②使测验中试题的难度接近中等水平的正态分布
③提高测验试题的区分度
④尽量选取同质性较强的团体上的信度
2.测量的效度
(1)效度的定义
效度:
一个测验或量表实际能测出其所要测得心理特质的程度
效度的操作定义:
效度是总变异中由所测量的特性造成的变异所占的百分比
效度的三个性质:
①效度是针对一次或某几次测验的具体结果的
②效度是针对某种特定的测验目的的
③效度只是程度上的差异,不是有无的差别
(2)效度的估计
效度估计就是多方寻找证据来证明测验的有效性程度的过程。
(测量中效度与实验中不同,区别理解。
——MJ注)
Ⅰ内容效度:
一个测验实际测到的内容与所要测量的内容之间的吻合程度
估计一个测验的内容效度就是去确定该测验在多大程度上代表了所要测量的行为领域。
适用范围:
内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验而不是和能力和人格测验
确定方法:
①明确欲测内容的范围,包括知识范围和能力要求两个方面
②确定每个题目所测得内容,并与测验编制者所列的双向细目表对照
③制定评定表,考察题目对内容的覆盖率及其比例和内容的适当性并判断题目难度与能力要求间差异
统计计算:
从同一内容中抽两套平行测验对一批被试测验,两次相关高说明有效度(除非两个测验偏向同一方面);
也可以用再测法,通过后侧成绩与前侧成绩比较。
Ⅱ结构效度:
测验能说明心理学上的理论结构或特质的程度,或用心理学上某种结构或特质来解释测验分数的恰当程度
结构指用来解释人类行为的理论框架或心理特质,是心理学中抽象的假设性概念、特性或变量。
特点:
①结构效度的大小首先取决于实现假定的心理特质理论
②当实际测量的资料无法证实我们的理论假设时,不一定表明该测验结构效度不高
③结构效度是市通过对测量内容的选择的证据累计起来确定的,不是靠单一数量指标描述的
确定方法:
①提出理论假设,并把假设分解成一些细小的纲目
②依据理论框架,推演出有关测验成绩的假设
③用逻辑的和实证的方法来验证假设
应用范围:
主要用于治理测验、人格测验等
估计方法:
①从测验内部寻找证据,先考察测验的内容效度
②在测验间寻找,将新编测验与已知有效的测验比较
③考察测验的实证效度
④多种特质-多种方法矩阵法
Ⅲ实证效度:
一个测验对处于特定情景中的个体的行为进行估计的有效性,也就是说以实践效果作为检验有效性的表准
根据效标资料搜集的时间差异,实证效度可分为同时效度和预测效度两种。
效标是作为检验效度的标准的被估计的行为,即衡量测验是否有效且独立与测验的外在标准。
确定方法:
①明确观念效标
②确定效标测量
③考察测验分数与效标测量的关系
估计方法:
①相关法——计算测验分数与效标测量的相关系数
②区分法——被试接受测验后,让他们工作一段时间,再根据工作成绩的好坏分成两组。
这时再回过头来分析这两组被试原先分数的差异,将成绩与分数比较
③命中率——决策的命中率是测验有效性的较好指标
(3)效度的影响因素与改进
影响因素:
测验的构成、测验的实施过程、被试情况、所选效标的性质、测量的信度
提高方法:
①精心编制测验量表,避免出现较大的系统误差
②妥善组织测验,控制随机误差
③创设标准的应试情景,让每个被试都能发挥正常的水平
④选择正确的效标、定好恰当的效标测量,正确地使用有关公式
3.信度和效度的关系
根据公式
,可以得到信度与效度的关系如下:
①信度高是效度高的必要而非充分条件
②测验的效度受它的信度制约
(三)心理测量的误差
误差是世界本原通往人类认知途中的收费站和化妆师。
——MajorS.Lu
1.测量误差的定义
测量误差:
在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应
心理测量的误差包括随机误差和系统误差两种。
随机误差:
由与测量目的无关的、偶然因素引起的、而又不易控制的误差
它使多次测量产生不一致的结果,其方向和大小的变化完全是随机的,只符合某种统计规律。
系统误差:
由与测量目的无关的变量引起的一种恒定而又规律的效应
这种误差稳定的存在与每次测量之中,尽管多次测量结果一致,但仍与真实值有所差异。
2.测量的随机误差来源及控制
(1)来源
①测试环境——温度、光线、噪音等
②测试时间——时间安排不统一,或测试时间过短
③主试因素——年龄、性别、穿着、言谈举止、表情,主试的数量过多也会造成压力
④意外干扰——停电、巨响、有人生病、作弊、测验用品出问题、粮食涨价、火星人入侵
⑤评分计分——主观题评分不客观,有个人偏好
(2)控制
测验准备尽可能充分细致,实测个方面尽量标准化
3.测量的系统误差来源及控制
(1)来源
①测验难度——过高或过低
②测验内容——选题不当、题数太少、模棱两可、表述不清
③被试因素——应试动机变化、测验焦虑、测试经验、学习与发展、反应倾向、生理因素
(2)控制
题目编制认真用心,测验标准化
4.测量误差的估计?
其中
为信度系数
(四)心理测验的项目分析
项目分析:
测验编制过程中,为了改善和提高测验的信度和效度,在组成测验之前,应对组成测验的每个题目进行分析
1.题目的难度
(1)定义
难度:
测验项目的难易程度,一个测验项目,如果大部分被试都能答对,则该项目的难度就小,反之亦然
测验的记分方法不同,项目难度的计算方法也不同。
(2)计算
Ⅰ二分法记分项目的难度——以通过率来表示(注:
这里通过率的概念和我们通常理解的难度相反)
其中
代表项目难度;
为全体被试数;
为答对通过该项目的人数
当被试人数较多时,将被试依照测验总分从高到低排列,用总分最高的27%作为高分组,总分最低的27%作为低分组
其中
和
分别代表高分组合低分组的通过率
Ⅱ非二分法记分项目的难度——
其中
为被试在某一项目上的平均分;
为该项目的满分
(3)难度水平的确定
进行难度分析的主要目的是为了筛选项目,项目的难度水平多高合适,取决于测验的目的及性质:
①水平考试:
目的在于了解被试某方面知识技能的掌握情况
不必过多考虑难度,认为重要的内容都可选用,甚至极高极低通过率的题
②选拔考试:
目的在于选拔并录用人员
项目难度易控制在录取率左右,即较多地采用那些难度值接近录取率的项目
(4)难度的等距变换
普通难度指数是顺序变量,无法指出难度之间差异的大小,我们设法将其转变为等距量数:
①根据正态分布曲线将难度P作为正态曲线下的面积,转换成Z分数
②为避免小数和负值,再用公式进行变换
(注:
可以看出新难度与我们通常理解的难度相同)
(5)难度对测验的影响
①难度过大和过小都造成测验分数偏离正态,而心理特质和我们经常使用的统计分布却都是正态的
②过难或过易题目的存在都会使得测验分数相对集中,造成分数全距缩小
2.题目的区分度
(1)定义
区分度:
测验项目对被试心理品质水平差异的区分能力
具有良好区分度的项目,能将不同水平的被试区分开来,反之则不能。
(2)计算
Ⅰ鉴别指数法——适合于二分法记分的项目
其中
和
分别代表高分组合低分组的通过率
Ⅱ相关法——以项目分数与效标分数或测验总分的相关作为项目区分度的指标
常用的有:
点二列相关、二列相关、φ相关、积差相关
3.题目的综合分析和筛选
①难度越接近0.5,项目潜在区分度越大,因此整个测验的难度平均应保持在0.5左右
②测验中各项目之间有一定相关,为了使成绩分布均匀,项目难度的应广一些,梯度大一些,最好成正态分布
③每项题目理想的区分度都应在0.3以上,至少是0.2
(五)心理测验的编制技术
1.心理测验编制的基本程序
①确定测验目的——明确测量的对象、目标、用途
②制定编题计划——双向细目表
③编辑测验项目——收集测验资料、选择项目形式、编写测验项目
④预测与项目分析
⑤合成测验——测验项目的选择和编排,并在必要时编制副本
⑥测验的标准化——测验内容、施测过程、评分、分数解释,都要标准化
⑦鉴定测验——鉴定其信度和效度,并确定测验量表和常模
⑧编写测验说明书
2.测验目标与命题双向细目表
(1)测验目标
测验目标:
所编测验是用来测量什么心理变量或行为特征的
测验目标必须有操作定义,即目标要非常具体。
(2)命题双向细目表
命题双向细目表:
测验编制过程中的重要依据,即相当于编题的计划清单,是包括两个维度(双向)的表格
指出测验所包含的内容与要测定的各种技能,以及对每一个内容和技能的相对重要程度。
功能:
双向细目表可以使命题工作避免盲目性而具有计划性;使命题者明确测验的目标,把握试题的比例与份量,提高命题的效率和质量。
同时,它对于审查试题的效度和覆盖面也有重要的指导意义。
3.题目编制技术#
题目编制的一般原则:
①测试题要反映测验目的,并对所测量的内容有代表性
②测试题适合于被试的能力水平,且能区分出不同水平的被试
③测试题所提供的信息不能对答案有暗示作用
④题目之间互相独立,不能互相暗示
⑤题干简明,重点突出
⑥避免双重否定的语法
⑦题目的叙述要简明易懂,杜绝晦涩语言
⑧题目尽量有唯一正确答案
⑨避免使用性别歧视、种族歧视和攻击性用语及涉及社会禁忌和个人隐私的内容
⑩一个测试题测量一个内容或概念
(六)心理测验的施测
1.测验的设计
测验设计:
对测验的结构和内容、可达到的目的、结果可提供的信息、使用范围、心理学指标等进行总体设计
2.施测的程序和步骤#
①施测前的准备工作——准备材料、掌握程序、熟记指导语
②指导语——直接影响受测者反映的态度和方式
③测验情景——尽量标准化
④测验焦虑——稳定被试情绪
⑤与受测者建立良好的协调关系
⑥评分技术——标准化测验中答卷最好与测验分开
(七)测验常模
当一个人的测验分数通过与其他人的分数进行比较而得到解释的时候,这个比较被称为基于常模的解释,而比较每个个体所用的分数被称为常模,它为解释测验分数提供了标准。
常模群体规定了系列标准,基于常模的分数是个体与特定常模群体相比较所处的位置。
1.常模与常模团体
(1)定义
常模:
根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表
常模团体:
获得常模的具有某种共同特征的群体样本
(2)确定常模团体的注意事项
①群体构成的界限必须明确
②必须是所测群体的一个代表性样本
③取样过程必须明确且有详尽的描述
④样本大小要适当
⑤常模团体应试现时代的
⑥注意一般常模与特殊常模的结合
2.分数的转换与合成
(1)分数转换(这部分内容请参考《心统》学习)
原始分数:
被试在接受测验后,根据测验的积分标准,对照被试的反映所计算出的测验分数
其反映了被试作答的正确程度,但不能直接反映出被试之间的差异状况和被试在总体分布中的位置。
导出分数:
在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位且可以相互比较的分数
分数转换:
按某种规则将原始分数转化为导出分数的过程
Ⅰ百分等级——在一个群体的测验分数中,得分低于这个分数的人数的百分比
计算:
其中
为百分等级,
为排名顺序的序号,
为被试总人数
团体人数过大分数以次数分布表的形式呈现时:
其中
为被试原始分数,
为被试所在组分数下限,
为被试所在组次数,
为组距,
为被试所组以下各组次数和
评价:
百分等级虽然方便,但单位不等,只具有顺序性特征而无法说明被试差异的数量
Ⅱ标准分数——一种具有相等单位的量数,又称Z分数,即
由于Z分数常出现小数和负值,我们可进一步将其转变为T分数:
(2)分数合成
分数合成:
将几个分数或几个预测源组合起来,以获得一个合成分数或作总的预测
具体包括三种情况,即:
项目的组合、分测验的组合、测验的组合
Ⅰ直觉合成
这种根据直觉的经验,主观地将各种因素加权,而获得结论或预测的方法叫临床诊断
优点:
①具有高度和综合性②具有灵活的针对性
缺点:
①易受决策者的偏见影响②缺乏精确的数量分析
Ⅱ加权求和——将各测验分数相加或乘以加权系数后相加
前提:
各测验所测特质间有互相代偿作用,这些测验的分数又是连续性资料,并能大体同时获得
Ⅲ多重回归——研究一种事物或现象与其他多种事物或现象在数量上相互联系和互相制约的统计方法
很多情况下,需要利用测验结果对预测效标做出估计,即求出效标估计与预测变量之间的数量关系式:
范围:
适合于所测特质具有某种程度的互偿性
Ⅳ多重划分——在各个特质上多定一个标准,所有测验按顺序实施,通过一个才能进行下一个,完全合格要全面达标
(3)常模的编制
①确定有关的比较团体
②获得该团体成员的测验分数
③把原始分数转化为量表分数
(4)几种常用的常模
Ⅰ心理年龄
首先寻找并设计出可区分各年龄儿童智力的题目,每个题目放在大部分的儿童都能成功地完成的那个年龄水平。
把每个年龄水平的题目综合得到一个可评价儿童智力发展水平的年龄量表。
一个儿童在量表上所得的分数,就是最能代表他的智力水平的年龄,即称(林)智龄。
Ⅱ年级当量
将被试的测验成绩与某一年级的学生的平均分数做比较,而说明相当于某一年级水平。
Ⅲ教育商数
其中教育年龄是指某岁儿童所取得的平均教育成就
Ⅳ成就商数
将一个学生的教育成就与其智力作比较,反映学生的努力度和教师的教学效果:
(八)标准参照测验
1.标准参照测验的定义与作用
标准参照测验:
根据某一明确界定的内容范围而缜密编制的测验,并且被试在测验上所得结果也是根据某一明确界定的行为标准直接进行解释的
作用:
了解个体在所规定的测量内容上的行为水平,因此其出发点是个体本身的绝对水平而不再是个体间的水平差异
2.标准参照测验的题目分析#
(1)内容范围的确定
①内容范围具有明确的边界
②范围的内容可进行细致分类,有明确的结构
③特定测验目的的确定常为内容范围的界定提供依据
(2)内容效度分析
对构成测验的每一个题目是否合适以及有效进行分析,即检验题目与测验内容范围所要求的内容与目标的一致性,这一过程缺乏客观的统计分析手段,通常采用专家评定的方法。
(3)测验的预测
①前测-后测方法——在一组被试接受教学过程前后各施测一次
②已接受教学组-未接受教学组方法
③对照组方法——由教师评定是否掌握知识的两组
(4)难度分析
用通过率来表示。
(5)区分度分析
①鉴别指数:
掌握组在某项目上的通过率减去未掌握组在该项的通过率,即
②个人获得指数:
前测-后测法中,前测中错误回答某项目的被试在后测中能正确回答的人数与之前错误人数之比
③相关系数:
项目的分和测验总分之间的一致性程度
3.标准参照测验的信度与效度#
(1)信度
考察被试在同一测验的两次施测中是否被分在同一类中
测验A
及格
不及格
测验B
及格
a
b
不及格
c
d
(2)效度
①内容效度——照搬常模分析中的内容效度分析方法
②效标关联效度——运用刚才在信度中使用的四格表的分析法,只不过这里的测验AB分别指预测源测验和效标测验
4.标准参照测验的分数解释
(1)专家判定法
在测验的内容范围明确界定的基础之上,由专家来判断处于临界水平的被试在每一题目上正确回答的可能性,进一步一次为标准确定分数分界点。
临界水平被试:
那些刚由未掌握水平转入掌握水平的被试,这些被试实际上是在专家的想象中虚拟出来的
(2)效标组预测法
①临界组法:
由专家判定和选择一组正处于临界水平的被试,将测验施测于该组被试,计算他们在测验上的平均成绩,以体现测验的内容范围所要求的临界水平,因而可以视之为测验分数分界点的估计值
②对照组法:
采取专家判定的方法来事先确定两组被试,一组被明确判定为掌握组,另一组则被明确判定为非掌握组,那些不太容易被判定的被试一概提出。
对这样两组被试施测测验,可以得到原始分布图,途中两条曲线的交叉点即为测验分数的分界点
(九)心理测验理论的新发展
1.经典测验理论的局限
①对信度的估计精度不高,平行测验难以实现
②误差指标笼统单一,仅把测验分数划分成真分数和随机测量误差两部分
③各种参数的估计对样本抽样的依赖性太大,如题目的难度是相对考生而言的
④参数指标之间的配套性较差
⑤真分数与观测分数之间存在线性关系的假定不合理
2.项目反应理论
潜在特质:
没有明确的物理与生理属性的,制约人的行为的心理特征
项目反应理论:
以受测者回答问题的情况,通过某种数学函数曲线,推算出受测者某个心理特质变量大小
所依据的函数叫做项目特征函数。
项目反应理论的优点:
①题目参数的跨群体不变性(题目的特征函数是固定的)
②潜在特质量表的可选择性
③参数设计的科学性
④信息函数概念的引进与信息函数的可加性
3.概化理论
概化理论的基本思想:
任何测量都是依赖于特定的测验情景关系的,测验情景关系中的测量目标、测量侧面、测量侧面的水平都是会变化的,它们的变化会引起测验误差的来源、测验误差的大小、真分数的种类以及测验信度的变化,同时测验分数的解释范围也发生变化。
概化理论的统计分析分为两个阶段,即G研究和D研究。
(1)G研究
观察领域:
研究者设计的测验情景关系及用一定方法采集的测验数据
G研究在观察领域数据上进行,其目的是要定量估计观察领域中测量目标的方差以及各测量侧面所产生的测量误差方差。
从统计角度说就是要分解观察数据总体方差,估计各因素期望方差,采用的方法是方差分量分析法,把总体方差分解为测量目标主效应方差、测量侧面主效应方差、各种交互效应方差。
(2)D研究
D研究称作决策研究,其目的是利用G研究的结果数据,在原设计的测验情况关系范围之内,分析比较各种可能的测验方案,测验工作者可以根据分析结果,结合可能的实施条件优选实际测验方差。
D研究最终提供各种测验方案下的测验误差估计值。
4.测验等值
测验等值:
通过对考核同一心理品质的多个测验形式做出测量分数系统转换,使得这些不同测验形式的测验分数之间有可比性
测