心理测量学重难点考点归纳整理.docx
《心理测量学重难点考点归纳整理.docx》由会员分享,可在线阅读,更多相关《心理测量学重难点考点归纳整理.docx(34页珍藏版)》请在冰豆网上搜索。
心理测量学重难点考点归纳整理
心理测量学重难点考点归纳整理
一.心理测量的基本理论
(一)心理测量的基本理论
1)心理测量的基本概念
(1)心理测量的特点
①间接性——心理属性是内在的不可直接测量到的特质,但可表现为一系列具有内在联系的外显行为,测量者可以通过一定的方法测量这些外显行为,并由这些行为判别特质的性质。
②相对性——对人的行为进行比较,没有绝对的标准,亦即没有绝对零点,我们有的只是一个连续的行为序列。
所有的心理测量都是看每个人处在这个序列的什么位置上,也就是只有顺序量表的特征。
③客观性——实际上就是测验的标准化问题。
测验用的项目,说明、言语、态度、评分、分数转换、解释都需要标准化。
2)心理测量的特征与分类:
按所测量的心理特征分类:
①能力测验②成就测验③人格测验
按接受测量的人数分类:
①个别测验②团体测验
按测验目的分类①描述性测验②诊断性测验③预示性测验
按测验要求分类①最高作为测验②典型作为测验
按评价所参照的标准分类①常模参照测验②目标参照测验③潜力参照测验
3)经典测量理论及其模型
(1)基本定义
真分数:
反映被试某种心理特质真正水平的数值;
其是一个在理论上构想出来的抽象概念,在实际测量中很难得到
观察分数:
实测到的分数;
我们希望通过改进和完善测量工具及方法的方式来使得观察分数尽量接近真分数。
CTT数学模型:
观察分数与真分数之间是一种线形关系,并只相差一个随机误差
其中X表示观察分数;T表示真分数;E表示随机误差(不包含系统误差)
(2)CTT模型的三个假设公理
①若一个人的某种心理特质可以用平行的测验反复测量足够多次,则观察分数的平均值会接近真分数;即E(X)=T或E(E)=0;
②真分数和误差分数之间的相关为零,即ρ(T,E)=0;
③平行测验上的误差分数之间相关为零,即ρ(E1,E2)=0;
平行测验:
题目不同的测验测的是同一特质,且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布一致
(3)CTT模型的方差关系
①在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和
②真分数变异还可以分成与测量目的有关的变异和与测量目的无关的变异
(二)测量的信度与效度
1)测量的信度
(1)信度的定义:
信度是指测量结果的稳定性程度;
信度的三个等价操作定义:
①信度是一个被测团体的真分数的变异数与实得分数的变异数之比
②信度是一个被试团体的真分数与实得分数的相关系数的平方
③信度是一个测验与其任意一个平行测验的相关系数(这个定义具有实际意义)
(2)信度的三大作用:
①信度是测量过程中存在的随机误差大小的反应;随即误差越大,信度越低;
②信度提供了测量误差大小的估计值;见(P71的公式)
③信度可以帮助进行不同测验分数的比较,其公式:
(见P72)
(3)信度系数的估计:
Ⅰ重测信度:
用同一个量表对同一组被试施测两次所得结果的一致性程度;
计算:
其大小等一同一组被试两侧测验所得分数的皮尔逊积差相关系数;
实用的前提条件:
①所测量的心理特性必须是稳定的
②遗忘和联系的效果基本上互相抵消
③两侧测验的间隔被试的特质没有变化
Ⅱ复本信度:
两个平行的测验测量同一批被试所得结果的一致性程度;
计算:
其大小亦等于两侧测验分数的皮尔逊积差相关系数。
前提:
①有条件构造出两份或以上真正平行的测验
②被试有条件接受两个测验
Ⅲ分半信度:
将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度
也可以把对等的半测验堪称是在最短时距内施测的两个平行测验。
计算:
先按照复本信度的方式计算出半个测验的信度,然后用斯皮尔曼-布朗公式校正
若两个分半测验分数变异不等时则用
或
前提:
①通常在只能施测一次或没有复本的情况下使用;
②由于将测验分半的方法很多,因此一个测验有多个分半信度值;
Ⅳ同质性信度:
也叫内部一致性系数;测验内部所有题目间的一致程度
这里的一致性指有两层含义:
一是所有题目都测的是同在一种心理特质,二是所有题目得分之间都具有较高的正相关;
测量单一特性是同质性高的必要条件,而非充分条件;反过来,同质性高才是测验册的单一特质的充分条件;
计算:
K20公式:
,
为题目数,
为答对答错
题的比例,Sx为总分数的变异;(仅适用于0,1记分)
K21公式:
(见P78)
克龙巴赫α系数:
,
表示所有被试在
题上的分数变异;注意:
α只是测验信度的下界的一个估计值,即α值大,必有较高的信度;但α值小,却不能断定信度不高;(不要求测验题目只是0,1记分,可以处理任何测验的内部一致性系数的计算问题)
Ⅴ荷伊特信度:
提出用方差分量比来描写测验内部一致性方法;公式见P80;
Ⅵ评分者信度:
多个评分者给同一批人的答卷进行评分的一致性程度
计算:
评分者为2用积差相关或等级相关,大于2用肯德尔和谐系数进行估计;(见心理统计学相关内容)
(4)信度的影响因素与改进:
(07年已考)
影响测量信度的因素:
测量信度是测量过程中随机误差大小的反映,随机误差大,信度就低,随机误差小,信度就高;
(一)被式方面:
单个被试而言:
被试的身心健康状态,应试动机,耐心等会影响测量误差;
被试团体而言:
被试团体异质时,全体被试的总分分布必然较广,以相关计算出来的信度就必然会大;
(见P115的解释
分数的分布越广,分母越大,从而
越大)
(二)主试方面:
主试不按照指导手册中的规定施测,故意制造紧张气氛,则会使信度大大降低;
(三)施测情境方面:
考场是否安静,光线,通风情况都可能影响信度;
(四)测量工具方面:
试题的取样,试题之间的同质性程度,试题的难度等是影响测验稳定性的主要因素;
(五)两次施测的时间间隔:
时间间隔越短,其信度越大,时间间隔越长,信度可能越小;
提高信度的方法:
①适当增加测验的长度:
rxx=krxx/[1+(k-1)rxx]
②使测验中试题的难度接近正态分布,并控制在中等水平
③提高测验试题的区分度
④选取恰当的被试团体,提高在同质性较强的亚团体上的信度
2)测量的效度
(1)效度的定义效度:
是指一个测验或量表示既能测出其所要测的心理特质的程度;
使用效度时应注意:
(1)效度是一个相对的概念,这种相对性表现在两个方面
①效度是相对于一定的测量目的而言的;
②心理测量不可能达到100%的准确,只能达到某种程度上的准确;
(2)效度是测量的随机误差与系统误差的综合反映;
(3)判断一个测量是否有效要从多方面收集证据;
效度=S2v/S2x=r2xy;其中,rxy为效度系数;S2v代表有效变异数,S2x代表总变异数;
效度的操作定义:
效度是总变异中由所测量的特性造成的变异所占的百分比;
(2)效度的估计
Ⅰ内容效度:
一个测验实际测到的内容与所要测量的内容之间的吻合程度;
其中所测量的内容包括:
欲测的知识范围以及该范围内各知识点所要掌握的程度两方面;
适用范围:
内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验而不是和能力和人格测验
(注意表面效度:
最佳行为测验要求有较高的表面效度;其他测验希望表面效度低;)
确定方法:
(主要是逻辑分析法,思路是,请专家对测验项目与原定内容范围的吻合程度做出判断)
①明确欲测内容的范围,包括知识范围和能力要求两个方面
②确定每个题目所测得内容,并与测验编制者所列的双向细目表对照
③制定评定表,考察题目对内容的覆盖率及其比例和内容的适当性并判断题目难度与能力要求间差异
统计计算(克隆巴赫提出):
从同一内容中抽两套平行测验对一批被试测验,两次相关高说明有效度(除非两个测验偏向同一方面);
也可以用再测法,通过后测成绩与前测成绩比较,如果后测成绩显著优于前侧成绩,说明所测内容正是被试新近学习的内容;
Ⅱ结构效度:
测验能说明心理学上的理论结构或特质的程度,或用心理学上某种结构或特质来解释测验分数的恰当程度
结构指用来解释人类行为的理论框架或心理特质,是心理学中抽象的假设性概念、特性或变量。
特点:
①结构效度的大小首先取决于实现假定的心理特质理论
②当实际测量的资料无法证实我们的理论假设时,不一定表明该测验结构效度不高
③结构效度是通过对测量内容的选择的证据累计起来确定的,不是靠单一数量指标描述的
确定方法:
①提出理论假设,并把假设分解成一些细小的纲目
②依据理论框架,推演出有关测验成绩的假设
③用逻辑的和实证的方法来验证假设
应用范围:
主要用于治理测验、人格测验等
估计方法:
①从测验内部寻找证据,先考察测验的内容效度;其次分析被试的答题过程;再次,计算同质性信度来检验结构效度,当然测验同质只是结构效度高的必要条件;
②在测验间寻找,将新编测验与已知有效的测验比较:
相容效度法;区分效度法;
以及因素分析法;
③考察测验的实证效度:
有两种做法,一种是根据效标把人非为两类,考察其得分的差异;
另一种是根据测验的得分把人分为高分组和低分组,考察这两组人在所测特质方面是否确有差异;
④多种特质-多种方法矩阵法;
Ⅲ实证效度:
一个测验对处于特定情景中的个体的行为进行估计的有效性,也就是说以实践效果作为检验有效性的表准
根据效标资料搜集的时间差异,实证效度可分为同时效度和预测效度两种。
效标是衡量一个测验是否有效的外在标准,它是独立于测验并从实践中直接获得的我们感兴趣的行为;
确定方法:
①明确观念效标
②确定效标测量
③考察测验分数与效标测量的关系
估计方法:
①相关法——计算测验分数与效标测量的相关系数
②区分法——被试接受测验后,让他们工作一段时间,再根据工作成绩的好坏分成两组。
这时再回过头来分析这两组被试原先分数的差异,将成绩与分数比较
③命中率——决策的命中率是测验有效性的较好指标;
(3)效度的影响因素与改进
影响因素:
测验的构成,测验的实施过程、被试情况、所选效标的性质、测量的信度
(测验长度与效度的公式
)、其中
是测验增长至原来的K倍后,新测验与效标的相关;
K为增长的倍数;
为原测验的效度;
为原测验的信度;)
提高方法:
①精心编制测验量表,避免出现较大的系统误差
②妥善组织测验,控制随机误差
③创设标准的应试情景,让每个被试都能发挥正常的水平
④选择正确的效标、定好恰当的效标测量,正确地使用有关公式;
3)信度与效度的关系
根据公式
,可以得到信度与效度的关系如下:
S2v是有效变异;S2I是系统误差的变异;S2E是随机误差的变异;前两者之和为真分数变异S2T;
①信度高是效度高的必要而非充分条件
②测验的效度受它的信度制约
(三)心理测量的误差
1)测量误差的定义
测量误差:
在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应;
心理测量的误差包括随机误差和系统误差两种。
随机误差:
由与测量目的无关的、偶然因素引起的、而又不易控制的误差
它使多次测量产生不一致的结果,其方向和大小的变化完全是随机的,只符合某种统计规律。
系统误差:
由与测量目的无关的变量引起的一种恒定而又规律的效应
这种误差稳定的存在与每次测量之中,尽管多次测量结果一致,但仍与真实值有所差异。
2)随机误差的来源及控制
(1)来源
①测试环境——温度、光线、噪音等
②测试时间——时间安排不统一,或测试时间过短
③主试因素——年龄、性别、穿着、言谈举止、表情,主试的数量过多也会造成压力
④意外干扰——停电、巨响、有人生病、作弊、测验用品出问题、粮食涨价、火星人入侵
⑤评分计分——主观题评分不客观,有个人偏好
(2)控制
测验准备尽可能充分细致,实测个方面尽量标准化;
3)系统误差的来源及控制
(1)来源
①测验难度——过高或过低
②测验内容——选题不当、题数太少、模棱两可、表述不清
③被试因素——应试动机变化、测验焦虑、测试经验、学习与发展、反应倾向、生理因素
(2)控制
题目编制认真用心,测验标准化
4)测量误差的估计
其中
为信度系数;
(四)心理测验的项目分析
1)题目的难度
难度:
测验项目的难易程度,一个测验项目,如果大部分被试都能答对,则该项目的难度就小,反之亦然测验的记分方法不同,项目难度的计算方法也不同。
(2)计算
Ⅰ二分法记分项目的难度——以通过率来表示(注:
这里通过率的概念和我们通常理解的难度相反)
其中
代表项目难度;
为全体被试数;
为答对通过该项目的人数
当被试人数较多时,将被试依照测验总分从高到低排列,用总分最高的27%作为高分组,总分最低的27%作为低分组
其中
和
分别代表高分组合低分组的通过率
Ⅱ非二分法记分项目的难度——
其中
为被试在某一项目上的平均分;
为该项目的满分
(3)难度水平的确定
进行难度分析的主要目的是为了筛选项目,项目的难度水平多高合适,取决于测验的目的及性质:
①水平考试:
目的在于了解被试某方面知识技能的掌握情况,不必过多考虑难度,认为重要的内容都可选用,甚至极高极低通过率的题
②选拔考试:
目的在于选拔并录用人员,项目难度易控制在录取率左右,即较多地采用那些难度值接近录取率的项目
(4)难度的等距变换
普通难度指数是顺序变量,无法指出难度之间差异的大小,我们设法将其转变为等距量数:
①根据正态分布曲线将难度P作为正态曲线下的面积,转换成Z分数
②为避免小数和负值,再用公式进行变换
(注:
可以看出新难度与我们通常理解的难度相同)
(5)难度对测验的影响
①难度过大和过小都造成测验分数偏离正态,而心理特质和我们经常使用的统计分布却都是正态的;难度过大,分数集中在底分端,呈正偏态分布;难度过小,分数普遍较高,集中在高分端,呈负偏态分布;
②过难或过易题目的存在都会使得测验分数相对集中,造成分数全距缩小
2)题目的区分度
(1)定义
区分度:
测验项目对被试心理品质水平差异的区分能力
具有良好区分度的项目,能将不同水平的被试区分开来,反之则不能。
(2)计算
Ⅰ鉴别指数法——适合于二分法记分的项目
其中
和
分别代表高分组合低分组的通过率(从分数分布的两端各区27%的被试)
D0.4很好
D0.3-0.39良好,修改会更好
D0.2-0.29尚可,仍需修改
D0.19以下差,必须淘汰
Ⅱ相关法——以项目分数与效标分数或测验总分的相关作为项目区分度的指标
常用的有:
点二列相关、二列相关、φ相关、积差相关;
3)题目的综合分析和筛选
①难度越接近0.5,项目潜在区分度越大,因此整个测验的难度平均应保持在0.5左右
②测验中各项目之间有一定相关,为使成绩分布均匀,项目难度的应广一些,梯度大一些,最好成正态分布
③每项题目理想的区分度都应在0.3以上,至少是0.2
4)区分度与难度的关系
测量书P124
5)区分度的相对性
(1)不同计算方法所的区分度不同;
(2)样本容量大小影响相关法区分度值的大小;样本越小,统计值越不可靠,所以算出r后,应进行统计检验;
(3)分组标准影响鉴别指数值:
分组越极端,D值越大;
(4)被试团体的同质性程度影响区分度值的大小:
被试团体越同质,区分度越小;
(五)心理测验的编织技术
1)心理测验编制的基本程序
(1)确定测验目的;制定编题计划;编写测验项目;预测与分析;合成测验;测验标准化;鉴定测验;编写测验说明书;
其中:
确定测验目的:
要解决三个问题:
明确测量对象(测哪些个体或团体);
确定测量目标(是测什么心理功能,是能力,人格还是其他);明确测量用途(是描述性的,还是诊断性的);
(2)制定编题计划(即测验目标与命题双向细目表):
制定编题计划时要明确的信息有两个:
第一,全面而具有代表性的测验内容,不致使测题偏离了应测量的范围;第二,对各个内容点的相对重视程度,通常用百分比来表示;
编题计划作用:
明确指明了应该编写哪些方面的测验项目以及编多少个项目;在计分时,可按计划中百分比确定每类测验项目的分数标准;
(3)编辑测验项目(题目编制技术)
收集测验资料(丰富,具有普遍性,有趣味性);
测验项目形式(考概念,原理用简答题,考察综合运用知识,论文题等);
编写测验项目:
编写的测验项目应对所预测的心理品质具有代表性;
取材范围与编题计划中所列范围相一致;
测验项目应具有一定的难度分布范围;
测验项目的初编数量应大于最终所需数量,以便于筛选与编制复本;
测验项目的说明要简洁;
编写测验项目的用于应浅显明了;
(4)预测与分析
预测:
目的在于或的被试对测验做何反映的资料
注意的问题:
测验的被试样本应取自正式施测的总体;
预测时的情景应与正式测验的情境一致;
测试的时间可以适当延长,以便使被试能将所有试题答完;
对被试的反应应加以记录;
(5)合成测验
测验项目的选择:
测验的性质:
选择那些能够测量所要测量的东西的项目;
测验项目的难度,选拔性的要求难度大些,考察性的难度不可太高,人格测验不要求有难度;
测验的区分度,越高越好;
测验项目的编排:
在测验的开头应有一,两个比较简单的题目,使被试熟悉作答程序,解除紧张情绪,建立信心,尽快进入答题的情境,测验项目的总体编排原则是,先易后难,避免被试在难题上耽误时间,以影响后面的答题过程,在测验最后可以有少量难度较大的题目,以测出被试的最高水平。
项目的编排方式有:
并列直进式;混合螺旋式;
(6)测验的标准化(已考)
测验内容;
施测过程:
相同的测验情景,相同的指导语,相同的测验时限;
测验评分;
测验分数的解释;
(7)鉴定测验
信度和效度两方面;
(8)编写测验说明书;
(六)心理测验的施测
1)测验的设计
测验设计:
对测验的结构和内容、可达到的目的、结果可提供的信息、使用范围、心理学指标等进行总体设计
2)施测的程序与步骤
①施测前的准备工作:
准备好测验材料;熟练掌握施测手续;熟记测验指导语并能用口语清除流利地说出来;
②指导语:
主要作用是使受试者按正确的形式对题目做出反应;指导语应保持中立,不倾向于答案的任何一种方向;
③测验情景:
测验场地的通风,光线,噪音,座位等都会影响测验分数;
④测验焦虑:
一般能力与焦虑成反比;抱负水平与焦虑成正比;竞争性测验焦虑较高;轻微的焦虑会增进测验效果;
⑤与受测者建立良好的协调关系;
⑥评分技术
测验分数的解释:
就解释类型而言:
叙述的解释;溯因的解释;预测的解释;评价的解释;
解释分数时应遵循以下原则:
①主试应充分了解测验的性质与功能;
②对导致测验结果的原因的解释要慎重,谨防片面极端;
③必须充分估计测验的常模和效度的局限性;
④解释分数应参考其他资料
⑤对测验分数应以一段分数来解释
⑥对来自不同测验的分数不能直接进行比较
如何向受测者报告测验分数:
①使用当事人可以理解的语言;
②要保证当事人知道这个测验施测什么的;
③如果分数是常模为参考的,就要使当事人知道它是和什么团体比较的;
④要使当事人认识到分数只是一个估计;
⑤要使当事人知道如何运用它的分数;
⑥考虑分数解释将给受测者带来什么影响;
⑦测验分数向无关人员保密;
⑧对低分者的解释要小心谨慎;
⑨报告分数时应设法了解当事人的心理感受;
(七)测验常模
1)常模与常模团体
(1)定义:
常模:
根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表;
常模团体:
是具有某种共同特征的人组成的一个群体;
(2)确定常模团体的注意事项
①群体构成的界限必须明确;
②常模团体必须是所测群体的一个代表性样本;
③常模团体的取样过程必须明确且有详尽的描述比较时;
④样本大小要适当:
样本误差与样本大小成反比,在其他条件相同下,样本越大越好;但还要考虑人力,物力,财力。
⑤常模团体必须是近时的;
⑥注意一般常模与特殊常模相结合;
2)分数转换与合成
(1)分数转换(这部分内容请参考《心统》学习)
原始分数:
被试在接受测验后,根据测验的积分标准,对照被试的反映所计算出的测验分数;
其反映了被试作答的正确程度,但不能直接反映出被试之间的差异状况和被试在总体分布中的位置。
导出分数:
在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位且可以相互比较的分数;
分数转换:
按某种规则将原始分数转化为导出分数的过程
Ⅰ百分等级——在一个群体的测验分数中,得分低于这个分数的人数的百分比
计算:
未分组分数资料:
其中
为百分等级,
为排名顺序的序号,
为被试总人数
分组分数资料:
团体人数过大分数以次数分布表的形式呈现时:
其中
为被试原始分数,
为被试所在组分数下限,
为被试所在组次数,
为组距,
为被试所组以下各组次数和。
评价:
百分等级是一种相对位置量数,具有可比性,且具有易于计算,解释方便等优点;另外百分等级不受原始分数分布状态的影响,即使是非正态,也不会影响百分等级的解释能力;
但也有缺点:
首先单位不等;其次,百分等级之具有顺序性;再次,百分等级是相对于特定的被试团体而言的,解释时不能离开特定的参照团体。
Ⅱ标准分数——一种具有相等单位的量数,又称Z分数,即
由于Z分数常出现小数和负值,我们可进一步将其转变为T分数:
Ⅲ标准九分数
(2)分数合成
分数合成:
将几个分数或几个预测源组合起来,以获得一个合成分数或作总的预测;
具体包括三种情况,即:
项目的组合、分测验的组合、测验的组合
Ⅰ临床诊断(直觉合成)
这种根据直觉的经验,主观地将各种因素加权,而获得结论或预测的方法叫临床诊断
优点:
①具有高度和综合性②具有灵活的针对性
缺点:
①易受决策者的偏见影响②缺乏精确的数量分析
Ⅱ加权求和——将各测验分数相加或乘以加权系数后相加
前提:
各测验所测特质间有互相代偿作用,这些测验的分数又是连续性资料,并能大体同时获得
Ⅲ多重回归——研究一种事物或现象与其他多种事物或现象在数量上相互联系和互相制约的统计方法
很多情况下,需要利用测验结果对预测效标做出估计,即求出效标估计与预测变量之间的数量关系式:
范围:
适合于所测特质具有某种程度的互偿性
Ⅳ多重划分——在各个特质上都确定一个标准,从而把成绩划分为合格与不合格两类;所有测验按顺序实施,通过一个才能进行下一个,完全合格要全面达标
3)常模编制
①确定有关的比较团体
②获得该团体成员的测验分数
③把原始分数转化为量表分数
4)几种常用的常模
Ⅰ心理年龄
首先寻找并设计出可区分各年龄儿童智力的题目,每个题目放在大部分的儿童都能成功地完成的那个年龄水平。
把每个年龄水平的题目综合得到一个可评价儿童智力发展水平的年龄量表。
一个儿童在量表上所得的分数,就是最能代表他的智力水平的年龄,称智龄。
Ⅱ年级当量
将被试的测验成绩与某一年级的学生的平均分数做比较,而说明相当于某一年级水平。
Ⅲ教育商数
其中教育年龄是指某岁儿童所取得的平均教育成就
Ⅳ成就商数
将一个学生的教育成就与其智力作比较,反映学生的努力度和教师的教学效果:
成就商数不仅可以用来评价学生的努力程度,还可以评价教师的教学效果与质量;前者是因为智力与学业成就二者不等价,智力不够理想,若刻苦努力,仍可获得好的学业成就,此时他的成就商数就高;反之,成就商数低,说明该生不够努力,所获得的成就与他的智力不相称;对后者,如果学生的平均教龄低于智龄,说明教学存在问题;
(八)标准参照测验
1)标准参照测验的定义与作用
标准参照