《心理与教育测量》大纲知识要点备课讲稿Word格式.docx

资源描述

《心理与教育测量》大纲知识要点备课讲稿Word格式.docx

《《心理与教育测量》大纲知识要点备课讲稿Word格式.docx》由会员分享，可在线阅读，更多相关《《心理与教育测量》大纲知识要点备课讲稿Word格式.docx（36页珍藏版）》请在冰豆网上搜索。

《心理与教育测量》大纲知识要点备课讲稿Word格式.docx

（1）心理测量的特征

①心理测量的间接性

研究者无法直接测量人的心理,只能测量人的外显行为。

根据心理学特质（04首师大，名）理论,人们对行为测量的结果进行推论,从而间接了解人的心理属性。

心理特质是一组内部相关或有内在联系的行为倾向，是个人对刺激作反应的一种内在倾向，是个体特有的、稳定的、可辨别的特征。

②心理测量的相对性

所谓测量就是看每个人处在这个序列的什么位置上,位置具有相对性。

心理测量的比较标准的确定没有永恒的标准,从测量结果进行推论所采用的标准不是一成不变的。

③心理测量的客观性

测量的客观性实际就是测量的标准化问题。

按照严格的科学程序去编制和使用的测验称之为标准化测验。

（测验为什么要标准化？

怎样保证测验的标准化？

【03北师大，简答题】）

为什么要实行标准化：

a.可以减少无关因素对测验目的的影响,使测量准确、客观；

b.有统一标准,便于对不同人的测验成绩进行比较和交流；

c.同一份测验可用于许多人并可反复使用,较为经济。

补充：

心理测验的可行性（桑代克1918语——凡是客观存在的事物都有数量；

麦柯尔1939语——凡是有数量的事物都可以测量）。

（2）心理测量的分类

①根据测量的对象分类

a.认知测验：

又可称为能力测验,这类测验主要包括智力测验、能力倾向测验（又称性向测验）、教育测验（又称成就测验）及创造力测验等。

b.人格测验：

它测量的是个性中除能力以外的部分,亦可看作是非能力测验。

主要测量性格、情绪、需要、动机、兴趣、态度、焦虑、气质及自我概念等方面的个性心理特征及其相关行为。

②根据测验的人数分类

a.个别测验：

通常是一个主试与一个被试面对面进行。

比如比奈－西蒙智力测验、韦克斯勒智力测验等。

优点：

主试对被试的言语、情绪状态和行为反应有仔细的观察和控制的机会,并且有充分的机会与被试合作,激发被试测试的积极性,所以其结果比较正确可靠,适用于一些特殊对象,如幼儿和文盲。

缺点：

时间长,施测手续复杂,对主试要求高,主试需要经过严格训练,因而一般人不易掌握。

所以个别测验仅在有特殊目的（如诊断）时才使用。

b.团体测验：

在同一时间内由一位主试对多数人施测。

比如瑞文智力测验、大多数人格测验等。

可以节省人力、物力和时间,主试也不必经过严格的专门训练。

团体测验的记分和评分较个别测验更为严格和客观。

一般每题都有标准答案。

另外,因为标准化样组规模相当大,故团体测验更易建立常模。

无法对被试详细观察,不易控制被试的行为,容易产生误差,难以发现被试的特殊反应,主试和被试之间无法建立和谐关系等。

注意——团体测验可个别施测,但个别测验不能以团体方式实施。

③根据测验材料分类

a.言语或文字测验：

这类测验的题目是以语言或文字呈现的,受试者也要用文字或语言作答。

它可以测量人类高层次的心理功能,其编制和实施也较容易,因而应用范围较广。

团体测验多数采用文字测验形式。

语言或文字测验不能应用于语言有困难的人,而且对语言文化背景不同的被试加以比较时,甚至在同一文化背景下,被试文化程度和教育背景的不同,也会对测验结果产生相当大的影响,因而多少会损害其客观性。

b.非语言测验或操作性测验：

此类测验题目不用文字来呈现,而是以图画（图形）、符号或实物（如方块、积木、仪器和工具等）为测验材料。

被试的作答无需使用语言或文字,常以操作表达或回应。

具有文化公平性,因而可方便地用于学前儿童和不识字的成人,也可进行不同文化背景的差异比较研究。

费时太多,不易团体实施等。

还有测验既包括言语测验又包括操作测验,如韦克斯勒智力量表。

④依据测验的功能分类

a.筛选性测验；

只是对所欲测量心理特质作一般性的考查。

这类测验简便易行、省时省力,但是测验内容不够全面,因而不够精确。

b.诊断性测验：

测验的内容多而全面,一般为个别测验。

它的目的是进一步诊断被试某些方面的特殊优点和缺点。

⑤按测验的要求分类

a.最高作为测验：

要求被试尽可能做出最好的回答，一般有对错之分。

b.典型作为测验：

要求被试按通常的习惯方式做出反应，一般无对错之分。

⑥按测验的性质分类

a.结构性测验：

在测验中,所呈现的刺激和受测者的任务是明确的。

b.投射性测验：

在测验中,刺激没有明确意义,问题模糊,对被试的反应也没有明确规定。

罗夏、TAT等。

⑦按测验的应用领域分类

a.教育测验：

是测验应用最广的领域,用得最多的是学绩测验。

注意速度测验和难度测验的区别。

（速度测验和难度测验的定义和区别，【04北师大，简答题】）

b.职业测验：

主要用于人员选拔和安置,可以是能力和学绩测验,也可以用人格测验。

c.临床测验：

主要用于医务部门。

许多能力和人格测验可用来检查智力障碍或精神疾病,为临床诊断和心理咨询工作服务。

⑧依据测验结果的解释模式分类

常模参照测验：

与常模比较，以评价被试在团体中的相对位置为目的；

标准参照测验：

与一绝对标准相比较，以评价被试有无达到该标准为目的。

（二者的区别，03北师大，简答题）。

3.经典测量理论和真分数理论模型（03首师大，简答题）

经典测验理论又称真分数理论（有书上称“随机误差理论”）。

经典测验由基本假设、信度和效度等概念组成。

其中影响最大的是斯皮尔曼的真分数模型。

（1）真分数模型

①真分数的定义即是测量中不存在测量误差时的真值或客观值,操作定义就是无数次测量的平均值,通常用

或T表示。

另外,用

或

表示实得分数,

表示误差分数。

②真分数模型认为,任何测验所测得的分数都等于真实分数和误差分数之和。

真分数理论的基本方程式如下：

实得分数是真分数与误差分数的函数,即实得分数

由

和

共同决定。

进行心理测量时,

一般被视为稳定不变的,因此个体实测分数

的变化是由

引起的。

③除了基本方程式,真分数理论还有三个基本假设作为整个理论的支柱。

其一,误差分数的平均数是零。

其二,误差分数与真分数相互独立,即相关为零。

其三,两次测量的误差分数之间的相关为零。

（2）信度；

（3）效度——见下文

（4）经典测验理论的方法体系可分为项目分析和标准化两大部分。

项目分析主要包括计算题目的难度、区分度以及项目特征曲线ICC（坐标为总分或效标分数和通过率）（04华中师大）。

测验的标准化是指对不同的被试在测试题目、施测条件和程序、计分和分数解释等各方面都采用一个固定的标准。

（测验的标准化对提高测验质量有何作用？

它的局限是什么？

测验最主要的质量指标是什么？

06北师大，简答题）

（二）测量的信度与效度（04浙大，名）

1.测量的信度

（1）信度的定义

信度的描述定义指测验结果的一致性或稳定性,其测量定义为一组测量分数的真变异数与总变异数（实得变异数）的比率,含义是在实得分数的变异中有多大比例是由真分数的变异决定的。

rxx=ST2/Sx2

（2）信度系数的估计（种类）

①重测信度：

a.求法是对同一批被试运用某个测验实施首测,相隔一段时间后对它进行再测,然后计算首测与再测所得分数的相关（一般是积差相关）,即得重测信度。

这种信度能表示两次测验结果有无变动,反映测验分数的稳定程度,故又称稳定性系数。

b.优点：

能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为表现的依据。

c.缺点：

易受练习和记忆的影响,前后两次施测间隔的长短必须适度。

如果相隔时间太短,则记忆犹新,练习的影响较大；

如果相隔时间太长,则身心的发展与学习经验的累积等都足以改变测验分数的意义,而使相关降低。

另外,第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。

d.误差来源：

时间的不同所带来的随机影响,如气候、偶然的噪音或其他干扰,以及引起被试本身身心状态变化的因素如疾病、疲劳、情绪类型、焦虑等。

重测信度代表测验成绩能够应用于不同时间的程度,信度越高,受测验环境中日常的随机因素的影响越小。

由于测验的稳定性系数受时间和其他各种因素的影响,故任何一个测验都可有不止一个重测信度系数。

所以在测验手册中报告此种信度时应说明时间间隔以及在此间隔中被试的有关经历,如受过何种教育训练、心理治疗以及有何学习经历等。

②复本信度:

a.求法是先运用同一测验的一型或A型施测,随后在最短的时间内运用二型或B型进行再测,然后再求它们得分的相关系数。

b.误差来源：

测验两种形式是否等值：

测题取样是否匹配,格式是否相同,内容、题数、难度、平均数、标准差是否一致。

再就是被试方面情绪波动、动机变化等,以及测验情境的变化,偶发因素的干扰。

这些都会引起测量误差。

在报告复本信度时,也应说明两次施测的间隔,以及在此间隔内被试的有关经历。

③内部一致性信度

估计内部一致性系数的方法通常有两类：

一类是分半法,另外一类方法需要对项目反应的方差或协方差进行分析。

a.分半法是将一个测验分裂为两个假定相等而独立的部分,然后计算这两部分的记分的相关系数（一般是以项目的奇数为一组,偶数为另一组）,继而再用斯皮尔曼－布朗公式来估计整个测验的信度（斯－布公式要求两半的变异数相等）。

公式如下：

，其中

是分半信度系数,

测验在原版时的信度的估计值。

把测验划分成两半的方法实际上有多种,而每一种划分方法产生的

估计都有差别,因此用分半法得到的信度估计值不具备惟一性。

b.克朗巴赫

系数（03首师大，名）

适用于非0,1记分的一种内在一致性系数,计算公式为：

式中,n为人数，

是测验每个项目的方差。

Si2

c.除了以上两种方法,还有库德－理查逊公式（只适合于0、1记分的题目）；

荷伊特信度；

因素分析等方法。

有些测量学家认为因素分析是决定测验同质性的最好方法。

因素分析方法最初是由心理学家斯皮尔曼在研究智力理论时提出来的,后来发展成为一种复杂的统计技术,用于确定一组变量间的相互关系最少需要几个因素来解释。

在测验上,如果一个因素就足以解释所有题目分数的变异时,这个测验就是同质的,假如需要一个以上的因素时,则测验的组成是异质的。

d.内在一致性信度的优点：

只需施测一次,就可以估计信度系数,省时节力。

另外用内在一致性系数一般要比重测信度、复本信度所算出的信度系数高。

e.不足之处：

求分半信度时,分半的方法不同,估计出的信度系数就不同。

而且,测验须要求具有同质性。

所以项目异质的人格测验,通常就不能用内在一致性系数来估计信度。

④评分者信度（02西北师大，名）

随机抽取相当份数的试卷,由两位评分者按记分规则分别给分。

然后根据每份试卷的两个分数计算其相关系数,即得评分者信度。

一般要求在成对的、受过训练的评分者之间平均一致性达到0.90以上,才认为评分是客观的。

综上所述,信度高低是用相关系数表示的。

不同的测验内容,对相关系数的要求有所不同。

一般说来,标准智力测验应达到0.85以上,个性测验和兴趣测验一般应达0.70～0.80水平。

学业成就测验要求信度在0.90以上,才能被称为是一个良好的测验。

（3）信度的影响因素与改进（03、04首师大，简答题）

信度与误差变异之间有密切的关系。

误差变异越大,信度愈低。

凡被试、主试、测验内容和施测情境等各个方面能引起随机误差而导致分数不一致的因素,都会降低测验的信度。

被试方面——身心健康状况、动机、注意力、持久性、求胜心、作答态度等。

主试方面——不按规定实施测验,制造紧张气氛,给予特别协助,评分主观等。

测验内容方面——试题取样不当,内部一致性低,题数过少,题意模糊等。

施测情境方面——测验现场条件,如通风、温度、光线、噪音、桌面好坏、空间阔窄等。

除此之外,还有以下几个因素会影响信度系数的大小：

①被试样本

影响信度系数的一个重要因素是用来确定信度的被试团体的特性。

②团体的异质性（公式）

如同所有相关系数一样,信度系数受分数的分布范围影响,而分数范围与被试团体的异质程度有关。

一个团体越是异质,其分数范围越大。

而一个经过筛选、相对同质的团体分数则较为均匀。

rnn=1-So2（1-roo）/Sn2

③团体的平均水平

信度系数不仅受被试样本的个体差异程度的影响,而且受被试团体的平均水平的影响。

这是因为,对于不同水平的团体,题目具有不同的难度。

每个题目在难度上的微小差异累积起来便会影响信度。

由于信度系数与被试样本的异质程度和平均水平有关,因此在编制测验时,应把常模团体按年龄、性别、文化程度分为更同质的亚团体,并分别报告每个亚团体的信度系数,这样测验才能适用于各种团体。

④题目的数量（公式）

题目的数量（亦即测验的长度）也是影响信度系数的一个因素。

一般说来,在一个测验中增加同质的题目,可以使信度提高。

因为增加测验的长度可以加大分数范围。

rkk=Krxx/[1+（k-1）rxx]

这里要注意一点,只有当新题目是与原题目选自同一总体,即与原题目具有同质性时，增长测验才能改进信度。

⑤测验难度

测验的难度与信度间没有简单的关系。

然而,若测验对某团体太难或太容易,则分数范围将缩小,从而使信度降低。

这表明,要使信度达到最高,能产生最广分数分布的难度水平方为合适。

⑥间隔时间

以再测法或复本法求信度,两次测验相隔时间越短,其信度系数越大；

间隔时间越久,其他变因介入的可能性越大,受外界的影响也越多,信度系数便越低。

2.测量的效度

（1）效度的定义（04重庆大学，名）

效度的测量定义：

与测量目标有关的真变异数与总变异数的比率,含义是在一组测验分数中,有多大的比例是由测验所要测量的目标引起的。

总分变差分为三个部分：

，

：

由所测量的心理特性引起的主要变差,或与所测量的心理特性有关的共同因素所引起的变差；

由与所测量的特性无关的其他个别特性所造成的变差（系统误差引起的变差）；

误差变差,是测量误差的变差。

描述定义：

效度是指一个测验或量具能够测量出其所要测量目标的程度。

（2）效度的估计

测验的效度分为三大类：

内容效度、构想效度、效标效度。

①内容效度（02西北师大，名）（表面效度【04首师大，名】）

内容效度指的是测验题目对有关内容或行为范围取样的适当性。

这种测验的效度主要与测验内容有关,所以叫内容效度,指测验题目在要测量的行为领域的代表性。

内容效度的评估方法主要应用于对学绩测验的评估。

一个测验要有内容效度必须具备两个条件：

要有定义得完好的内容范围；

测验题目应是所界定的内容范围的代表性取样。

测验题目并不需要包罗该范围的所有材料,而只需包含测验编制者认为是重要的材料。

确定内容效度的方法主要有专家判断、统计分析、经验法等。

a.专家判断

为了确定一个测验是否具有内容效度,最常用的方法是请有关专家对测验题目与原定内容范围的符合性做出判断。

b.统计分析

内容效度可由一组被试在独立取自同样内容范围的两个测验复本上得分之相关来作数量的估计。

若相关低,说明二者至少有一个缺乏内容效度；

若相关高,一般可推论测验有内容效度。

c.经验法

检查不同年级的学生在测验上的得分和在每个题目上的反应情况。

一般说来,测验总分和题目通过率随年级而提高,便是测验具有内容效度的证据。

构想效度是指一个测验对某种心理学理论所涉及的抽象概念或心理特质测得如何。

效标效度又称实证效度,指的是测验对研究者所感兴趣的外在行为能够做出多好的预测。

这种外在行为是衡量测验是否有效的标准,简称效标。

②构想效度

构想效度就是测验对某一理论概念或特质测量的程度。

研究和考察构想效度要回答三个问题：

一个测验测量什么心理构想,对这构想测得有多好,测验分数中有多少比例的变异数是来自测验所要测的构想。

确定构想效度的方法主要分为测验内方法、测验间方法。

a.测验内方法主要是通过研究测验内部构造来界定所测量的构想的范围。

如确定测验的内容效度,分析被试对题目作反应的过程,考察测验的同质性等方式。

b.测验间是通过研究几个测验间的相互关系,找出他们的共同特点,进而推断出所测的共同特质是什么,便可确定这些测验是否有构想效度。

如确定相容效度、区分效度、因素分析（因素分析法在效度验证中的作用，【04首师大，简答题】）效度等方式。

③效标效度（为了使效标关联效度的更准确反映测验质量，应该关注哪些技术环节？

效标效度又称实证效度,指一个测验对处于特定情景中的个体的行为进行预测时的有效性,也就是对于研究者所感兴趣的行为能够预测得怎么样。

其中,被预测的行为是检验测验效度的标准,简称效标。

确定效标效度的方法主要有相关法、区分法、命中率和功利率等。

a.相关法

最常用来建立实证效度的方法是求测验分数与效标测量间的相关,所得到的数量指标称作效度系数。

在测验手册中,一般用它来报告测验对每种效标的效度。

计算效度系数最常用的是积差相关法。

b.区分法

第二个决定效度的方法是看预测源的分数是否可区分由效标测量所定义的团体。

c.命中率（公式）

当测验用来作取舍的根据时,其有效性的指标就是正确决定的比例（总命中率）。

（正命中率和总命中率）

d.功利率

为了确定测验的功效,人们还常常对使用测验所花掉的费用与得到的利益进行比较,看是否利大于弊。

这种效度指标,叫功利率。

（3）效度的影响因素与改进

影响测验效度的因素很多,在编制测验或选择标准化测验时,都应该考虑到这些因素,以免影响测验结果的有效性。

①测验本身的因素

a.测题中所用词汇和句型不能过于困难。

测题中的词汇和句型应适于被试的文化水平。

b.试题的意思应该清楚。

题意含糊,容易产生歧义,以致被试产生误解也会降低测验的效度。

c.所编制的测题应该造合所要测量的学习结果。

d.测题中不能提供额外线索。

若测题为被试提供了额外线索,就无法确认测题是否真正测量到了所欲测量的学习结果。

e.测题的编制要合理。

一般地,测题以由易到难的顺序排列。

f.选择题的正确答案不能有明显的组型。

如果测验正确答案的位置有明显的规律,学生有可能发现规律答对一些原本较难的题目,从而影响测验结果的效度。

g.测题数目。

增加测题的数目（即增加测验长度）通常可以提高测验的信度和效度。

h.测题的难度要适当。

标准参照测验中的测题平均难度应在0.05左右,并有适当的难度分布,测题太难或太易都无法区分学生的优劣,从而降低测验的效度。

标准参照测验并不强调测验分数间的差异,也就不需要区分学生的优劣,这时的测题难度就应该与教学目标的要求相一致。

②测验实施和计分方面

测验情境,如场地的布置、材料的准备等都会影响到测验的效度,此外,在实施测验的过程中,是否遵照测验使用手册的各项规定进行标准化的施测,指导语是否已将答题方式说明清楚,是否按要求进行时间限制等,也影响到测验的效度。

如果没有按照标准化的程序进行施测和客观的评分,就必然会使测验效度降低。

③被试的主观方面

被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等,都会影响到测验结果的可靠性和正确性,即效度和信度。

3.信度和效度的关系（03首师大，简答题）

（1）信度和效度的关系：

信度是效度的必要条件,但不是充分条件。

具体是：

信度低,效度不可能高。

因为如果测量的数据不准确,也并不能有效地说明所研究的对象；

信度高,效度未必高。

例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平；

效度低,信度很可能高。

例如,即使一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量；

效度高,信度也必然高。

信度和效度的差别在于所涉及的误差不同。

信度考虑的是随机误差的影响,效度的误差则还包括由于测量了对测验目的来说无关的变量所引起的系统误差。

（2）效度受到信度的制约

（三）心理测量的误差（误差的来源及其控制）（详述测量误差的来源，【04首师大，论述】）

1.测量误差的定义

（1）所谓误差是指在测量中与目的无关的因素所产生的不准确的或不一致的结果。

测量误差分为随机误差和系统误差。

（2）在测验中,有与测量目的无关的偶然因素引起的变化无规律的误差,使得多次测量结果不一致,这种误差的大小和方向是随机的,叫做随机误差或偶然误差。

（3）有与测量目的无关的因素引起的恒定的有规律的误差,它稳定地存在于每一次测量中,这种误差叫做系统误差。

系统误差只影响测量的准确性,而随机误差既能影响准确性,也能影响一致性。

能带来误差的因素有很多,实际上任何与测验目的无关的变因都可能引起误差。

测验的标准化就是为了控制这些误差因素,使测验分数更可信、更有效。

2.测量的随机误差来源及控制

（1）测量的随机误差来源于施测过程引起的误差,在测验的实施过程中可能引起误差的因素很多,如测试环境、时间、主试者、意外干扰、评分记分等。

①测试环境的干扰。

施测现场的温度、光线、桌面高低好坏等对被试都有影响。

例如,在测试过程中,光线充足,有利于被试正常地作答；

光线暗淡,则会影响作答的效果。

②测试时间的影响。

时间安排也是影响测试准确性的一个重要因素,如果时间安排不当或时限不统一,必然会引起测验结果的改变。

③主试因素。

主试的年龄、性别、外表、言谈举止、表情动作、对测验过程的熟悉程度等都能影响测验的结果。

如果不按照规定施测,如给予暗示、制造紧张气氛等都会带来很大的误差。

④意外干扰。

在测试环境复杂,特别是当被试人数较多时,可能发生意外情况,例如：

停电、有人生病、作弊等等,无论哪种情况出现,都会影响测验结果的准确性。

⑤评分记分。

评分不客观和记分出现错误也是较常见的误差。

一般来说,客观题的评分较为准确客观,而主观题的评分标准较难掌握,再加上阅卷者的风格、情绪以及其他心理因素的干扰,因而很难保证分数的一致性。

（2）控制

①主试在测验前要把测验材料准备好,以免短缺而临时寻找。

事先的充分准备可减少实施过程的测量误差,负责施测的主试也要有一本测题册和一份答案记分纸,并请被试准备好铅笔或圆珠笔。

②测验被试的确定和测验场

展开阅读全文