GG心理学背诵宝典心理测量学Word文档格式.docx

资源描述

GG心理学背诵宝典心理测量学Word文档格式.docx

《GG心理学背诵宝典心理测量学Word文档格式.docx》由会员分享，可在线阅读，更多相关《GG心理学背诵宝典心理测量学Word文档格式.docx（33页珍藏版）》请在冰豆网上搜索。

GG心理学背诵宝典心理测量学Word文档格式.docx

有相等单位，绝对零点（时间）

四则运算

无

加减

加减乘除

统计方法

百分比、次数、

众数、卡方检验

中位数、百分位数

均数、标准差、积差相关、t检验等

几何平均数、

变异系数

例子

职业

名次

温度

重量

注意：

高级量表可以向下兼容，但低级量表不能向上兼容。

（3）心理测量的理论依据：

桑代克（1918）：

凡客观存在的事物都有其数量

麦柯尔（1939）：

凡有其数量的事物都可以测量

（4）心理量表：

本质上属于顺序量表。

因为参照点是相对参照点。

测量单位的意义也不明确，往往达不到等距量表。

但是很多都通过统计方法转换成了等距量表

（5）心理测验（阿纳斯塔西的）：

认为心理测验实质上是对行为样本的客观和标准化的测量。

（6）测验应具备4个基本条件

行为样本：

测量外部行为来推测心理特质。

（间接测量）

标准化：

（内容、施测条件、评分规则、常模的标准化）

【常模是用来弥补心理测验没有绝对参照点的缺陷】

难度或应答率（难度适中，应答率符合统计计算）

信度和效度（结果一致且可靠）

2、心理测量的特征与分类

（1）心理测量的特征

间接性：

心理属性是内在的不可直接测量到的特质，但可表现为一系列具有内在联系的外显行为，测量者可以通过一定的方法测量这些外显行为，并由这些行为判别特质的性质。

相对性：

对人的行为进行比较，没有绝对的标准，亦即没有绝对零点，有的只是一个连续的行为序列。

所有的心理测量都是看每个人处在这个序列的什么位置上，也就是只有顺序量表的特征。

客观性：

实际上就是测验的标准化问题。

测验用的项目，说明、言语、态度、评分、分数转换、解释都需要标准化。

（2）心理测量的分类

按测量对象

智力测验：

一般认知能力（斯坦福-比内，韦克斯勒智力量表，瑞文推理属此类）

能力倾向测验：

预测能力发展方向（一般能力倾向测验，特殊能力倾向测验）

成就测验：

个人在接受教育后的学业成就（学科成就测验，综合成就测验）

人格测验：

16PF，EPQ，MMPI

按测量方式

个别测验：

同一时间只能测量一个被试，智力测验（斯坦福-比内，韦氏）和投射测验

团体测验：

同一时间能够测试许多被试，绝大多数自陈式人格问卷

按内容的形式

文字（纸笔）测验：

通过文字形式表现出来的。

非文字（操作）测验：

通过指认、手工操作表现出来。

按测验功能所作的分类

成就测验与预测测验；

难度测验与速度测验；

描述测验与诊断测验。

按评价所参照的标准分类

a、常模参照测验（被试与常模比较，以评价被试在团体中的相对位置）

b、目标参照测验（被试与绝对标准相比较，以评价被试有无达到该标准为目的）

c、潜力参照测验（被试水平与自身潜力相比较，以评价被试有无充分发挥自身潜力为目的）

历史人物:

孔子将人的智力分成三个等级，中之上人、中人和中下之人；

三国时期刘邵《人物志》是一部研究能力的著作；

高尔顿第一个大规模系统测量人的个别差异，还是评定量表、问卷法及自由联想法的先驱；

卡特尔在《心理测验与测量》这篇论文中，首次提出了“心理测验”；

1904年比内与其助手合作完成了世界上第一个智力量表（比内-西蒙量表）。

（二）经典测量理论（CTT）

1、经典测量理论模型

真分数（T分数）：

反映心理特质的真正水平的那个值；

观测分数（X分数）：

实际测量到的那个值。

于是乎，经典测量理论就假定，观察分数和真分数之间是一种线性关系，并只相差一个随机误差即X=T+E（经典测量理论的数学模型）

根据这一模型，我们可以引申出3个假设公理

（1）若经过平行测验反复测量足够多次，则观察分数的平均值会接近于真分数，

E（X）=T或E（E）=0（换句话说就是测量足够多的话，随机误差就趋近于0了，误差服从均值为0的正态分布，所以就被抵消了）；

（2）真分数和误差分数之间的相关为零，ρ（T,E）=0（说明真值和随机误差是独立的）；

（3）各平行测验上的误差分数之间的相关为零，ρ（E1,E2）=0（平行测验造成的随机误差之间无关，误差是服从均值为0的正态分布的随机变量。

）

平行测验是测量特质相同，但题目不同的测验。

（高考的A，B卷）

事实上，我们在实际运作时，并不是许多平行测验来反复测查同一批被试，而是用一个测验来同时测查许多被试。

根据模型，我们可得

（观察分数的方差=真分数方差+误差分数方差）

系统误差的变异包含在真分数的变异之中，所以真分数还可以分成两部分：

与测量目的有关的变异和与测量目的无关的变异

（真分数的方差=有关方差+无关方差）

最后：

观测分数的变异=测量目的有关的变异数（有效变异）+稳定的但出自无关来源的变异数+测量误差变异

其实就是观测变异=有效变异（心理真值，我们要的）+系统误差变异（朝一个方向偏）+随机误差变异（朝各个方向偏）。

经典测量理论的局限：

（1）信度估计精度不高，平行测验难以实现；

（2）误差指标笼统、单一、不精细；

（3）各种参数估计对样本的依赖性太大；

（4）参数指标之间的匹配性较差；

（5）真分数与观察分数间存在线性关系的假定不合理。

2、测量的信度与效度

信度的定义

信度就是测量结果的稳定性程度。

也就是用同一测量工具反复测量的一致性程度。

【就是打靶能不能每次打在同一个位置】也叫可靠性。

信度有三种等价定义：

（1）信度乃是真分数变异与观测分数变异之比；

（2）信度乃是真分数与观测分数的相关系数的平方；

（3）信度乃是两个平行测验间的相关系数。

信度的作用：

（1）信度是随机误差的反应（与系统误差无关）；

（2）信度可以解释个人测验分数的意义，测量的标准误是一次测量中误差大小的客观指标，

，可通过区间估计指出测量的精确度。

（3）信度可以帮助进行不同测验分数的比较（Z检验），即采用差异的标准误来进行差异的显著性检验，

，S为相同信度的标准分数的标准差，其中rxx、ryy两测验的信度。

信度的估计

重测信度：

同一个量表对同一组被试施测两次所得结果的一致性程度。

（相对稳定性）

使用条件：

所测量的心理特性必须是稳定的；

遗忘和练习的效果基本上相互抵消（智力测验间隔6个月左右）；

两次施测之间，被试在所要测查的心理特质方面没有获得更多的学习和训练。

计算方法：

皮尔逊积差相关

，

复本信度：

两个平行的测验测量同一批被试所得结果的一致性程度。

构造出两份及以上平行测验（A、B卷）；

尽量缩短间隔时间，排除记忆和练习的干扰。

缺点：

严格的平行测验很难造出来；

容易受到练习，记忆和迁移的影响

计算：

两个复本测验上所得分数的皮尔逊积差相关。

分半信度：

将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。

通常在只能施测一次或没有复本的情况下使用；

当一个测验无法对等分半时，不能用；

（可以按奇偶分半，题目难度分半，题目内容分半）。

可以看成是短时间内实施的两个平行测验。

和复本信度一样，但是由于算出来只有半个信度，应该用斯皮尔曼-布朗公式加以矫正。

（rhh两半分数间的相关系数，rxx为整个测验的信度值）

两个测验的方差相等时才能使用，否则应该用弗朗那根公式或卢仑公式。

同质性信度：

内部所有题目的一致性程度。

就是一个测验所测内容或特质的相同程度。

克龙巴赫α系数：

结果解释：

一致性高，说明所测的都是同一心理特质，而且题目得分之间也有高的正相关。

特质单一，同质性信度不一定高；

但同质性信度高，特质一定单一。

评分者信度：

多个评分者给同一批人的答卷进行评分的一致性程度。

评分者2人用积差相关或等级相关，评分者多于两人时用肯德尔和谐系数（W系数）来算，但被评对象多于7个，可以用卡方检验。

信度的影响因素与改进

影响信度的主要因素有：

被试方面：

个体而言是，被试的心理特质水平的稳定性；

、团体而言是，离散程度和团体的平均水平都会影响。

主试方面：

施测人员不按规定施测，故意制造紧张气氛，或给考生一定的暗示，协助等，则测量信度会大大降低。

施测情境方面：

考场是否安静、光线通风是否良好、设备是否齐全、桌面是否合乎要求。

测量工具方面：

测量工具是否稳定，试题取样、试题之间的同质性程度、试题难度等。

两次施测的时间间隔：

重测信度，越短越好

提高测量信度的常用方法：

适当增加测验长度（项目同质，数量适度）

【看病时，医生只问你一两个问题就做出诊断，你信吗？

】；

难度适中，分布正态；

提高区分度；

选取恰当的被试团体；

主试严格执行施测程序，评分者严格按标准给分，场地按要求布置。

效度的定义

效度是指一个测验或量表实际能测出其所要测的心理特质的程度。

【也就是能不能打中靶心】一个相对概念；

随机误差和系统误差的综合反映；

判断是否有效要从多方面搜集证据。

效度的数学定义：

效度=有效变异除以总变异，由观测变异=随机误差变异+系统误差变异+有效变异可知，信度高效度不一定高，效度高信度一定高，测验效度受信度制约。

内容效度：

一个测验实际测到的内容与所要测量的内容之间的吻合程度。

【考研时全是超纲题，内容效度就低】

用途：

成就测验，职业测验（选拔和分类）。

不适用于能力倾向测验和人格测验

与表面效度区分开来，表面效度是外行人认为高就高

结构效度：

一个测验实际测到所要测量的理论结构或特质的程度，或者说测验分数能够说明心理学理论的某种结构或特质的程度。

【卡特尔根据他的人格理论制作了16pf，结构效度应该是高的】

特点：

结构效度大小首先取决于心理特质理论；

实测资料无法证实理论时，并不一定结构效度不高；

结构效度是通过测量内容的选择积累起来以确定的。

确定方法：

1、提出理论假设并分成细小的纲目，以解释被试测验上的表现；

2、依据理论框架，推演出有关测验成绩的假设；

3、用逻辑的和实证的方法来验证假设。

智力测验，人格测验

实证效度（效标关联效度）：

一个测验对处于特定情境中的个体的行为进行估计的有效性。

说明应该以实践的效果来作为检验标准。

【研究生考试选拔的人才，具备高的科研能力，说明实证效度高】

效标指被估计的行为是检验效度的标准，简而言之就是衡量一个测验是否有效的外在标准。

【就是你测定的行为，会不会在实践中发生】

常用效标：

学业成就、等级评定、临床诊断、专门的训练成绩、实际的工作表现、对团体的区分能力以及其它现成的有效测验。

效度的估计

实证效度确定的步骤：

明确观念效标、确定效标测量、考察测验分数与效标测量关系。

实证效度的估计方法：

相关法：

计算测验分数（瑞文推理）与效标测量（高考）的相关系数

区分法：

接受测验后，先工作一段时间，根据工作成绩（效标测量）分成好坏两组。

在回过头来分析两组被试原先接受测验的分数差异，若这两组人的测验分数差异显著，则说明该测验有较高的效度。

命中率：

总命中率，测验选出且工作合格和测验淘汰且工作不合格的人数与总人数之比；

正命中率，测验选出且工作合格与总人数之比

功利率：

对使用测验所需费用和所得收益进行比较，看是否利大于弊。

预期表法

校标测量要求：

有效性；

可靠性；

客观性；

实用性。

效度的影响因素与改进

影响因素：

（1）测验的构成（样本对预测内容和结构的代表性，如难度，指导语，题目编制，测验长度）；

（2）测验的实施过程（不遵守指导语，或出现意外干扰，计分出错）；

（3）被试情况：

个体（身心状态）、团体是否同质（大学生测验混进几个小学生））；

（4）所选效标的性质：

不同测验选择不同效标，效标与测验分数间必须符合线性关系；

（5）测量的信度：

测验效度受信度制约。

提高方法：

（1）通过标准化全面减少各种测量误差；

（2）精心编制测验量表，避免出现较大的系统误差；

（3）妥善组织测验，控制随机误差；

（4）创设标准的应试情景，让每个被试都能发挥正常的水平；

（5）选择正确的效标，定好恰当的效标测量，正确使用有关公式。

信度和效度的关系

（1）信度是随机误差的反映；

效度是系统误差和随机误差的综合反映；

（2）信度高是效度高的必要非充分条件，信度高效度不一定高，效度高信度一定高；

（3）测验效度受它的信度制约，信度系数的平方根是效度系数的最高上限。

信度是打靶总打同一个点，说明随机误差小；

效度是打到靶心，说明系统和随机误差都小。

3、心理测量的误差

测量误差的定义

测量误差是指在测量过程中由那些与测量目的无关的变化因素所产生的一种不确定或不一致的测量效应。

随机误差就是那种与测量目的无关的、偶然因素引起的而又不易控制的误差。

（不确定朝哪里偏）；

系统误差是指那种由与测量目的无关的变因引起的一种恒定而有规律的效应。

【稳定的朝一个地方偏】

测量误差的来源及控制

测量工具（样本太小或有偏。

样本小，不稳定；

样本偏，不准确）；

被测对象（身心状态，如过渡焦虑和紧张会低于正常成绩，出现测量误差）；

施测过程（物理环境，外面突然放鞭炮，估计·

，意外事件，考场停电）；

主试方面（主试的年龄，性别，外表，言谈举止，表情动作，是否按规定实验）。

控制：

从误差来源入手。

测验准备尽可能充分细致，实测各个方面尽量标准化；

题目编制认真用心、标准化。

测量误差的估计

对一个团体进行两次施测，团体中的每个人两次测量的分数之差可以构成一个新的分布，这个分布的标准差就是测量的标准误。

它是此次测量中误差大小的客观指标。

可以对团体中任何一个人的测验成绩做出恰当解释（即能通过区间估计指出测量的精度。

4、心理测验的项目分析

项目分析包括定性分析和定量分析。

定性分析包括考虑内容效度、题目编写的恰当性和有效性等，重点在于分析测题的内容和形式；

定量分析主要是采用统计方法来分析试题品质。

难度

难度是指测验项目的难易程度。

【大部分人答对，难度小；

大部分人都答错，难度大。

】

难度的计算（计分方法不同，项目难度的计算方法也不同）

（1）二分法计分项目的难度（客观题，只有答对答错两种）

通过率（不考虑被试作答是猜测成功的机遇）

答对人数的百分比（与我们通常的理解相反）

，其中

代表项目难度；

为全体被试数；

为答对通过该项目的人数

（2）极端分组法（被试人数较多时）

先按总分从高到低排列，分成三组，总分最高的27%作为高分组，总分最低的27%作为低分组，分别计算高分组和低分组的通过率，然后求项目的难度。

其中

和

分别代表高分组合低分组的通过率

（3）非二分法计分项目的难度（主观题，从满分到零分的多种可能结果）

为被试在某项目上的平均分；

为该项目的满分

测验难度水平的确定：

测验的目的是为了了解被试在某方面知识技能的掌握情况，可以不必过多的考虑难度，内容合适即可（目标参照测验、掌握测验）

测验的目的是用于选拔、录用人员，就应该将难度控制在录取率附近（常模参照测验）

难度的等距变换：

由于难度是顺序变量，不能指出差异的大小和代数运算，所以一般都转换成等距量表。

样本很大时，近似正态，可以转换成标准分数。

但是转换后往往会有小数和符号，所以可以采用美国教育测验服务中心的难度指标

（Z是P值转换得来的难度指标）

难度对测验的影响

分布形态：

难度过大，分数集中在低分端，呈正偏态分布；

难度过小，分数普遍较高，集中在高分端，呈负偏态分布

离散程度：

难度集中在0.5附近时，分数分布广，方差大。

难度集中在两端时，过易或过难，分数分布范围最小。

对信度的影响：

分数分布广，信度高，反之信度低。

对区分度的影响：

分数分布广，区分度高。

区分度

区分度（D）是指测验项目对被试心理品质水平差异的区分能力。

（水平高的得分高，水平低的得分低，区分度就好），取值范围[0,1]，区分度的效标分数更多是测验总分。

区分度的计算

（1）项目鉴别指数法（适用于二分法记分的测试项目）

分别代表高分组和低分组的通过率。

（两端各选27%的被试）

正态分布时，很有效，如果团体人数过少时，应该加大选择的比率。

（2）相关法

以项目分数与效标分数或测验总分的相关作为项目区分度的指标。

比项目鉴别指数法有更高的精度。

常用的计算方法：

点二列相关，二列相关，Φ相关，积差相关

难度和区分度的关系：

难度接近0.5时，项目潜在的区分度越大，而难度D越接近1或0时，项目潜在的区分度就越小。

所以一般保持中等难度。

区分度的相对性

不同的计算方法，所得区分值不同；

样本容量大小影响相关法区分度值的大小（样本越大越靠谱）；

分组标准影响鉴别指数（D）（分组越极端，区分度越大，一般取前后27%）；

被试样本的同质性程度（水平接近区分度小）

项目的综合分析与筛选

根据难度挑选项目（一般难度在0.35-0.65，平均难度则要0.5左右）

根据区分度挑选项目（区分度在0.3以上比较理想，有些在0.2-0.3的也可以）

由于分布广，信度高，所以尽量使成绩分布均匀，难度梯度应该大些，最好呈正态分布。

（三）项目反应理论（IRT）

首先，前面的经典理论是有不足的（真分数与观测分数存在线性关系的假设不合理，平行测验也难以成立），于是为了弥补它的缺陷，项目反应理论和概化理论应运而生了。

简单的说，IRT在处理微观问题（被试水平与题目之间的实质性关系）优势明显，CTT在处理中观问题（常见的标准化考试）时更方便易懂，GT则在处理宏观问题（如对结果做出推断）时更显出色。

项目反应理论是为了克服CTT理论的局限而提出来的，从测验的内部入手，采取数学建模和统计调整的方式，重点讨论被试能力与测验项目之间的实质性关系，测验的每一个项目都有自己的项目特征曲线，描述了每一个特定能力水平的被试答对或答错该项目的概率。

潜在特质理论（和经典理论一样，认为潜在特质不能观测和测量，只能借助于行为。

潜在特质：

制约人的行为的心理特征。

潜在特质空间：

对于某一特殊行为的发展起作用的所有潜在特质的集合，潜在特质空间可能是多维的也可能是单维的（和人格特质理论的维度差不多）。

【你的行为是由潜在特质决定的，查明了潜在特质空间的维度，以及各维度在决定你行为时所作贡献的大小，建立了维度模型后，只要找到你在维度模型上的位置，就知道你的发展方向和水平了】

1、单维性假设与项目特征曲线

单维性假设：

单维性是指测验测量的是单一特质而非多元特质，即被试对测验中任一项目的反应是其单一特质的函数。

项目特征曲线：

IRT假设正确反应率与特质变量之间存在规律性变化关系，这种关系可以用一个数学函数形式表示出来（回归方程），这一函数称为项目特征函数（ICF），这一曲线称为项目特征曲线。

2、单参数模型、双参数模型和三参数模型（正态卵形模型，很有喜感的名字）

正态卵形模型将前面的项目特征曲线视为一条S形的正态积累函数曲线，除了含有被试特质参数外，均还含有三个位置参数a、b、c，这三个参数是决定曲线走向和形态的参数。

单参数模型：

难度参数b，答对题目的概率，除了和自己有关还和难度有关。

双参数模型：

难度参数和区分度参数a，答对题目的概率，除了和自己有关还和难度和区分度有关。

三参数模型：

难度参数和区分度参数和猜测参数c。

答对题目的概率，除了和自己有关还和难度和区分度和猜测有关。

3、项目信息函数与测验信息函数

项目信息函数：

反应了每个项目对每个被试进行评价时所提供信息的大小。

用项目信息函数计算出来的值叫项目信息量，项目信息量的大小由项目参数和被试特质水平决定。

项目信息量越大，说明进行评价时所提供的信息量越大，测量误差越小。

双参数模型时，特质参数与难度参数相等时，误差最小。

说明题目要与能力相匹配。

测验信息函数：

把一个测验中所有的项目信息函数都累加起来，就得到了测验信息函数。

测验提供的信息量越大，则该测验在评价该被试的特质水平时就越准确。

（四）概化理论

CTT理论仅以一个E就概括了所有误差，并不能指明哪种误差或在总体中各种误差的相对大小如何。

针对性不强，所以克伦巴赫等人提出了概化理论。

概化理论的基本思想是：

任何测量都处在一定的情境关系之中，应该从测量的情境关系中具体地考察测量工作，提出了多种真分数与多种不同的信度系数的观念，并设计了一套方法去系统辨明与实验性研究多种误差方差的来源。

1、方差分量的估计

测量的总方差可以分解为代表目标测量的方差成分（要测的心理特质，如阅读能力）和构成误差的种种方差成分（测量侧面即构成测量条件与具体情境关系的因素，如指导语，试题水平）。

因此，对测验进行标准化是对测量侧面进行固定，比如把阅读内容定为科技文，这时所测的特质就变成了科技文的阅读能力。

测量目标在具体关系条件下的分数叫全域分数（就是真分数）。

同一测验资料有多种全域分数。

2、概化系数与可靠性指数

概化系数G和可靠性指数Ψ，这两个指数相当于CCT理论中的信度

概化系数G=测量目标方差/（测量目标方差+相对误差方差）是对常模参照测验稳定性度量

可靠性指数Ψ=测量目标方差/（测量目标方差+绝对误差方差）目标参照测验稳定性和一致性的度量。

相对误差方差是所有与测量目标有关的交互效应方差之和，绝对误差方差是除了目标主效应以外的所有效应方差之和。

概化系数和可靠性指数的开方等于实得分数与真实水平之间的相关，其值越高，测验信度越高。

3、G研究与D研究

概化理论分析的具体过程（以双侧面交叉设计模型为例）

【例子是一种情境关系】

一个有几个元素的测验目标；

两个测验侧面，以及它们的若干个水平。

交叉设计是指，

展开阅读全文