1、心理与教育测量考试重点 自己总结老师上课画的 测量:依据一定的法则使用量具对事物的特征进行定量描述的过心理测量的特征与分类:按所测量的心理特征分类:能力测验成就测验人格测验按接受测量的人数分类:个别测验团体测验按测验目的分类描述性测验诊断性测验预示性测验按测验要求分类最高作为测验典型作为测验按评价所参照的标准分类常模参照测验目标参照测验潜力参照测验测验的标准化:是编制测验的一个重要步骤,是指测验的编制、实施、记分以及测量分数解释的程度的一致性。理性测量单位应具备的条件?一是要有确定的意义,二是要有相等的价值为什么从本质上讲,心理与教育测量的量表属于顺序量表?(1)从所使用的参照点来说,教育测量
2、与心理测量的领域的参照点均为相对参照点。(2)从所使用的单位来说,教育和心理测量的单位远没有其他测量的单位成熟和完善。教育与心理测量所使用的单位的意义不太明确。在教育与心理测量中的单位常常不等值。这就决定了心理与教育测量的量表不是直接的等距量表。简述四种测量量表及其特点?命名量表,是最低水平的测量量表,它只是用数字代表事物或用数字对事物进行分类。数字只是事物的符号,没有任何数量的意义,不能进行代数运算。可进行的统计方法有百分比、次数、众数和X2检验。顺序量表,是次低水平的测量量表,不仅能够指代事物的类别,而且能够表明不同类别的大小、等级或事物具有某种特征的程度。在顺序量表中,数字只表示等级、大
3、小和程度的顺序,它既没有相等的单位,也没有绝对的零点,因此不能进行代数运算。可进行的统计方法有中位数、百分位数、等级相关系数和肯德尔和谐系数等。等距量表,是较高水平的测量量表,不仅能够指代事物的类别、等级,而且具有相等的单位,可以进行加减运算。但它没有绝对零点,不能进行乘除运算。可进行的统计方法有平均数、标准差、积差相关系数以及t检验和f检验。比率量表,也叫等比量表,是最高水平的测量量表,除了具有类别、等级、等距的特征外,还具有绝对的零点,可进行加减乘除运算。可进行的统计方法除了与等距量表相同外,还与几何平均数、变异系数相同。论述心理与教育测量独特的性质?(或心理与教育测验的特点)心理与教育测
4、量是依据一定的心理学和教育学的理论,使用测验对人的心理特质和教育成就进行定量描述的过程,其独特性表现在以下几方面:心理与教育测量依据的法则在很大程度上只是一种理论,很难达到如同物理测量依据的法则那样普遍被人们接受的水平。心理与教育测量的对象是人的心理特质和教育成就。教育成就的含义比较明显,是指一个人通过接受教育而获得的知识水平。心理特质的含义比较含混,不大能够给予清楚的界定。这就决定了心理与教育测量只能是一种间接测量。心理与教育测量的量具是由有关领域的专家编制,经过长期的试用、修订、完善而逐渐形成的标准化测验。心理与教育测量的目标虽然是对人的心理特质和教育成就进行定量分析,但这种定量分析的精确
5、度远不及物理测量的精确度高。测验标准化应具备的条件(或测验标准化的内容是什么)(1)测验内容的标准化。(2)施测条件的标准化。(3)评分规则的标准化。(4)测验常模的标准化。测量误差:是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。随机误差:是那种由与测量目的无关的、偶然因素引起的而又不易控制的误差。系统误差:是那种由与测量目的无关的变因引起的一种恒定而有规律的效应。真分数:反映被试某种心理特质真正水平的那个数值叫做该特质的真分数。测量误差的来源?在测量工具方面,心理测量工具通常是一套以测验(问卷)为核心的刺激反应系统(通常称作量表)。当量表在测查人的某种心理
6、特质时,若项目所测的东西与我们预测的目的之间出现偏差(如项目取样太少或太偏),则测量会出现误差。在被测对象方面,造成测量误差的主要原因是受测者真正水平是否得到正常发挥。一般地,受测者的某种心理特质水平是相对稳定,但是他在接受测量时的心理和生理状态会影响其水平的正常发挥。在施测过程方面,产生测量误差的原因主要是一些偶然因素。比如,在物理环境方面:实测现场的温度、光线、声音、桌面好坏、空间阔窄等会造成误差。在主试者方面:主试者的年龄、性别、外表及其施测时的言谈举止、表情动作、是否按规定实施测验等也会造成误差。此外,评分计分环节也是容易出现差错的地方。还有,若是出现意外干扰(如考场突然停电、有人作弊
7、、计时表停了、试卷印刷或装订出错等),同样会让考生分心或造成考场混乱,导致测量误差。简述真分数(或CTT)的数学模型及其假设?既然观察分数很难等于真分数,那两者之间是个什么关系呢?经典测验理论假定,观察分数(记为X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(记之为E)。即:X=T+E 这就是CTT的数学模型。根据这一模型,引申出三个相关联的假设公理:(1)若一个人的某种心理特质可以用平行的测验反复测量足够多次,则其观察分数的平均值会接近于真分数。即(X)=T 或(E)=0(2)真分数和误差分数之间的相关为零。即(T,E)=0(3)各平行测验上的误差之间相关为零。即(E1,E2)=
8、0信度:多次测量的结果间的一致性程度就叫信度,有时也叫测量的可靠性。CTT模型的方差关系在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和真分数变异还可以分成与测量目的有关的变异和与测量目的无关的变异平行测验:题目不同的测验测的是同一特质,且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布一致重测信度:指的是用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等同于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。公式为:rxx=(x-x)(y-y)/(x-x)2(y-y)2复本信度:指的是两个平行的测验测量同一批被试所得结果的一致性程度,其大小等于同一批
9、被试在两个复本测验上所得分数的皮尔逊积差相关系数。分半信度:指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。同质性信度:也叫内部一致性信度,是指测验内部所有题目间的一致性程度。评分者信度:指的是多个评分者给同一批人的答案进行评分的一致性程度。简述信度的五种估计方法及其使用的前提条件?(1)重测信度。它必须满足三个条件:所测量的心理特性必须是稳定的。遗忘和练习的效果基本上相互抵消。在两次施测的间隔期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。这一点,实际上也是要保证被试具有稳定的心理特质。(2)复本信度。条件之一是首先要构造出两份或两份以上真正平行的测验(
10、即A、B卷)。条件之二是被试要有条件接受两个测验。这种条件主要取决于时间、经费等几个方面。另外,在报告结果时,应报告两次施测的间隔,以及在此间隔内被试的有关经历。(3)分半信度。通常是在只能施测一次或没有复本的情况下使用。而且,在使用斯皮尔曼布朗公式时要求全体被试在两半测验上得分的变异数要相等。当一个测验无法分成对等的两半时,分半信度不宜使用。论述影响测量信度的主要因素?被试方面。就单个被试而言,被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态度等会影响测量误差。就被试团体而言,整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度。主试者方面。就施测者而言,若他不按指导手册中
11、的规定施测,或故意制造紧张气氛,或给考生一定的暗示、协助等,则测量信度会大大降低。就阅读评分者而言,若评分标准掌握不一,或前紧后松,甚至是随心所欲,则也会降低测量信度。施测情境方面。在实施测验时,考场是否安静、光线和通风情况是否良好、所需设备是否齐备、桌面是否合乎要求、空间阔窄是否恰当等都可能影响到测量的信度。测量工具方面。以测量为代表的心理与教育测量工具是否性能稳定是测量工作成败的关键。一般地,试题的取样、试题之间的同质性程度、试题的难度等是影响测验稳定性的主要因素。两次施测的间隔时间。在计算重测信度和稳定性与等值性系数(复本信度之一)时,两次测验相隔时间越短,其信度值越大;间隔时间越长,其
12、他因素带来影响的机会就多,因而其信度值就可能越小。简述提高测量信度的常用方法?P56-57(1)适当增加测验的长度。(2)使测验中所有试题的难度接近正态分布,并控制在中等水平。(3)努力提高测验试题的区分度。(4)选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度。(5)主试者严格执行实测规程,评分者严格按标准给分,实测场地按测验手册的要求进行布置,减少无关因素的干扰。效度:指一个测验或量表实际能测出其所要测的心理特质的程度。内容效度:指一个测验实际测到的内容与所要测量的内容之间的吻合程度。结构效度:指一个测验实际测到所要测量的理论结构和特质的程度,或者说它是指测验分数能够说明心理学理
13、论的某种结构或特质的程度。实证效度:指一个测验对处于特定情境中的个体的行为进行估计的有效性。效标:是衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得我们所感兴趣的行为。简述效度与信度的关系?根据公式SX2=SV2+SI2+SE2 ,可以得到信度与效度的关系如下:(1)信度高是效度高的必要而非充分的条件。当随机误差的变异数SE2减小时,真实分数的变异数ST2增加,测验信度ST2 / SX2随之提高。信度的提高只给有效变异数SV2的增加提供了可能,至于是否能提高效度,还要看系统误差变异数SI2的大小。可见,信度高不一定效度高。但一个测验要想效度高,真分数的变异数必须占较大的比重
14、,即测验的信度必须高。(2)测验的效度受它的信度制约。根据效度和信度的定义(rxy2= SV2 / SX2 ,rxx= ST2 / SX2 )以及公式(ST2=SV2+SI2)可得。简述内容效度的确定方法?P62-63(1)逻辑分析法,其工作思路是请有关专家对测验题目与原定内容范围的吻合程度做出判断。其具体步骤是:明确欲测内容的范围,包括知识范围和能力要求两个方面。这种范围的确定必须具体、详细,并要根据一定目的的规定好各纲目的比例。确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。制作评定量表,考察题目对所定义的内容范围的覆盖率
15、、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等,对整个测验的有效性做出总的评价。(2)统计分析方法。具体方法是:从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度(除非两个测验取样偏向同一个方面)。(3)再测法。操作过程是:在被试学习某种知识之前作一次测验(如学习电学之前考电学知识),在学过该知识后再作同样的测验。这时,若后侧成绩显著地优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效
16、度。论述结构效度的确定方法?(1)测验内部寻找证据法。首先,我们可以考察该测验的内容效度,因为有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释,所以,内容效度高实质上也说明结构效度高。其次,我们可以分析被试的答题过程。若有证据表明某一题目的作答除了反映所要测的特质以外,还反映其他因素的影响,则说明该题没有较好地体现理论构想,该题的存在会降低结构效度。再次,我们足可以通过计算测验的同质性信度的方法来检测结构效度。若有证据表明该测验不同质,则可以断定该测验结构效度不高。当然,测验同质只是结构效度高的必要条件。(2)测验之间寻找证据法。首先,我们可以去考察新编测验与某个已知的能有效测量相
17、同特质的旧测验之间的相关。这种方法叫相容效度法。其次,我们也可以去考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关。这种方法也叫区分效度法。再次,我们还可以通过因素分析的方法来了解测验的结构效度。(3)考察测验的实证效度法。有两种做法:其一是根据效标把人分成两类,考察其得分的差异。其二是根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。(4)多种特质多种方法矩阵法。该方法实质是相容效度和区分效度法的综合运用。实证效度的确定方法?大体上可以分为一下几个步骤:明确观念效标。确定效标测量。考察测验分数与效标测量的关系。从效度估计的方法上看,实证效度可以用一下方法进
18、行估计:相关法。计算测验分数与效标测量的相关系数(积差相关系法、等级相关法、二列相关法、四分相关法等)。区分法。被试接受测验后,让他们工作一段时间后,再根据工作成绩(效标测量)的好坏分成两组,这时再回过头来分析这两组被试原先接受测验的分数差异,若这两组人的测验分数差异显著,则说明该测验有较高的效度。命中率。当用测验作取舍决策时,决策的正命中率和总命中率是测验有效性的较好指标。影响测量效度的因素?测验的构成。当组成测验的试题样本没有较好地代表欲测内容或结构时,测量的内容效度或结构效度必然会不高。同时,若题目语义不清、指导语不明、题目太难或太易、题目太少或安排安排不当等,都会降低测量效度。一般而言
19、,增加测验的长度可以提高测量信度,进而为提高测量效度提供了可能。测验的实施过程。一个测验在实施过程中,如不遵从指导语的要求,或出现意外干扰,或评分、计分出现差错等,都会降低测量效度。接受测验的被试。一般情况下,被试的应试动机、情绪、态度、身体状态等,都会影响测量信度,造成较大的随机误差,进而影响测量的效度。就整个团体而言,如果缺乏必要的同质性,则很可能会得到不恰当的效度资料。所选效标的性质。由于同一个测验可以有不同的效标,同一个观念效标也可以有不同的效标测量,因此在评价测量效度时,所选效标的性质是很重要的考虑因素。测量的信度。测量信度是测量随机误差的反映,而任何误差的增加,都会降低测量的信度,
20、所以在考察测量效度时,一定要注意测量信度。论述提高测量效度的方法?设法控制随机误差、减小系统误差,同时,还要选择好特别恰当的效标,把效度系数准确地计算出来。具体来说精心编制测验量表,避免出现较大的系统误差。妥善组织测验,控制随机误差。创设标准的应试情境,让每个被试都能发挥正常的水平。选好正确的效标,定好恰当的效标测量,正确地使用有关公式。难度:指测验项目的难易程度。区分度:是指测验项目对被试心理品质水平差异的区分能力。难度的计算方法 (1)二分法记分项目的难度。通过率。如果不考虑被试作答是猜测成功的机遇,二分法记分测验项目的难度通常以通过率来表示,即以答对或通过该项目的人数的百分比来表示。P=
21、R/N,式中,P代表项目难度,N为全体被试数,R为答对通过该项目的人。极端分组法。当被试人数较多时,则可以先将被试依照测验总分从高到低排列,分成三组,总分最高的27被试称为高分组(NH),总分最低的27被试称为低分组(NL),分别计算高分组和低分组的通过率,然后求项目的难度。P=(PH+PL)/2或P=(RH/NH+RL/NL)/2,式中,PH、PL分别表示高分组和低分组的通过率;RH、RL分别表示高分组和低分组通过该项目的人数;NH、NL分别代表高分组和低分组的人数。(2)非二分法几分项目的难度。对于论述题,每个项目不止有答对和答错两种可能结果,而是从满分至零分之间有多种可能结果。对于这类项
22、目,常常用下面的公式来计算其难度。P=x/xmax 式中x为被试在某一项目上的平均得分,xmax为该项目的满分。简述区分度与难度的关系?难度与区分度有着密切的联系。以鉴别度指数D为例,难度越接近0.50,项目潜在的区分度越大,而难度D越接近1.00或0时,项目的潜在区分度越小。这也是人们的在常模参照测验中,要求项目保持中等难度的道理之一。实际测验中,一般各种项目之间都具有某种程度的相关,考虑到这一点,我们在利用项目分析选择试题时,应使项目的难度分布广一些,梯度大一些,使整个测验的难度分布呈正态分布,且平均水平保持在0.50左右。这样才能把各种水平的人都区分开来,并且区分得比较细。猜测校正的优缺
23、点?优点:可避免降低测验的信度。校正后的得分可以范瑛被试的真正水平和能力。在教育测验中,可以培养被试诚实的美德。比较公平。缺点:公式的基本假设不成立。只要被试能答完全部试题,则猜测校正无实质作用。不采用猜测校正对信度并无重大影响。有时会出现无法解释的现象。实际生活中,经常缺乏充分的证据和资料,必须凭借部分知识来判断,且进行合理猜测是值得培养的习惯。总之,对于是否需要采用猜测校正,并无定论。但是在答题时间充裕,备选答案数目(k)在四个或以上的选择题,则没有必要进行校正记分。对多重选择题作项目分析的具体步骤是什么?(1)按被试测验的总分,从高到低依次排列试卷。(2)从最高分依次向下取全部试卷的27
24、作为高分组。(3)从低分组依次向上取全部试卷的27作为低分组。(4)分别登记高分组与低分组选中各选择项的人数(亦可将人数换为人数比例),然后登记。(5)根据登记结果进行选择项的质量分析。原始分数:被试在接受测验后,根据测验的记分标准,对照被试的反应所计算出的测验分数。导出分数:是在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位,且可以相互比较的分数。常用的导出分数有百分等级、标准分数、T分数等。标准分数或Z分数:是一种具有相等单位的量数,又称作Z分数,以Z表示。它是将原始分数与团体的平均数之差除以标准差所得的商数,是以标准差为单位度量原始分数离开其平均数的分数之
25、上多少个标准差,或是在平均数之下多少个标准差。正态化的标准分数:为了是来源于不同分布的分数进行比较,可使用非线性变换,将非正态分布的分数强制性地扭转成正态分布,具体做法为:将每个原始分数转换为百分等级,然后使用正态分布表,将对应的百分等级直接看成是正态分布曲线下的面积值,找出所对应的Z值(偏差值),这种方式所得到的分数即正态化的标准分数。常模:是根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表。T分数:由于Z分数常常带有小数和出现负值 ,使用起来常觉不便,也容易出错,并且与日常生活中的评分形式不一致,不直观。因此产生了多种将Z分数作线性变换,使负号与小数消失,全部变为
26、正数的转换方法。T分数就是由标准分数直接转换而来的,计算公式为T=10Z+50,式中,T为T分数,Z为标准分数。百分等级分数的优缺点?(1)优点:百分等级是一种相对位置量数,具有可比性,且具有易于计算、解释方便等优点,对一般教师、学生和家长来说,均能了解百分等级的意义,所以它较适用于不同的对象和性质不同的测验。另外,百分等级不受原始分数分布状态的影响,即使分数分配不是正态的,也不会改变百分等级常模的解释能力。但百分等级是一种顺序量数,它在统计分析中不具有可加性。(2)缺点:单位不等,尤其在分配的两个极端。百分等级只具有顺序性,而无法用它来说明不同被试之间分数差异的数量。另外,在运用百分等级时应
27、注意到,百分等级是相对于特定的被试团体而言的,所以,解释时不能离开特定的参照团体。确定常模团体的注意事项(或如何选择好的常模团体)群体构成的界限必须明确。常模团体必须是所测群体的一个代表性样本。取样的过程必须明确且有详尽的描述。样本大小要适当。常模团体必须是近时的。注意一般常模与特殊常模的结合。制定常模的过程?(1)确定测验将用于哪一个群体。根据测验群体,选定最基本的统计量,决定抽样误差的允许界限,在此基础上设计具体的抽样方法,并对该群体进行抽样,得到常模团体。(2)对常模团体进行施测,并获得团体成员的邪恶眼分数及分数分布。(3)确定常模分数类型,制作常模分数转换表,即常模量表,同时给出抽取常
28、模团体的书面说明,以及常模分数的解释指南等。几种常用的常模: 心理年龄;年级当量;教育商数;成就商数测验等值的实质?(1)从本质上来说,测验等值就是通过对考核同一种心理品质的多个测验形式作出测验分数系统的转换,进而使得这些不同测验形式的测验分数之间具有可比性。在实际操作中,测验等值可使各个不同形式的测验分数均对应起来,测验主持者可以任意指定其中的一个分数形式作为基准,而使所有其他形式的分数都转化到这个基准形式上。(2)测验等值中所说的测量分数系统的转换与测验原始分数及导出分数之间的转换是不相同的。等值转换的目的是为了比较两个不同测验形式之间的实测分数,导出分数转换是为了将一个实测分数转换到一个可评价个体相对位置的分数系统上去。等值转换是两个或多个不同测验形式分数系统的转换,两者之间是有本质差异的。测验等值的条件?(1)同质性。(2)等信度。(3)公平性。(4)可递推性。(5)对称性。(6)样本不变性。目标参照测验:是根据某一明确界定的内容范围而缜密编制的测验,并且,被试在测验中所得结果,也是根据某一明确界定的行为标准直接进行解释的。比较目标参照测验与常模参照测验的异同?
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1