戴海琦《心理与教育测量》课后习题及答案#精选.docx

资源描述

戴海琦《心理与教育测量》课后习题及答案#精选.docx

《戴海琦《心理与教育测量》课后习题及答案#精选.docx》由会员分享，可在线阅读，更多相关《戴海琦《心理与教育测量》课后习题及答案#精选.docx（17页珍藏版）》请在冰豆网上搜索。

戴海琦《心理与教育测量》课后习题及答案#精选.docx

戴海琦《心理与教育测量》课后习题及答案#精选

第一章心理与教育测量概论练习与思考

练习与思考：

1.与物理测量相比较，阐明心理测量的特点。

2.为什么人们不能象对物理测量那样容易接受心理测量？

（此题为思考题）

3.如何才能证明心理测量的必要性和可能性？

解答要点：

１.

（1）从依据的法则来说，心理与教育测量依据的法则在很大程度上只是一种理论。

（2）从测量的内容来说，心理与教育测量的内容是复杂的，内隐的，其测量只能是间接的。

（3）相对与物理测量的定量分析的精确度而言，心理与教育测量定量分析的精确度很低。

　３.

（1）从心理与教育测量的理论基础来看，心理测量是可能的。

（2）人的心理现象和知识水平如同其他一切物理现象一样是有差异的，这种差异既有质的方面，也有量的方面，因此有必要测定出这些差异的数量。

第二章心理与教育测量的产生与发展>>练习与思考

练习与思考

1.简述古代中国对心理与教育测量的贡献及其特点。

2.心理与教育测量从卡特尔到比内的发展过程中可以看出什么特点？

（此题为思考题）

3.推孟和韦克斯勒在智力测验发展过程中各有什么贡献？

解答要点：

　１.在古代中国，在测验实践和测验理论方面都对心理与教育测量作出了贡献并具有自己的特点。

　　一、在测验实践方面的贡献。

1、在能力测量方面。

早在2500年前，思想家和教育家孔子凭自己的经验观察，首先评定学生能力的个别差异，并将人的智力分成中上之人、中人和中下之人三个等级。

董仲舒已论及到注意测验。

刘邵把人的才能划分为12种类型。

6世纪中叶，中国江南出现了类似现在的婴儿发展测验的"周岁试儿"习俗。

出现于清代的益智图、九连环可以认为是最早的创造力测验。

2、在人格测量方面。

孔子把人分为狂者、狷者和中行3种。

刘邵根据阴阳、五行和形体的关系及其人的行为表现，把人的性格划分成12种类型。

3、在教育测量方面。

世界上最早的教育测量出现于中国西周奴隶时期。

据记载，在西周的"国学"中已经建立具有相当系统性的教育测量制度。

在汉代，考试制度、考试类型和考试功能方面都作了重要的发展。

除了学校内部测量的自身发展以外，取士制度自汉以来的发展，客观上也对我国的古代乃至西方的教育测量发展起了促进作用。

　　二、在测验理论方面的贡献。

孔子后约150年，大思想家孟子就指出了测量人类心理的必要性和可能性。

他说：

"权，然后知轻重；度，然后知长短。

物皆然，心为甚。

"刘邵认为，人才鉴定对于知人善任、振兴国家事业具有重要意义。

他说：

"夫圣贤之所美，莫美乎聪明。

聪明之所贵，莫贵乎知人。

知人诚智，则众材得其序，而庶绩之业兴矣。

　　三、古代中国心理与教育测量的特点。

第一、中国古代社会的心理与教育测量思想都是描述性的，而非定量的；第二、中国古代社会的心理与教育测量是分类式的；第三、注重对人作整体的鉴定和评价，并倾向于和人的道德品质联系起来。

第四、是与教育中的因材施教及人才使用有着密切的联系，它从一开始就具有强烈的应用性质。

　３.　①推孟在智力测验发展过程中的贡献是他采用了比率智商的概念来表示智力水平的高低。

　　②韦克斯勒在智力测验发展过程中的贡献是：

第一，他用离差智商代替比率智商，克服了比率智商的局限；第二，他编制的智力量表分为言语量表和操作量表两部分，不仅能够获得总体智力水平的信息，而且可以获得手测者智力优势的信息。

第三章经典测量理论的基本假设>>练习与思考

练习与思考：

1.简述"心理特质"的含义。

2.心理测量的误差来源主要包括哪些？

3.CTT模型及其假设的重要内容是什么？

答案要点：

　１.心理特质指表现在一个人身上所特有的相对稳定的行为方式，就是人的心理特质。

可以从下面几个方面来理解：

（1）特质是一组具有内部相关的行为的概括，具有一定的抽象性。

（2）特质是"一种一般的神经心理系统，……它可以综合不同刺激，使人对这些刺激做出相同的反应"。

　（3）特质是一个人身上比较稳定的特点。

　（4）一个人的精神面貌（人格）是由多种特质分多个层次有机组合而成的。

　（5）特质可以决定一个人对特定刺激的反应倾向，可以对人的行为进行某种预测。

　２.心理测量的误差主要来自3个方面：

测量工具、被测对象和施测过程。

　３.CTT模型是：

经典测验理论假定，观察分数（记为X）与真分数（T）之间是一种线性关系，并只相差一个随机误差（记为E）。

　　　　即：

X=T+E

　　其主要内容为：

（1）若一个人的某种心理特质可以用平行的测验反复测量足够多次，则其观察分数的平均值会接近于真分数。

　　　　　　即：

E（X）=T或E（E）=0

（2）真分数和误差分数之间的相关为零。

　　　　　　即：

ρ（T，E）=0

　　　（3）各平行测验上的误差分数之间相关为零。

　　　　　　即：

ρ（E1，E2）=0

第四章测量信度>>练习与思考

练习与思考：

　　1.指出各种信度系数所对应的误差来源。

　　2.已知16人参加一次测验后在奇数题和偶数题上的得分情况，试用两种以上方法估计测量信度。

（此题为思考题）

被　试12345678910111213141516

奇数题32404228353041283234263436254041

偶数题31394530402939303230304036264042

　　3.已知某态度量表用道题，被试在各题上得分的方差分别是0.80，0.81，0.79，0.78，0.80，0.82，测验总分的方差为16.00，求α值。

（此题为思考题）

　　4.怎样提高测量信度？

解答要点：

　１.对重测信度来说，其对应的误差来源有：

　　①所测量的心理特质不稳定；

　　②遗忘和练习的效果没有相互抵消；

　　③在两次施测的时间间隔里，所要测的被试的心理特质得到了学习和训练；

　　④两次测查的时间间隔不同在信度不同。

　　对复本信度来说，其对应的误差来源有：

　　①所用的复本不是真正的平行测验；②产生的迁移效应会影响信度的大小。

　　对分半信度来说，其对应的误差来源有：

　　分半的方法会影响测验的信度。

　　对同质性信度来说，其对应的误差来源有：

　　①题目间的相关性；②测验所测内容的单一性与异质性。

　　对评分者信度来说，其对应的误差来源有：

　３.

=6/6-1[1-（0.80+0.81+0.79+0.78+0.80+0.82）/16.00]

=6/5×（1-0.3）

=0.84

　４.由于项目数量太少会降低测量的信度，所以，提高测量信度的一个常用方法是增加一些与原测验中项目具有较好的同质性的项目，增大测验长度。

但是应该注意：

　　1.新增项目必须与试卷中原有项目同质。

　　2.新增项目的数量必须适度。

　　①适当增加测验的长度。

　　②使测验中所有试题的难度接近正态分布，并控制在中等水平。

　　当测验中所有试题的难度接近正态分布并控制在中等水平时，被试团体的得分分布也会接近正态分布，且标准差会较大，以相关为基础的信度值必然也会增大。

努力提高测验试题的区分度。

　　③努力提高测验试题的区分度。

　　④选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度。

　　⑤主试者严格执行实测规程，评分者严格按标准给分，实测场地按测验手册的要求进行布置，减少无关因素的干扰。

第五章测量效度>>练习与思考

练习与思考：

　　1.什么是测量的效度？

它与信度的关系这样？

　　2.什么是内容效度？

测验编制者和使用者应分别从哪几个方面来把握内容效度？

　　3.什么是结构效度？

测验编制者和使用者应分别怎样把握结构效度？

　　4.什么的实证效度？

它与内容效度和结构效度有何异同？

　　5.什么是效标和效标测量？

　　6.已知若希望把效度系数提高到0.65和0.70，则测验长度要增加几倍？

解答要点：

　１.

（1）效度是指一个测验或量表实际能测出其所要测的心理特质的程度。

　　　①信度高是效度高的必要而非充分条件

　　当随机误差的变异（）减小时，真实分数的变异数增加，测验信度（）随之提高。

信度的提高只给有闲变异数（的增加提供了可能）至于是否能提高效度，还要看系统误差变异数（的大小）。

可见，信度高不一定效度就高。

但一个测验要想效度高，真分数的变异数必须占较大的比重，即测验的信度必须高。

　　②测验的效度受它的信度制约

根据效度和信度的定义（）以及公式（）可得到：

　２.

（1）内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。

（2）测验的编制者和使用者应该从以下几个方面来把握内容效度：

　　①首先应该明确内容效度的含义；

　　②应该明确内容效度的应用范围；

　　③在使用时还要主要不要跟表面效度相混淆；

　　④对测验的编制者来说应该懂得确定测验内容效度的方法，明确确定内容效度的步骤。

　３.

（1）结构效度是指一个测验实际测到所要测量的理论结构和特质的程度，或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。

（2）对于编制者和使用者来说应该从以下几个方面来把握结构效度：

　　①首先应该明确结构效度含义；

　　②其次也应该了解结构效度的特点；

　　③应知道结构效度的应用范围；

　　④对测验的编制者来说应该懂得确定测验结构效度的方法，明确确定结构效度的步骤。

　　４.

（1）实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。

（2）实证效度与内容效度和结构效度一样都用于估计测验效度。

　（3）实证效度与内容效度和结构效度的不同之处在于：

　　①它们是估计测验效度的不同方面；

　　②它们的应用范围不同；

　　③确定它们的方法也不同。

　　５.

（1）效标是衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得的我们所感兴趣的行为。

（2）效标测量就是把我们所感兴趣的行为用数字或等级表达出来。

6题：

　　得当效度系数提高到0.65时，测验长度要增加6.4倍；

　　当效度系数提高到0.70时，测验长度要增加20倍。

第六章测验的项目分析>>练习与思考

1.测验项目分析的作用是什么？

1.因为用测验的项目分析可以解决以下问题：

（一）项目是否具有所预期的功能？

对于常模参照测验，测题是否有足够的区分度？

对目标参照测验来说，测题是否能充分地测量到教学的结果。

（二）项目的难度是否得当？

　（三）项目是否有缺陷？

第七章测验常模>>练习与习题

练习与思考：

　1.试比较各种导出分数的优缺点。

　2.列举你所了解的各种测验的分数合成方法，并评价它们的合理性。

　3.选择常模团体与制定常模有什么关系？

任何选择好常模团体？

　4.离差智商与比率智商的本质差异是什么？

（此题为思考题）

解答要点：

　1.常用的导出分数有百分等级、标准分数、T分数。

　　百分等级

　　百分等级的优点：

百分等级是一种相对位置量数，具有可比性，且具有易于计算、解释方便等优点，对一般教师、学生和家长来说，均能了解百分等级的意义，所以它较适用于不同的对象和性质不同的测验。

另外，百分等级不受原始分数分布状态的影响，即使分数分配不是正态的，也不会改变百分等级常模的解释能力。

　　百分等级的缺点：

（1）百分等级的单位不等，尤其在分配的两个极端。

如果原始分数的分配是正态或近似正态分布，则靠近中央（平均数或中位数附近）的原始分数转换成百分等级时，分数之间的差异便夸大了，虽然原始分数比较靠近，但转换成百分等级后，却显示出很大的差异性；对接近两极端的原始分数，百分等级反应迟钝，即使原始分数发生较大的变化，也不能引起百分等级的相应变化，使得其差异被缩小了。

（2）百分等级只具有顺序性，无法用它来说明不同被试之间分数差异的数量。

它不适合计算平均数、相关系数及其它统计量数。

　（3）百分等级只相对于特定的被试团体而言的。

因此在解释时不能离开特定的参照团体。

被试得分不变，但参照团体改变了，百分等级值就可能发生变化。

所以在报告百分等级时，一定要说明是相对于什么参照团体来说的。

　　标准分数

　　标准分数的优点：

标准分数是一个抽象值，不受原始测量单位的影响，并可接受进一步的统计处理。

具有可比性和可加性。

　　标准分数的缺点：

由于计算中经常出现负数和小数，且单位过大（一个标准差单位），所以，使用起来不够方便。

　　T分数

　　T分数的优点：

（1）具有等单位特点，便于工作进一步的统计分析。

（2）正态分布下，可以利用正态分布表将各种导出分数与百分数等级分数作换算。

　（3）正态分布下，运用某种变式分数可以将几个测验上的分数作直接的比较。

即使是非正态分布，也可运用由正态化的Z分数转换而得的变式分数进行直接比较分析。

　　T分数的缺点：

（1）分数过于抽象，不易理解，正如在介绍麦柯尔的T分数时所提到的那样不为一般人所熟悉。

（2）在非正态分布下，分布形态不同的变式分数，仍然不可以作相互比较，也不能相加求和。

（1）临床诊断--直觉合成：

在实际工作中，最常用的组合测验分数的方法是根据经验对测验分数作直觉的组合，这就好比临床医生，把各种化验、检验所获得的资料与实际观察所得的结果结合起来，根据经验作出诊断一样。

象这种根据直觉的经验，主观地将各种因素加权，而获得结论或预测的方法叫作临床诊断。

临床诊断--直觉合成的合理性表现在：

　　①具有高度的综合性。

它允许我们从整体上来考察问题，充分考虑各测验所测特质间交互影响，各测验上所得分数的对比关系与组合类型的结构特点，测验分数与实际反应表现其中的生动关系等。

　　②具有灵活的针对性，能就特定的个人作具体的结论。

而一般的统计方法具有常模性，常模性的统计模式难于适应每个个体所具有的独特性，更难于适应非典型的新颖形式。

（2）加权求和合成：

如果各个测验所测特质间相互代偿作用，这些测验上的分数又是连续性资料，并能大体同时获得，那么可以采用加权求和的立法对分数进行合成。

　　加权求和合成的合理性表现在：

　　将变量做了等量加权后适合于各测验对预测效标具有同等重要性的场合，根据各个变数与效标之间的经验关系作差异加权后适合于各测验对预测效标具有不相等的场合。

　（3）多重回归：

多重回归就是研究一种事物或现象与其他多种事物或现象在数量上相互联系和相互制约的统计方法。

　　多重回归的合理性表现在：

　（4）多重划分：

多重划分就是在各个特质上都确定一个标准，从而把成绩划分为合格与不合格两类。

在一个测验上合格了，不能保证总的要求一定能合格。

只有每个测验都合格时，总要求才算合格。

多重划分的合理性表现在：

　3.选择常模团体与制定常模的关系：

制定常模首先要确定出常模团体。

　应该这样选择常模团体：

（1）群体构成的界限必须明确。

　　在确定常模团体时，必须清楚地说明所要测量的群体的性质与特征。

虽然有关常模团体的一般规定取决于测验的目的与使用，且可能有多个常模团体。

但对每个常模团体的性质和特征必须有一个简短而明确的描述，若群体过大，群体内部也许有许多小团体，它们在一个测验上的表现也时常有差异，假如这种差异较为显著，就必须对每个小团体分别建立常模。

例如，艾森克个性预测（EPQ），就是分性别，以不同年龄组而建立常模的。

（2）常模团体必须是所测群体的一个代表性样本。

　　当所要测量的群体较小时，将所有的被试逐个测量以得到常模。

在群体较大时，则不可能如此，只能测量一部分被试作为群体的代表，此时就存在取样是否具有代表性的问题。

如果常模团体缺乏代表性，将会使常模资料产生偏差，从而影响到测验结果解释的准确性。

为了克服取样偏差，保证具有代表性，一般在抽样时应遵循随机化原则，采用统计学的方法抽取样本。

关于具体抽样方法，可参阅有关统计学著作中的抽样推断部分。

　（3）取样的过程必须明确且有详尽的描述。

　　取样的过程必须明确且有详尽的描述，这主要是为了使测验的使用者不至于误用测验和错误地解释测验结果，所以在一般的测验手册中，都有相当篇幅详细介绍常模团体的大小、取样策略、取样时间以及其他有关情况。

这些说明和描述越明确、越详尽夜好。

　（4）样本大小要适当。

　　所谓"大小适当"并没有明确的指标。

根据统计学原理，取样误差与样本大小成反比。

所以，在其他条件相同时，样本越大越好。

但是还应考虑到人力、物力等方面的因素，通常在决定样本大小时，应注意：

　　①总体的数目。

总体数目小，样本相应可小些，但不应过小，若总体过小，则可将全部被试入选；当总体较大时，相应样本也大。

　　②群体的性质,如果群体性质单一，则样本不必太大，即可以反映群体性质；若群体性质复杂，则样本容量（n）就应大一些。

　　③测验结果的精确度。

根据统计学原理,抽样误差的大小与样本容量成反比，若要提高精确度，即是说减低抽样误差，就必须加大样本容量（n）。

　（5）常模团体必须是近时的。

由于当今教育发展迅速，所以建立的常模必须是近时的，过时的常模是不能作为参照标准的，一个常模不能一劳永逸地使用。

　（6）注意一般常模与特殊常模的结合。

测验手册上所列的常模通常为一般常模，它的使用范围比较广。

有时对于某些特殊的群体不一定完全适用。

因此，测验在希望使用更为具体的、适合特殊情况的常模。

即特殊常模。

将特殊常模与一般常模结合起来，可使被试与最接近的群体进行比较。

因为各个具体群体在某些方面是独特的，它的成员将与测验手册所列的常模团体成员不符。

所以，依据一般常模解释所得的结论可能不够恰当，如果将两者结合使用，解释分数便会更加准确。

但特殊常模只提供有关特殊信息，适用范围较窄。

所得结论不能在广泛的背景作解释。

第八章心理与教育测验的编制与实施>>练习与思考

练习与思考：

　1.结合实例简述编制一个心理测验的基本程序。

　2.阐述实施心理测验应注意的问题。

　3.如何正确解释测验分数的意义。

　4.论述向当事人报告测验分数的基本原则。

解答要点：

　１.编制一个可供使用的标准化的心理与教育测验，一般要经过以下几个步骤：

　　①确定测验目的。

②制定编题计划。

③编辑测验项目。

④预测与分析。

　　⑤合成测验。

　　⑥测验标准化。

　⑦鉴定测验。

　　⑧编写测验说明书。

　2.①施测前应做好准备工作；

　　②指导语应不要暗示受测者应该选什么；

　　③进行测验时不能受到外界和施测者的干扰；

　　④评分时要客观公正。

　3.①主试应充分了解测验的性质与功能。

②对导致测验结果的原因的解释应慎重，谨防片面极端。

③必须充分估计测验的常模和效度的局限性。

④解释分数应参考其他有关资料。

⑤对测验分数应以"一段分数"来解释，而不应以"特定的数值"来解释。

⑥对来自不同测验的分数不能直接加以比较。

　4.①使用当事人所理解的语言。

　　②要保证当事人知道这个测验测量或预测什么，这里并不需要作详细的技术性解释。

　　③如果分数是以常模为参考的，就要使当事人知道他是和什么团体在进行比较。

　　④要使当事人认识到分数只是一个估计。

　　⑤要使当事人知道如何运用他的分数。

　　⑥要考虑测验分数将给受测者带来什么影响。

　　⑦测验结果应向无关的人员保密。

　　⑧对低分者的解释应谨慎小心。

　　⑨报告测验分数时应设法了解当事人的心理感受，并采取适当的措施加以引导。

第十章目标参照测验>>练习与思考

练习与思考：

1.请根据表10.3中专家评定结果的平均数对表中14道题目的内容效度进行评定，并决定题目的取舍。

2.目标参照测验的题目区分度可以通过哪些方法来确定？

3.目标参照测验的信度与效度为何不适宜以相关系数作为评价指标？

4.试比较目标参照测验与常模参照测验的异同。

5.试分析内容范围的界定在目标参照测验的标准化过程中的重要性。

6.试分析分数分界点在目标参照测验的质量评估中的作用。

7.试分析题目内容效度与目标参照测验的内容效度间的联系。

解答要点：

　１.首先进行专家的取舍。

由于第二位专家在所有题目上所评等级与各等级平均数之间的差异之和较大，因此可以不考虑该专家的意见，只保留另外八位专家的评定结果，并重新计算这八位专家评定结果的等级平均数。

　　其次根据八位专家评定结果的等级平均数对每道题目进行评定，并决定题目的取舍。

等级平均数越高，说明题目内容与其欲测量的目标内容之间的匹配程度越高，即内容效度越高。

题目2、7、14、4、12、5、11的内容效度很高（等级平均值均在4以上），可以得到完整的保留；题目1、3、6、9的内容效度较高（等级平均值均在3-4之间），适当修改后即可；题目8、13、10的内容效度较差（等级平均值均在3以下），一般需做较大修改或直接删除。

　２.目标参照测验的题目区分度可以通过计算题目的难度差值和题目得分与测验总分之间的相关系数来表示。

难度差值包括掌握组-未掌握组鉴别指数和个人获得指数两种。

　３.相关系数受到受测者团体异质性的影响，团体的异质性越高，测验分数的分布就越广，所计算出来的相关系数就接近真实值。

由于目标参照测验的目的在于了解个体在所测内容上的掌握水平，因此大多数情况下，被试团体在目标参照测验上的分数分布比较集中，并且绝大多数被试都能够达到所要求的水平。

如果用相关系数作为信效度指标，由于受到分数分布的影响，即使该测验本身具有较高的稳定性和一致性，所得的信度系数也会和低，所以目标参照测验的信度与效度不适宜以相关系数作为评价指标。

　４.常模参照测验的目的在于度量和比较个体之间的差异，并以被试在团体中的相对位置来评价和解释测量结果。

目标参照测验的主要目的则在于了解个体在所规定的测量内容上的行为水平，其出发点是个体本身的绝对水平，而不再是个体间的水平差异。

由于测验性质的不同和受测人群可能存在的差异，两种测验的项目分析和信效度评估需采用不同的方法和评价指标。

另外，目标参照测验通常要根据切割分数线对被试进行分类，所以在目标参照测验中对分数分界点的确定具有十分重要的意义。

　５.从目标参照测验的定义来看，构成测验的各个项目是否合适，测验是否有效，测验的分数是否能够得到有意义而准确的解释，这一切的前提都在于测验有没有明确的目的以及与之相应的严格界定的内容范围。

因此对于目标参照测验而言，测验编制的前期过程，尤其是内容范围的确定十分重要。

　６.在目标参照测验的实际应用中，常常要根据分数分界点来判断某考生是否达到了升一个年级或毕业所要求掌握的最低知识技能水平，或者是否达到了从事特定专业工作所需的最低水平。

这个分数分界点的确定科学与否，直接决定了我们最终决策的正确与否。

因此分数分界点在目标参照测验的质量评估中具有十分重要的作用。

　７.题目内容效度与目标参照测验的内容效度之间有着重要的联系。

要确定目标参照测验是否有效，必须首先要对构成测验的每一个题目是否合适以及有效性进行分析，即检验题目与测验内容范围所要求的内容与目标的一致性。

目标参照测验注重被试在其所测内容范围内的掌握程度，测验本身的题目组成对其欲测的内容范围的覆盖程度或代表性程度--即测验的内容效度--显得尤其重要。

第十一章学绩测验>>练习与思考

练习与思考：

1.结合实际的测验例子试述学绩测验的性质和作用。

2.就《心理与教育测量》前10章内容，设计一份测验编制计划。

（此题为思考题）

3.标准化学绩测验的标准化要求有哪些？

如何才能做到？

４.举例说明诊断测验如何实现它的诊断

展开阅读全文