考试效度概念新进展05.docx

上传人:b****6 文档编号:3837974 上传时间:2022-11-25 格式:DOCX 页数:9 大小:99.32KB
下载 相关 举报
考试效度概念新进展05.docx_第1页
第1页 / 共9页
考试效度概念新进展05.docx_第2页
第2页 / 共9页
考试效度概念新进展05.docx_第3页
第3页 / 共9页
考试效度概念新进展05.docx_第4页
第4页 / 共9页
考试效度概念新进展05.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

考试效度概念新进展05.docx

《考试效度概念新进展05.docx》由会员分享,可在线阅读,更多相关《考试效度概念新进展05.docx(9页珍藏版)》请在冰豆网上搜索。

考试效度概念新进展05.docx

考试效度概念新进展05

考试效度概念的新进展

谢小庆

(北京语言大学)

 

摘要:

在1985年《教育与心理考试标准》(第5版)出版之前,效度研究的核心概念是“效标(criterion)”。

效度研究被视为一种用“效标”对考试的效度进行证明(verify)的进程,效度研究被视为一种对考试分数做出有效(valid)说明的进程。

在1985年以后,效度研究的核心概念是“证据(evidence)”。

效度研究被视为一种通过积存证据对考试的效度进行支持(support)的进程,效度研究被视为一种对考试分数做出合理(reasonable)说明的进程。

关于效度的这种明白得,突出地体此刻1999年出版的《教育与心理考试标准》(第6版)中。

美国教育协会和美国国家教育测量学会一起组织编写的《教育测量》在业内被称为是“测量领域的《圣经》”。

在2006年《教育测量》(第4版)出版以后,效度研究的核心概念变成“理由(warrant)”。

效度研究被视为一种通过构造“理由系统”和“理由网络”对效度所进行的“论证(argument)”,效度研究被视为一种对考试分数做出可同意的(plausible)说明的进程。

本文结合作者在考试实践中的一些体会,介绍了效度概念的新进展。

关键词:

考试考试效度

考试是一把尺子,被用来测量应考者的能力。

这把尺子本身可能存在质量问题。

只有达到质量标准的考试才能被应用。

效度是刻画考试质量的最重要指标,它反映了考试在多大程度上实现了考试目的。

在美国教育研究协会(AmericanEducationalResearchAssociation,AERA)、美国心理学会(AmericanPsychologicalAssociation,APA)和美国国家教育测量学会(NationalCouncilonMeasurementinEducation,NCME)一起制定的《教育与心理考试标准(StandardsforEducationalandPsychologicalTesting)》[1][2]和美国教育协会(AmericanCouncilonEducation)和美国国家教育测量学会一起组织编写的、被人们称为“教育测量领域的《圣经》”的《教育测量(EducationalMeasurement)》[3][4]中,第一讨论的都是考试的效度问题。

一、效度概念的历史演变

考试是一把尺子。

这把尺子的准确性,需要靠另一把尺子来查验。

这“另一把尺子”,确实是“效标(criterion)”,或“标准”。

在招生名额有限的情形下,当咱们预备将一项考试(如手指速度考试或注意力考试)作为“打字员培训班”的招生考试时,咱们能够对这项考试的有效性进行查验。

咱们能够计算通过一个月培训后的学员的打字速度与考试分数之间的相关。

若是存在显著的相关,咱们能够说这项考试是有效的。

这时,通过一个月培训后的打字速度确实是“效标”。

初期的效度研究是围绕“效标”展开的。

例如,作为美国高考的《学术评估考试(SAT)》的要紧效标是大学第一年各科考试成绩的平均,英语TOEFL考试的效标是英语教师对学生英语水平的评判,汉语水平考试(HSK)的效标是汉语教师对学生汉语水平的评判。

在教育部考试中心的资助下,笔者曾经进行过一次关于语文高考的效度研究,采纳了4种效标:

高中成绩,高中任课教师对学生语文水平的评判,高中同窗之间的相互评判,大学第一学年的各科成绩平均。

[8]受国家公事员局委托,笔者曾经对假设干年的中央机关公事员录用考试进行效度研究。

研究所采纳的最要紧效标是考生的学历,划分为大专、本科、硕士、博士等几个品级。

大学中由任课教师命题的、监管并非严格的课程考试成绩真的比顶尖专家命题的、严格监管的高考成绩更可信吗?

真的能够被作为效标去查验高考成绩吗?

若是以“学历”作为效标来查验公事员录用考试的成绩,高学历就必然是高能力吗?

什么缘故不直接依照学从来录用公事员呢?

“效标”被用来对考试的质量进行查验。

在许多情形下,这些效标很容易受到质疑。

心理测量学家们发觉,“效标”只能在很有限的领域内为考试提供有说服力的效度查验,更多的情形下则是捉襟见肘,难以自圆其说。

于是,他们尝试着为“效标”配备了两个助手,一个的名字叫“内容(content)”,另一个的名字叫“构念(construct)”。

在可疑的“效标”显然靠不住的时候,心理测量学家说,考试能够是特定知识内容整体的一个代表性样本。

只要我能够证明我编制的考试是特定知识内容整体的具有代表性的样本,我就能够够说我的考试是有效的,说它具有“内容效度(contentvalidity)”。

例如,高考语文考试能够是中学语文教学内容整体的一个代表性样本。

“内容效度”面临双重挑战。

第一,我需要证明我编的高考语文试卷是中学语文教学内容整体的一个代表性样本。

这并非容易。

“中学语文教学内容整体”本身确实是一个充满争议的话题。

关于什么是“语文”,1949年以来已经争辩了60连年。

大体观点有4种。

一是语言和文字。

二是语言和文学。

“唐初四杰”是哪几人?

《过秦论》的作者是谁?

《红楼梦》的主题思想是什么?

《阿Q正传》的主题思想是什么?

《小桔灯》采纳的是什么描述手法?

这些,属于文学问题,不属于语言和文字的范围。

三是语言和文化。

中国人成婚穿红而不穿白,中国人责“无后”为“不孝之最”,这些属于中华文化。

四是语言和人文。

礼义廉耻,仁义礼智信,这些属于“人文”。

依照“语言和人文”的观点,语文还应该包括教化,包括道德教育,包括价值观。

语文界的先辈叶圣陶、吕叔湘、张志公等,大体持“语言和文字”的观点。

今天,在我国语文教学界最有阻碍的一批权威人物则持“语言和人文”的观点。

“整体”的边界都不清楚,怎么证明你编的考试是具有代表性的样本?

第二,即便我能够证明我的考试是具有代表性的样本,我还需要继续证明那些把握了“中学语文教学内容整体”的考生更有可能在包括数学系、物理系、生物系在内的大学学习中具有优势。

最近几年来,人们常常提到“钱学森之问”,追问“什么缘故中国的大学培育不出杰出人材”。

我还需要继续证明,我编制的作为“中学语文教学内容整体”代表性样本的语文高考试卷,确实能够向那些潜在的“杰出人材”倾斜。

显然,这是比证明我的试卷具有取样代表性更困难的任务。

当主将“效标”和助手“内容”都招架不住的时候,心理测量学家就只好以另一个助手“构念”来敷衍。

他说,尽管我无法证明我的考试具有“效标关联效度”和“内容效度”,但我的考试具有“构念效度”。

“构念效度”成了一个“筐”,所有无法取得效度证明的考试都能够往里面装。

听说,“语文能力”是一个“构念”,那个“构念”能够用考试来界定,这些界定“构念”的考试具有“构念效度”。

关于“构念效度”虚弱的逻辑基础和循环论证,讨论的文章已经很多,再也不赘述。

正是由于熟悉到原有效度概念框架的脆弱,心理测量学家们开始尝试构造新的效度研究范式(Paradigm)。

这种尽力,体此刻1985出版的《教育与心理考试标准(第5版)》[1]中,在1989年出版(1993年修订)的《教育测量(第3版)》[4]和1999年出版的《教育与心理考试标准(第6版)》[2]中,取得比较完整地论述。

在新的研究范式中,再也不将效度划分为效标关联效度、内容效度和构念效度。

“构念”被用来概念效度概念。

“构念”被概念为:

“考试所要测量的概念或特性(theconceptorthecharacteristicthatatestisdesignedtomeasure)”。

(AERA,1999,第173页)。

所谓效度,确实是考试对构念进行测量的有效程度。

从此,“构念效度(constructvalidity)”这一短语关于效度来讲已经成为多余(redundant)”。

(AERA,1999,第174页)。

随着“构念效度”退出历史舞台,“构念”走到了舞台的中心。

在新的研究范式中,“证据(evidence)”取代效标成为效度研究的核心概念。

效度研究被视为一种通过积存“证据”对考试的效度提供支持(support)的进程,效度研究被视为一种对考试分数做出合理(reasonable)说明的进程。

在《教育与心理考试标准(第6版)》中,提出了支持考试效度的5个方面的证据:

基于内容的证据(evidencebasedoncontent);基于反映进程的证据(evidencebasedonresponseprocesses);基于内部结构的证据(evidencebasedoninternalstructure);基于与其他变量之间关系的证据(evidencebasedonrelationstoothervariables);基于考试结果的证据(evidencebasedonconsequencesoftesting)。

[2][9]

这时,效度研究的逻辑是,尽管我不能“证明”我的考试是有效的,但我能够用尽可能多的“证据”去支持我的考试。

尽管我不能确认某项考试必然有效,但我能够从相互竞争的考试当选择取得更多证据支持的考试,我能够依照效度研究结果做出合理的选择。

在2006年出版的《教育测量(第4版)》中,将这种效度研究范式称为基于构念效度研究之上的“一元化效度模型(constructvalidationasthebasisforaunifiedmodelofvalidity)”。

(Brennan,2006,第21页)

在考试实践中,这种效度研究范式继续受到挑战,继续受到质疑。

人们发觉,仅仅靠作为证据的“事实(fact)”或“可观看行为(observablebehavior)”并非足以对考试效度提供足够的支持。

只有当“证据”与一些预设的“假设”结合在一路时,才能对考试提供支持。

在考试领域中的一个重要的效度研究案例是美国教育考试效劳中心(ETS)关于客观性选择题和主观性作文题的比较研究。

选择题可否被用于考查写作能力?

上世纪50年代初,在美国语文教学界曾经存在猛烈的争辩。

为此,ETS从1954到1957年进行了一项长达3年的实证研究。

ETS对《英文写作水平考试》(EnglishCompositionAchievementTest,简称ECT,全数是选择题)、《一般写作考试》(GeneralCompositionTest,简称GCT,两小时的作文考试)和《学习能力偏向考试》(ScholasticAptitudeTest,简称SAT,)的言语部份(全数是选择题)等三个考试进行了比较研究。

采纳的效标是语文教师对学生作文水平一年或一年以上的观看结论。

1957年,ETS发布了他们的研究功效:

SAT的效度最高,与语文教师基于长期观看对学生写作能力做出的主观评判最一致。

第二是由客观性试题组成的ECT,最差的是由作文题目组成的GCT。

[5]正是由于这一项研究,才使其后的40年中客观性选择题成为美国语言能力测试的要紧题型。

这是一项关于选择题效度的研究。

支持选择题效度的“证据”或“事实”是:

选择题与效标之间的相关最高。

要想从这一证据取得“选择题优于作文题”的结论,需要一系列的假设。

最要紧的假设是:

任教一年的语文教师对学生的写作能力的评判是有效的。

同时,还包括假设:

选择题的命题人与作文题的命题人具有相同的水平;作文题的评分人是合格的,能够给出正确的评分;任教一年的语文教师具有正确评判学生写作水平的能力;他们给出的评判具有可比性;他们的评判是认真负责的……。

显然,只有基于这一系列假设之上,“相关最高”的“证据”才能对选择题的有效性提供支持。

这些假设都是可能受到质疑的。

为了使结论具有说服力,需要回应这些质疑,需要对这些假设进行论证,有时候需要展开进一步的研究。

对这些假设论证得越充分,结论越具有说服力。

正是由于熟悉到仅仅凭借“证据”或“事实”不足以对考试效度提供支持,测量学家在效度研究中引入了基于非形式逻辑的图尔敏(Toulmin)论证模型中的概念“理由(Warrant)”。

(Brennan,2006,第27页)在“理由”中,不仅包括“证据”,还包括“假设”。

“证据”和“假设”一起组成了“理由”。

这时,效度研究再也不是仅仅靠“证据”去“支持(support)”考试的效度,还需要靠“理由”去“论证(argument)”考试的效度。

在《教育测量(第4版)》中,“理由”成为效度研究的核心概念。

效度研究被视为一种通过构造“理由系统”和“理由网络”对效度所进行的“论证”,效度研究被视为一种对考试分数做出可同意的(plausible)说明的进程。

新的范式将效度研究视为考试的支持者与考试的反对者之间的一场辩论。

支持者尽力为考试的效度辩护,反对者对考试的效度提出各类质疑。

通过辩论,一方面为考试博得更多的支持,拓展更多的应用领域,另一方面,界定考试的应用范围,幸免考试分数的误用。

 

二、效度论证的大体进程

在新的效度研究范式中,效度研究再也不是简单的计算考试分数与效标之间的相关,也再也不是简单地搜集证据或事实,而是一个持续的、层层深化的、无止境的研究进程。

新的效度研究范式要紧借鉴了图尔敏论证模型。

在图尔敏的模型中,包括了资料(datum,D)、必要条件(backing,B)、理由(warrant,W)、限定(qualifer,Q)、例外(exception,E)和结论(claim,C)等6个大体要素。

论证的大体进程是:

资料(D)和必要条件(B)一起组成了理由(W),在同意了例外(E)的反对以后,通过限定(Q),使结论得以成立。

图1给出了效度论证的大体进程。

 

图1效度论证的大体进程

以高考语文考试的效度论证为例。

资料是实证研究结果:

高考与大学一年级各科平均成绩具有显著相关。

必要条件是:

大学中的课程考试成绩能够反映出学生的大学学习水平,研究样本具有足够的代表性,大学课程考试的评分是公正的,高考中不存在作弊现象,大学课程考试中不存在作弊现象,……。

资料与必要条件一起组成了理由。

结论是:

高考语文考试关于预测大学学习表现是有效的。

例外是:

数学系学生的大学各科平均成绩与高考语文成绩之间的相关不显著,某国际物理大赛金奖取得者语文高考成绩很低……。

限定是:

结论不适用于数学系的学生,结论不适用于国际物理大赛金奖取得者……。

图2给出了高考语文考试效度论证进程。

 

图2高考语文考试的效度论证进程

某一个论证层次的资料和必要条件,能够是另一个论证层次的结论。

例如,“大学学习成绩能够反映出学生的大学学习表现”,在关于高考的效度研究中,这是必要条件,同时,这也能够成为另一项关于大学中课程考试效度研究的结论。

 

三、效度论证的要紧环节

在新的效度研究范式中,效度研究再也不单单是计算考试分数与效标之间的相关系数,而是贯穿于从施测到决策的整个考试进程中。

在《教育测量(第4版)》中,讨论了评分(scoring)、概化(generalization)、外推(extrapolation)和决策(decision)4个环节中的效度论证。

一、评分中的论证

2002年全国统一高考的作文题目是“心灵的选择”。

一名考生在作文中讨论了潘金莲的心灵选择,在武大郎和西门庆之间的选择。

初评仅得20多分(总分值60分)。

评分教师以为文章的思想不健康。

通过评分组几十位评卷教师讨论,考虑到这篇文章文笔流畅、行文优美、旁征博引,分析有理有据,改成了40多分。

再以后,评卷指导委员会以为是一篇不可多得的佳作,给出了接近总分值的成绩。

[6]两次改判,前后给出了3个不同的分数,事实上表现了评分的不同偏重点。

长期以来,在作文评分的思想性、内容丰硕性、结构、逻辑、语言、书写、卷面整洁等评分要素的相对照重中,一直是存在争辩的。

不同的评分规那么,会阻碍到考试的效度,会阻碍到分数的说明。

对此,是需要论证的。

在评分环节的论证中,咱们需要关注两个问题。

第一,评分规那么是不是合理;第二,评分员是不是正确地依照评分规那么评分。

二、概化中的论证

考试是依照样本行为推测行为整体的进程。

在考试进程中,总会存在概化推论。

在高考语文考试中,咱们关切的不是考生在考试中的表现,咱们关切的是考生所具有的语文能力,咱们需要把考生的考试表现概化到考生的语文能力,需要依照考试成绩推论考生所具有的语文水平。

在现行语文高考中仅仅包括阅读和书面表达,没有包括听力和口头表达。

若是效度研究的结果显示阅读和听力之间具有很高的相关,书面表达和口头表达之间具有很高的相关,那么,咱们就能够够将高考成绩概化到听力和口头表达能力,将语文高考的高分说明为“具有包括阅读、听力、口头表达和书面表达能力在内的语言能力”。

这种概化,需要以效度研究为基础,需要基于充分的论证之上。

依照高考成绩做出的概化,范围可能很不同。

能够概化到“对高中语文教科书的经历能力”,能够概化到“阅读和书面表达能力”,能够概化到“包括阅读、听力、口头表达和书面表达能力在内的语言能力”,能够概化到“语言和文学能力”,能够概化到“包括语言、文学、中华文化的语文能力”,能够概化到“包括语言、文学、中华文化、道德修养和正确价值观的语文能力”。

概化到多大的范围?

这需要依照效度研究的结果做出回答。

在概化环节的论证中,咱们也需要关注两个问题。

第一,试题对目标领域的代表性,操纵试题的取样误差。

第二,用于效度研究的考生样本对考生整体的代表性,操纵考生的取样误差。

3、外推中的论证

当咱们将考试成绩作为招生、招工的依据之一的时候,咱们所关注的并非仅仅是考生的某项能力,咱们更关注考生以后的学习、工作表现。

当咱们将高考语文成绩作为招生依据的时候,咱们不仅需要从考试分数概化到语文能力,咱们还需要继续外推到“完成大学中的学习任务”。

大学中的数学、物理等专业,是不是像文、史、哲等专业一样,一样需要较高的语文能力?

对此,人们是存在不同观点的。

有些物理系的教师以为,物理系的学生只要数学好就能够够了,语文成绩并非重要。

另一些人不同意这种观点。

曾担任复旦大学校长的数学家苏步青先生曾说:

“若是许诺复旦单独招生,我的意思是每一堂先考语文,考后就判卷子。

不合格的,以下课目就不考了。

语文你都不行,别的是学不通的。

”[7]

是不是高考语文成绩高的人都能够顺利完成大学的学习任务?

是不是高考语文成绩低的人难以完成大学的学习任务?

语文能力关于在大学中完成数学、物理等专业的学习任务是不是重要?

这些问题,需要依照效度研究的结果做出回答。

4、决策中的论证

在我国的公事员录用考试中,包括资格审查,公共科目笔试,专业科目笔试,面试,考察、试用等环节。

所谓“考察”,包括档案审查和实地调查,包括走访报考者原先就读的学校或曾经工作的单位,了解报考者以往的工作和学习表现。

在美国的大学招生中,标准化考试SAT和ACT的成绩大约在招生决策中占三分之一的比重。

占比重最大的是高中成绩。

之外,推荐信,获奖记录,参加公益活动,参加文娱、体育活动等,都会阻碍到招生决策。

在我国高考中,对少数民族考生有“加分”政策。

在美国,多数大学都坚持对少数民族学生、女生和贫困家庭学生的“加分”政策。

在招生、招工决策中考试应占多大的比重?

高考语文考试关于文科和理科考生是不是应划分不同的合格线?

是不是应付某一特定群体采纳“加分”政策?

这些问题,也需要依照效度研究的结果做出回答,也需要通过效度论证做出回答。

高考对基础教育具有重要的“指挥棒”,许多考试都具有导向(washback)作用。

考试的这种导向作用,也需要包括在关于决策的效度论证之内。

在1999年出版的《教育与心理考试标准(第6版)》中,专列一节讨论了基于考试结果(consequences)的证据。

在2006年出版的《教育测量(第4版)》中,将“决策”作为效度论证的一个环节。

这些,都表现了对考试的社会阻碍的重视。

 

四、效度论证的评判标准

关于考试效度的研究是不是为考试的分数说明提供了足够的依据?

效度论证是不是具有说服力?

在《教育测量(第4版)》中,给出了关于效度论证的3条评判标准。

1.清楚性(clarity):

效度论证应给出一个清楚的效度研究框架。

关于理由(W)中所包括的资料(D)和必要条件(B),都应给出清楚、详细的说明。

同时,关于论证中所包括的概化、外推动程也要给出清楚、详细的说明,使这些推论能够有说服力地支持最后的结论和决策。

在那个地址,尤其要警戒一些隐含的、模糊的、可疑的假设造成误导。

2.完整性(Coherence):

在从可观看的事实到结论以至决策的整个推论链条中,第一,每一个推论环节都是可信的。

第二,整个链条是完整的,连贯的,不存在逻辑上的缺失环节,不存在逻辑跳跃。

3.可同意性(Plausibility):

任何一项科学研究都会基于一些预设的前提假设之上。

例如,当咱们用尺子测量一块衣料的长度时,咱们预设的前提假设是“尺子不随温度转变”和“布料不随温度转变”。

当咱们用水银温度计测量温度时,咱们预设的前提假设是“水银与温度成线性关系”。

显然,这些假设能够受到质疑,但这些假设是可同意的(Plausible)。

在论证的进程中,这些假设能够成为理由(W)的必要条件(B)。

在效度论证中,总会包括许多预设的前提假设,这些假设应该是可同意的。

今天,已经有英语和汉语的基于网络的、运算机自动评分的口语考试。

对这些口语考试能够进行效度研究。

一种效度研究思路是将考试成绩与口语面试成绩进行比较,依照一组考生样本计算网上考试成绩与口语面试成绩之间的相关。

计算取得的相关系数是资料(D)。

预设的前提假设是“面试能够考查出考生的真实口语水平”。

那个假设,是能够同意的。

取得的研究结论,也具有说服力。

相反,今天我国有上千所大学中开设有《大学语文》课程。

若是一项关于高考语文考试的效度研究以大学中的《大学语文》成绩作为效标,计算高考语文成绩与《大学语文》课程之间的相关。

这时预设的前提假设是“《大学语文》课程成绩能够反映出学生的语言能力”。

由于这一假设缺乏可同意性,按此思路取得的研究结论将缺乏说服力。

事实上,效度论证中的许多假设可能受到质疑,如“面试能够考查出考生的真实口语水平”。

面试中还可能存在题目取样误差和评分人误差,面试成绩还可能包括来自面试技术强化辅导的误差因素。

对此,还能够展开进一步的研究。

在效度论证中,所有预设的前提假设,整个的推理进程,通过推理取得的结论,最终的决策,都应该具有可同意性。

像所有的科学研究一样,咱们不可能将所有预设的假设全数排除在外。

那样,效度研究将永无止境,效度研究将事实上无法进行。

咱们无法要求所有的前提假设都能取得实证研究的支持,但是,咱们能够要求所有的前提假设都是可同意的。

关于那些很容易受到质疑、很脆弱的前提假设,咱们能够展开实证研究。

例如,若是咱们围绕某所大学中的《大学语文》的课程考试进行了一项有说服力的效度研究,研究结果显示这项考试的成绩确实能够反映大学生的语言能力。

那么,就能够将这项《大学语文》的课程考试成绩作为研究高考语文考试效度的效标,能够在关于高考语文考试效度的研究中包括“《大学语文》课程成绩能够反映出学生的语言能力”如此的假设。

五、小结

从1985年以来,“效度”概念似乎变得愈来愈复杂,愈来愈费解,愈来愈“玄”。

在今天的所谓学术界,确实存在一些把简单的情形说得很复杂、很玄妙的现象,确实存在一些很擅长“浅入深出”的所谓“学者”。

是不是心理测量学者们也在效度问题上故弄玄虚呢?

笔者不如此以为。

笔者以为,正是由于“效标”往往经不起推敲,人们才将注意力转向“证据”。

正是由于“证据”常常受到质疑,人们才提出了“理由”概念,才开始试图构建理由系统和理由网络,才将逻辑学研究中的图尔敏论证模型引入教育和心理测量领域。

这并不是教育和心理测量学者们故弄玄虚,这是在考试实践推动下顺理成章的理论进展。

从效度概念的进展能够看出,30年以来,教育和心理测量学者们关于考试效度的观点愈来愈谨慎,也能够说,愈来愈不自信。

这是由考试测量的对象——人的特点所决定的。

人具有生命,具有个性,具有能动性。

由于人的复杂性,教育和心理测量的复杂性远远超出人们30年前的假想,远

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1