语言测试种类Word文档格式.docx
《语言测试种类Word文档格式.docx》由会员分享,可在线阅读,更多相关《语言测试种类Word文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
也叫“编班测试”。
在语言教学活动中,利用这种测试了解学生的语言水平,按照考生的成绩和教学内容及教学大纲把学生编入不同进度或程度的班级,以便于安排实施有针对性的教学。
分班测试的设计与试题命制能够基于必然的语言能力理论,也能够基于必然的教学大纲,但无论是按照那种情形,测试本身都应该对考生的语言能力具有理想的区分作用,如此才能利用考试的结果,将考生区分为不同群体,以便于安排班级。
需要安排的班级层次越多,测试区分考生语言水平的难度越大。
分班测试区分品级的多少取决于办学规模和新生数量的多少。
若是新生的数量或教学单位的办学规模与前一学期大体相当,分班测试要区分的品级也能够维持与前一学期一致。
如,前一个学期有六个持续层次的班级,新学期能够继续维持这六个层次。
但分出的每一个层次的人数不必然相同。
一学期刚开学时的分班测试能够以前一学期各个品级所教学或学习的内容为命题范围,以检查新生是不是达到某个阶段的合格水平,以便决定该考生是不是能够进入更高一个品级学习。
若是前一学期有六个持续的品级,在编制分班测试的试卷时就可以够以前一学期结束时六个品级所达到的水平为依据别离编制六套分班试卷,考生能够按照自己的水平选择适当品级分班试卷参加考试。
为了避免反复测试(由于考生选择了太低或太高品级的试卷而致使分班测试失效,不能再也不次进行测试,直至分班适合),能够事前让考生对即将分出的品级有必然的了解,以便选择更适合的测试。
考生能够参加持续几个品级的测试,直到充分展示了他的语言能力。
2.5诊断测试(diagnostictest)
在教学进程中为了查验学生在某个阶段或在学习某些语言项目上的效果,即掌握了哪些项目,更重要的是要检查考生在哪些项目上有欠缺,以便在教学上采取改良办法。
为了这种目的进行的测试是诊断测试。
在平时教学活动中常常进行的课堂考试、单元考试、阶段考试都属于诊断测试。
诊断测试的内容是基于必然的教学内容的(syllabus-based)。
测试内容可多可少,能够是比较全面的测试,也能够是偏重于某些语言项目或语言点的(如着重考察考生书写某些汉字的情形,也能够考察考生对某些句式掌握的情形)。
3按照测试的方式的不同
按照测试方式的不同,语言测试可分为直接测试和间接测试两种。
(语言测试从一般测量学意义上说属于间接测量——用非自我测量工具对测量对象进行间接测量,即从语言行为推测语言能力)
3.1直接测试(directtest)
这种测试要求考生直接运用某项语言技术。
比如:
要考查考生的汉语发音情形,能够让考生朗诵一段文字或自由发言,从其朗诵或说话中能够直接了解考生的发音情形;
要了解考生的写作水平,能够通过考生写的文章直接了解考生在遣辞造句谋篇布局表情达意方面的写作能力;
要了解考生的口语水平,能够通过考生口头谈话(主如果与他人进行口头交流)直接了解考生的口语交际能力;
要了解考生的翻译水平,能够通过考生翻译的作品直接了解考生的翻译水平。
直接测试的特点:
(1)测试形式具有真实性(authenticity),测试内容与现实语境紧密相关(closeresemblance)(如,口语试题让考生谈环境问题、城市交通问题、大学生就业问题、人口问题、老龄化问题);
(2)直接测试便于从整体上考察产出性技术(productiveskills);
(3)直接测试的测试目标容易肯定;
(4)直接测试的效度比较容易保证;
(5)直接测试的试题的答案一般是开放式的(open-ended),命题者不提供选择答案项。
语言测试中的口语、写作和翻译测试等通常被以为是直接测试。
直接测试的缺点:
(1)如何制定评分标准;
(2)如何保证评分者信度(评分者之间的一致性、评分者前后评分的一致性);
(3)如何保证测试手腕的有效性(如,口语测试让考生对着话筒进行持续的几分钟录音发言,未必能真正测得考生的口语能力;
写作考试让考生写题材陌生的内容也未必能测得考生的写作能力);
(4)直接测试的试题数量很受限制,不能过量。
3.2间接测试(indirecttest)
间接测试是通过测试考生在与某种技术相关的语言项目上的反映来间接考查考生的某种语言能力。
如:
让考生从一组语音形式中,挑出某个词语的正确发音(考生并无直接发出那个词语的音);
让考生从一组释义项里选出某个词语的正确释义(考生并没直接提供该词语的释义),能够考查正确理解词义的能力;
让考生更正或选择某个语法形式,实际上考查的是考生正确利用某种语法形式的能力,这也是运用汉语正确表达的能力。
间接测试的特点:
(1)间接测试不追求测试形式与真实交际的紧密相关(如,多项选择题、改错题、完形填空题等,在真实交际活动中并超级常利用);
(2)间接测试便于较少受语用条件或语用环境的制约,便于采用较多的分立式试题以测试更普遍的语言项目(可用更多的试题);
(3)间接测试试题的答案往往是唯一的(评分时往往只须在“对”或“错”之间选择其一。
)听力理解、阅读理解、语法结构等项目的测试多采用多项选择题;
(4)间接测试的评分者信度比较容易患到保证。
间接测试的缺点:
(1)间接测试试题的目的不易肯定,一道试题是测试哪一种微技术往往会产生不合;
(2)间接测试的试题编制比较困难(语料的选择、题眼的肯定、选项的编制、试题难易程度的把握等方面都十分困难);
(3)间接测试的效度不易保证。
4按照测试语言技术的分合的不同
按照测试语言技术的分合的不同,语言测试能够分为分立式测试和综合式测试。
4.1分立式测试(discretepointtest)
进行分立式测试是把语言分成语音、辞汇、语法等要素,再从这些要素中分出许多语言点,针对这些语言点设计试题,一道试题往往只测一个语言项目。
一般的辞汇或语法结构试题属于分立式测试题。
分立式测试的特点:
(1)分立式测试试题所测的语言项目明确(若是所测的语言点是某个词词义的理解,考生答对了这道题,就表明考生掌握了那个词的词义);
(2)分立式测试较多采用多项选择题;
(3)分立式测试的信度比较容易保证。
分立式测试的缺点:
(1)受结构主义语言学理论的影响,分立式测试把语言分成许许多多分散的项目,很难考查考生在真实交际活动中的语言交际能力(容易出现“高分低能”的情形——考试分数高,但不能与人交流);
(2)分立式测试的测试效度难以取得保证(难以肯定是不是真的考出了考生的语言能力)。
4.2综合式测试(integrativetest)
这种测试要求考生在答题时综合运用某些语言知识,而不是一道题目只测试一个语言点。
通常运用的听写、完形填空、朗诵、作文、口语等试题是综合式测试常常利用的题型。
综合式测试的特点:
(1)综合式测试是在必然的上下文或语境中测试考生对语言项目的综合运用情形;
(2)综合式测试试题(主如果口语测试、作文测试等)比较接近真实的语言交际。
综合式测试的缺点:
(1)综合式测试中的要求考生提供开放性答案的试题(完形填空、作文、口语等),评分者信度较难保证;
(2)综合式测试试题涉及哪些语言点或考生在答题时表现哪些微技术不易肯定。
5按照测试所用手腕的不同
按照测试所用手腕的不同,语言测试可分为纸笔测试、面试和运算机辅助测试。
5.1纸笔测试(paper-basedtest)
传统的考试形式,也是目前最常常利用的形式。
纸笔测试的特点:
(1)测试的时刻能够可长可短。
长的能够用2-3个小时。
(2)测试的题量可多可少。
多的能够有几十到一百多题。
(3)测试的内容能够比较广,适用的范围也比较广。
(4)测试题型比较多(多项选择题、是非判断题、综合填空、改错、简答题、作文题等)。
(5)能够组织大量人员同时参加测试。
纸笔测试的缺点:
(1)很难测试考生的口语能力;
(2)测试交际能力不够全面,较难保证真实性。
5.2面试(oraltest)
语言测试所称的面试是口语测试。
一般分两种方式进行:
用录音的方式或用面谈的方式。
用录音的方式是要求考生把要说的话录在录音设备上,然后由评分员集入耳审(可单独听审或两人以上听审)。
HSK(高等)和TOEFL都采用这种方式。
录音方式的特点:
(1)比较经济;
(2)比较容易组织(多人同时录音);
(3)参加同一批测试的考生在同一时刻进行测试。
录音方式的缺点:
(1)难以保证口语交际的真实性,缺乏口语交际的本质特性——互动(interaction)。
(2)测试时对录音设备要求较高(数量多,录音环境容易彼此干扰)。
用面谈的方式是让考生与考官或考生与考生之间进行直接谈话(就限定的话题,如独生子女的教育问题、城市的交通问题、环境污染问题、水资源问题、能源问题等),考官按照考生在谈话中的表现进行评分。
面谈方式的特点:
(1)比较切近真实的口语交际(但并非等同,在话题、交流方式、考生心理个体不同影响口语表达、主考与考生的地位);
(2)同时只能测试一名或几位考生;
(3)能够安排前后考生持续进行测试(受主考、考场等限制)。
面谈的缺点:
(1)组织比较困难(大量考生候考,安排大量考生考同一试题容易泄密;
安排不同试题,难以保证试题难度相当);
(2)大规模测试的面谈需要大量合格的主考人员,人员代价高。
5.3运算机辅助测试(computer-basedtest,internet-basedtest)
这种测试的试题是在运算机上呈现给考生。
从测试的内容上看,这种测试还能够分为两种:
一种是运算机辅助的传统测试(大体上是以运算机代替了纸笔,试题的内容与纸笔测试的情形大体相同);
一种是运算机辅助的自适应测试(测试系统按照考生的答题情形不断调整呈现试题的难度以适应考生的水平,直至所呈现给考生的试题难度趋于稳固)。
基于运算机网络的测试的特点:
(1)考生能够在不同的时刻、不同的地址参加测试;
(2)自适应测试能够避免低水平考生面对较多难度高的试题,或高水平考生必需完成低难度试题的情形;
(3)测试的理论基础(项目反映理论)不同于纸笔测试。
运算机辅助测试的缺点:
(1)对测试组织而言,设备、技术要求较高,条件较差的地域无法进行这种测试(TOEFL第一次网络测试有很多考生没能按时进行);
(2)对考生的额外要求增多(会电脑操作)。
6依照评分方式的不同
依照评分方式或答题方式的不同,语言测试能够分为客观性测试和主观性测试。
6.1客观性测试(objectivetest)
这种测试的试题答案具有规定性或排他性。
提供备选项的试题(选择题,selectiveitem)是这种测试常常利用的题型,能够是单项选择,也能够是多项选择。
答案具有唯一性的填空题等也能够组成客观性测试。
客观性测试备有标准答案,评分工作比较简单,乃至可用机械阅卷。
但客观性测试也有其缺点:
这种测试很难测试考生产出性语言能力(即说、写和译的能力),不易考查考生在真实交际环境中的语言交际能力。
6.2主观性测试(subjectivetest)
这种测试的试题答案具有开放性或灵活性,不具有唯一性。
这种测试一般不备有标准答案,考生要按照试题构造答案(构答题,constructiveitem)。
主观性测试常常利用口语、写作、翻译等题型。
在阅读、听力测试中,也有利用半主观性试题的。
这种试题的答案是半开放的,考生在答题时有必然的灵活性(如答案的长短、答案所包括的词语),但这种灵活性是在可预见的范围内,即这种试题是备有标准答案或参考答案的。
主观性测试常常利用来测试考生的产出性语言能力,能够用来考查考生在真实交际环境中的实际交际能力。
主观性测试的缺点主如果难以掌握评分标准,不易保证评分信度。
7依照测试时刻的不同要求
依照测试对时刻的不同要求,能够分为速度测试和难度测试。
7.1速度测试(speedtest)
速度测试主要用来测试考生在规定的时刻内答题的效率。
这种测试对考生答题的时刻进行比较严格的控制,考生答题的时刻比较紧张。
若是给考生足够的时刻,这种测试的试题难度一般不大。
HSK(高等)阅读部份的构答题部份就是速度测试,这部份试题要求考生迅速从阅读材料中找出相关信息,这些信息在文中一般比较明显,考生应该具有快速检索关键信息的能力。
7.2难度测试(powertest)
这种测试主要用来测试考生掌握的具体知识或技术,试题的难度一般不会随所给答题时刻的长短而改变(“难者不会,会者不难”)。
一些大规模测试既是难度测试,同时也要求必然的答题速度。
如,HSK各品级考试中的每一个部份都规定了答题时刻,在测试进程中,要求考生在规定的时刻内完成规定部份的试题,不得提前做,也不得转头补做。
8依照分数解释参照标准的不同
对测试分数的解释一般有两种方式,即标准参照和常模参照,相应的,语言测试也能够分为标准参照测试、常模参照测试和标准-常模参照测试三种。
8.1标准参照测试(criterion-referencedtest)
按照对语言能力的理解,将语言能力分成若干个具体的项目,或将某种语言技术分成若干个品级,规定某个品级所包括的具体项目或具体的技术,这种规定就是解释测试分数的大体依据,依据这种标准设计的测试就是标准参照测试。
如,写作考试的5级评分标准:
5级
内容充实,条理清楚,表达得体。
语法正确,语句通顺;
词汇丰富,遣词造句恰当,能使用较复杂的句式和一定的修辞手段;
汉字书写和标点使用正确。
有极个别语法、词汇及汉字书写上的错误,但不影响文章思想内容的表达。
4级
内容较充实,较有条理,表达基本得体。
语法结构清楚,语言尚通顺;
词汇较丰富,使用正确,能使用较复杂的句式清楚地表达思想;
汉字书写和标点使用基本正确。
有个别语法、词汇及汉字书写上的错误,但不影响交际。
3级
内容较完整,能用较通顺的语言表达思想。
语法结构基本清楚;
词汇较丰富,但有时词不达意。
有语法、词汇及汉字书写方面的错误,但基本上不影响交际。
2级
基本能表达思想,但内容不够充实。
有一定的词汇量,但往往词不达意。
语言欠通顺,语法、词汇及汉字书写方面的错误较多,影响意思的表达或与他人的交际。
1级
能表达一定的思想,但语言较零乱。
语法及汉字书写错误很多,应用文缺少基本要件,严重影响交际。
按照那个标准能够给考生在作文进行评分(评分者按照考生的作文情形,对照那个标准能够给某篇作文相应的品级分数)。
按照那个标准也能够对作文的品级分数意义进行解释。
实施标准参照测试的基础是制定适合的标准,标准是不是适合跟如此一些问题有关:
标准应该包括哪些项目,区分哪些品级,品级划分的依据是什么等等。
标准参照测试所依据的标准的制定须要依据必然的语言能力理论背景并以科学的调查分析为基础。
比如,各品级的语法结构或语法项目应该包括哪些内容,各品级应该掌握哪些词语,哪些错误是不影响交际的,哪些错误是影响交际的,各品级在阅读速度上有什么不同,各品级在听力材料的速度方面有什么区别,诸如此类的问题都必需在调查分析研究的基础上才能解决。
8.2常模参照测试(norm-referencedtest)
考生参加这种测试取得的分数是要通过与常模群体中其他考生成绩进行比较才能加以解释的。
常模参照测试必需成立常模,即肯定常样子组由什么人组成。
组成常样子组的人,必需与测试所适用的对象完全同质。
常模在测试所适用的对象中起尺度的作用,单个被试的成绩是要按照常模才能取得解释的。
考试的目标群体往往比较大,不太可能通过考试目标群体里的所有个体来成立常模,一般是设计一个抽样方案,抽取一个有代表性的样本。
常样子组越大(几千人、几万人)越有代表性越好。
大规模考试实施时,应向考试对象发布:
常模的成立进程、常模分数应该如何解释、常模的主要指标等。
8.3标准相关-常模参照测试(criterion-relatednorm-referencedtest)
这种测试既具有标准参照测试的特点,又具有常模参照测试的特点。
HSK和CET都是这种测试。
标准相关-常模参照测试既能够用来考查考生掌握教学大纲规定的学习内容的情形,也能够用来考查考生在全部考生中的相对位置。
标准相关-常模参照测试既与教学内容相关(依据必然的教学大纲,如HSK依据《汉语水平辞汇与汉字品级大纲》,CET依据《大学英语教学大纲》),又与必然的语言能力理论为依据(如,HSK和CET都主张全面测试考生的听、说、读、写能力)。
9依照测试对用户影响的大小不同
测试用户包括采用测试的单位、参加测试的考生、采用测试结果的单位或个人等。
测试对用户的影响有大小之分,因此测试也能够分为低风险测试和高风险测试。
9.1低风险测试(low-stakestest)
这种测试对测试用户在物质或精神上产生的影响较小,测试的结果不会对考生的利益产生多大的影响。
像教学进程进行的考试。
低风险测试的结果能够作为改良教学、了解教学效果的参考,一般不作为用人或制定医治方案决策的直接依据。
低风险测试的研发单位承担的风险也相对较小。
9.2高风险测试(high-stakestest)
这种测试对测试用户在物质或精神上产生的影响较大,测试的结果往往对考生的利益产生较大的影响。
高风险测试的结果,对考生而言,将决定其可否被大学录取、被如何的大学录取、可否取得奖学金、取得多少奖学金、可否被用人单位录用等等与切身利益紧密相关的问题;
对采用测试结果的单位或机构而言,将决定其录取考生的素质、资源(师资、资金、设施等)的分派、录用人员是不是能胜任某个职位的工作等等。
高风险测试的研发单位相应地也承担着更高的风险(包括用户的质疑、批评,社会舆论的压力等),因此对测量的精度有着更高的要求。
小结
依据不同的标准能够对语言测试进行不同的分类,但就一项具体的测试而言,从不同的角度看,它往往具有多种测试的特点。
如,HSK(初、中等)和CET就具有多种测试的特点:
分类标准
测试类别
HSK
CET
语言使用
领域不同
普通语言能力测试
+
-
专项语言能力测试
测试目的
水平测试
成绩测试
-,+
学能测试
分班测试
+,-
诊断测试
测试方式
直接测试
间接测试
测试语言技能的分合
分立式测试
+(为主)
综合式测试
+(少量)
测试所用的手段
纸笔测试
口试
-,+
计算机辅助测试
评分方式
客观性测试
主观性测试
测试的时间要求
速度测试
难度测试
分数解释参照标准不同
标准参照测试
常模参照测试
标准相关-常模参照测试
测试对用户影响的大小
低风险测试
高风险测试
+,-