语言测试地地种类.docx

资源描述

语言测试地地种类.docx

《语言测试地地种类.docx》由会员分享，可在线阅读，更多相关《语言测试地地种类.docx（14页珍藏版）》请在冰豆网上搜索。

语言测试地地种类.docx

语言测试地地种类

三语言测试的种类

依据不同的分类标准，可以将语言测试分成不同的类别。

这些标准主要是测试的目的、测试的方式、测试语言技能的分合、测试的评分方式、测试时间的要求、测试对用户影响的大小、分数参照的标准等。

1按照测试涉及的语言使用领域的不同

普通语言测试与专项语言测试。

2根据测试目的的不同

每一种语言测试都应该具有明确的测试目的。

2．1水平测试（proficiencytest）

这种测试用来测量考生的语言能力，如HSK,CPT（台湾）。

水平测试可以用来测量普通的语言能力，但也可以用来测量考生在某一领域或某些领域的语言能力，如BEC（剑桥商务英语证书）是专门测试考生在真实工作环境中英语交流能力，公司企业可用以评估员工和应聘者的英语水平。

水平测试也可以用来测量考生的某项或几项语言技能的水平，如，HSK（基础）只测试听力、语法和阅读的技能水平，HSK（初、中等）测试听力、语法、阅读、综合等技能水平，HSK（高等）测试听力、阅读、综合、作文和口语等技能水。

水平考试的特点：

它是一种基于某种语言能力理论（theory-based）的测试，不与一定的课程或特定的教学内容直接关联。

水平考试一般是大规模的标准化考试，多由专门的考试机构来进行研发和实施。

参加水平考试的考生总体成绩一般呈正态分布。

水平测试多用于人才选拔。

2.2成绩测试（achievementtest）

这种测试用来测量考生在某一课程或学习的某个阶段的学习进展或学习成果，如对外汉语教学活动中的单元测验、期中考试、期末考试。

也叫“学业测试”。

成绩测试本着“教什么学什么考什么”的原则，与一定的教学内容密切相关，是基于一定教学内容或教学大纲（syllabus-based）的测试。

所以，期中考试、期末考试的命题范围应该以某个阶段所学的内容为限，范围不宜过小或过大。

成绩测试一般由教学人员或教学单位负责命题、组织、实施。

对一个班的成绩测试所得的成绩不一定呈正态分布。

可能一个班上的学生学习成绩普遍较高，另一个班上的学生成绩普遍较低。

2．3学能测试（aptitudetest,scholasticaptitudetest）

学能测试是在考生学习一种新语言之前对其学习能力的测试，即测试的成绩跟学习者学习这种新语言的成功的可能性相关。

我国的高考也应该是学能测试，它要考查考生适应高等学校学习的能力。

2．4分班测试（placementtest）

也叫“编班测试”。

在语言教学活动中，利用这种测试了解学生的语言水平，根据考生的成绩和教学内容及教学大纲把学生编入不同进度或程度的班级，以便于安排实施有针对性的教学。

分班测试的设计与试题命制可以基于一定的语言能力理论，也可以基于一定的教学大纲，但无论是根据那种情况，测试本身都应该对考生的语言能力具有理想的区分作用，这样才能利用考试的结果，将考生区分为不同群体，以便于安排班级。

需要安排的班级层次越多，测试区分考生语言水平的难度越大。

分班测试区分等级的多少取决于办学规模和新生数量的多少。

如果新生的数量或教学单位的办学规模与前一学期大体相当，分班测试要区分的等级也可以保持与前一学期一致。

如，前一个学期有六个连续层次的班级，新学期可以继续保持这六个层次。

但分出的每个层次的人数不一定相同。

一学期刚开学时的分班测试可以以前一学期各个等级所教学或学习的内容为命题范围，以检查新生是否达到某个阶段的合格水平，以便决定该考生是否能够进入更高一个等级学习。

如果前一学期有六个连续的等级，在编制分班测试的试卷时就可以以前一学期结束时六个等级所达到的水平为依据分别编制六套分班试卷，考生可以根据自己的水平选择适当等级分班试卷参加考试。

为了避免反复测试（由于考生选择了过低或过高等级的试卷而导致分班测试失效，不得不再次进行测试，直至分班合适），可以事先让考生对即将分出的等级有一定的了解，以便选择更合适的测试。

考生可以参加连续几个等级的测试，直到充分展示了他的语言能力。

2．5诊断测试（diagnostictest）

在教学过程中为了检验学生在某个阶段或在学习某些语言项目上的效果，即掌握了哪些项目，更重要的是要检查考生在哪些项目上有欠缺，以便在教学上采取改进措施。

为了这种目的进行的测试是诊断测试。

在平时教学活动中经常进行的课堂测验、单元测验、阶段测验都属于诊断测试。

诊断测试的内容是基于一定的教学内容的（syllabus-based）。

测试内容可多可少，可以是比较全面的测试，也可以是侧重于某些语言项目或语言点的（如着重考察考生书写某些汉字的情况，也可以考察考生对某些句式掌握的情况）。

3根据测试的方式的不同

根据测试方式的不同，语言测试可分为直接测试和间接测试两种。

（语言测试从一般测量学意义上说属于间接测量——用非自我测量工具对测量对象进行间接测量，即从语言行为推测语言能力）

3．1直接测试（directtest）

这类测试要求考生直接运用某项语言技能。

比如：

要考查考生的汉语发音情况，可以让考生朗读一段文字或自由发言，从其朗读或说话中可以直接了解考生的发音情况；

要了解考生的写作水平，可以通过考生写的文章直接了解考生在遣词造句谋篇布局表情达意方面的写作能力；

要了解考生的口语水平，可以通过考生口头谈话（主要是与他人进行口头交流）直接了解考生的口语交际能力；

要了解考生的翻译水平，可以通过考生翻译的作品直接了解考生的翻译水平。

直接测试的特点：

（1）测试形式具有真实性（authenticity），测试内容与现实语境密切相关（closeresemblance）（如，口语试题让考生谈环境问题、城市交通问题、大学生就业问题、人口问题、老龄化问题）；

（2）直接测试便于从总体上考察产出性技能（productiveskills）；

（3）直接测试的测试目标容易确定；

（4）直接测试的效度比较容易保证；

（5）直接测试的试题的答案通常是开放式的（open-ended）,命题者不提供选择答案项。

语言测试中的口语、写作和翻译测试等通常被认为是直接测试。

直接测试的缺陷：

（1）如何制定评分标准；

（2）如何保证评分者信度（评分者之间的一致性、评分者前后评分的一致性）；

（3）如何保证测试手段的有效性（如，口语测试让考生对着话筒进行连续的几分钟录音讲话，未必能真正测得考生的口语能力；写作考试让考生写题材陌生的内容也未必能测得考生的写作能力）；

（4）直接测试的试题数量很受限制，不能过多。

3．2间接测试（indirecttest）

间接测试是通过测试考生在与某种技能相关的语言项目上的反应来间接考查考生的某种语言能力。

如：

让考生从一组语音形式中，挑出某个词语的正确发音（考生并没有直接发出这个词语的音）；

让考生从一组释义项里选出某个词语的正确释义（考生并没直接提供该词语的释义），可以考查正确理解词义的能力；

让考生改正或选择某个语法形式，实际上考查的是考生正确使用某种语法形式的能力，这也是运用汉语正确表达的能力。

间接测试的特点：

（1）间接测试不追求测试形式与真实交际的密切相关（如，多项选择题、改错题、完形填空题等，在真实交际活动中并不常用）；

（2）间接测试便于较少受语用条件或语用环境的制约，便于采用较多的分立式试题以测试更广泛的语言项目（可用更多的试题）；

（3）间接测试试题的答案往往是唯一的（评分时往往只须在“对”或“错”之间选择其一。

）听力理解、阅读理解、语法结构等项目的测试多采用多项选择题；

（4）间接测试的评分者信度比较容易得到保证。

间接测试的缺陷：

（1）间接测试试题的目的不易确定，一道试题是测试哪种微技能往往会产生分歧；

（2）间接测试的试题编制比较困难（语料的选择、题眼的确定、选项的编制、试题难易程度的把握等方面都十分困难）；

（3）间接测试的效度不易保证。

4根据测试语言技能的分合的不同

根据测试语言技能的分合的不同，语言测试可以分为分立式测试和综合式测试。

4．1分立式测试（discretepointtest）

进行分立式测试是把语言分成语音、词汇、语法等要素，再从这些要素中分出许多语言点，针对这些语言点设计试题，一道试题往往只测一个语言项目。

一般的词汇或语法结构试题属于分立式测试题。

分立式测试的特点：

（1）分立式测试试题所测的语言项目明确（如果所测的语言点是某个词词义的理解，考生答对了这道题，就表明考生掌握了这个词的词义）；

（2）分立式测试较多采用多项选择题；

（3）分立式测试的信度比较容易保证。

分立式测试的缺陷：

（1）受结构主义语言学理论的影响，分立式测试把语言分成许许多多分散的项目，很难考查考生在真实交际活动中的语言交际能力（容易出现“高分低能”的情况——考试分数高，但不能与人交流）；

（2）分立式测试的测试效度难以得到保证（难以确定是否真的考出了考生的语言能力）。

4．2综合式测试（integrativetest）

这类测试要求考生在答题时综合运用某些语言知识，而不是一道题目只测试一个语言点。

通常运用的听写、完形填空、朗读、作文、口语等试题是综合式测试常用的题型。

综合式测试的特点：

（1）综合式测试是在一定的上下文或语境中测试考生对语言项目的综合运用情况；

（2）综合式测试试题（主要是口语测试、作文测试等）比较接近真实的语言交际。

综合式测试的缺陷：

（1）综合式测试中的要求考生提供开放性答案的试题（完形填空、作文、口语等），评分者信度较难保证；

（2）综合式测试试题涉及哪些语言点或考生在答题时体现哪些微技能不易确定。

5根据测试所用手段的不同

根据测试所用手段的不同，语言测试可分为纸笔测试、口试和计算机辅助测试。

5．1纸笔测试（paper-basedtest）

传统的考试形式，也是目前最常用的形式。

纸笔测试的特点：

（1）测试的时间可以可长可短。

长的可以用2-3个小时。

（2）测试的题量可多可少。

多的可以有几十到一百多题。

（3）测试的内容可以比较广，适用的范围也比较广。

（4）测试题型比较多（多项选择题、是非判断题、综合填空、改错、简答题、作文题等）。

（5）可以组织大量人员同时参加测试。

纸笔测试的缺陷：

（1）很难测试考生的口语能力；

（2）测试交际能力不够全面，较难保证真实性。

5．2口试（oraltest）

语言测试所称的口试是口语测试。

一般分两种方式进行：

用录音的方式或用面谈的方式。

用录音的方式是要求考生把要说的话录在录音设备上，然后由评分员集中听审（可单独听审或两人以上听审）。

HSK（高等）和TOEFL都采用这种方式。

录音方式的特点：

（1）比较经济；

（2）比较容易组织（多人同时录音）；

（3）参加同一批测试的考生在同一时间进行测试。

录音方式的缺陷：

（1）难以保证口语交际的真实性，缺乏口语交际的本质特性——互动（interaction）。

（2）测试时对录音设备要求较高（数量多，录音环境容易互相干扰）。

用面谈的方式是让考生与考官或考生与考生之间进行直接谈话（就限定的话题，如独生子女的教育问题、城市的交通问题、环境污染问题、水资源问题、能源问题等），考官根据考生在谈话中的表现进行评分。

面谈方式的特点：

（1）比较贴近真实的口语交际（但并不等同，在话题、交流方式、考生心理个体差异影响口语表达、主考与考生的地位）；

（2）同时只能测试一位或几位考生；

（3）可以安排前后考生连续进行测试（受主考、考场等限制）。

面谈的缺陷：

（1）组织比较困难（大批考生候考，安排大批考生考同一试题容易泄密；安排不同试题，难以保证试题难度相当）；

（2）大规模测试的面谈需要大批合格的主考人员，人员代价高。

5．3计算机辅助测试（computer-basedtest,internet-basedtest）

这种测试的试题是在计算机上呈现给考生。

从测试的内容上看，这种测试还可以分为两种：

一种是计算机辅助的传统测试（基本上是以计算机代替了纸笔，试题的内容与纸笔测试的情况基本相同）；一种是计算机辅助的自适应测试（测试系统根据考生的答题情况不断调整呈现试题的难度以适应考生的水平，直至所呈现给考生的试题难度趋于稳定）。

基于计算机网络的测试的特点：

（1）考生可以在不同的时间、不同的地点参加测试；

（2）自适应测试能够避免低水平考生面对较多难度高的试题，或高水平考生必须完成低难度试题的情况；

（3）测试的理论基础（项目反应理论）不同于纸笔测试。

计算机辅助测试的缺陷：

（1）对测试组织而言，设备、技术要求较高，条件较差的地区无法进行这类测试（TOEFL首次网络测试有不少考生没能按时进行）；

（2）对考生的额外要求增多（会电脑操作）。

6按照评分方式的不同

按照评分方式或答题方式的不同,语言测试可以分为客观性测试和主观性测试。

6．1客观性测试（objectivetest）

这种测试的试题答案具有规定性或排他性。

提供备选项的试题（选择题，selectiveitem）是这种测试常用的题型，可以是单项选择，也可以是多项选择。

答案具有唯一性的填空题等也可以构成客观性测试。

客观性测试备有标准答案，评分工作比较简单，甚至可用机器阅卷。

但客观性测试也有其缺陷：

这种测试很难测试考生产出性语言能力（即说、写和译的能力），不易考查考生在真实交际环境中的语言交际能力。

6．2主观性测试（subjectivetest）

这种测试的试题答案具有开放性或灵活性，不具有唯一性。

这种测试一般不备有标准答案，考生要根据试题构造答案（构答题，constructiveitem）。

主观性测试常用口语、写作、翻译等题型。

在阅读、听力测试中，也有使用半主观性试题的。

这种试题的答案是半开放的，考生在答题时有一定的灵活性（如答案的长短、答案所包括的词语），但这种灵活性是在可预见的范围内，即这种试题是备有标准答案或参考答案的。

主观性测试常用来测试考生的产出性语言能力，可以用来考查考生在真实交际环境中的实际交际能力。

主观性测试的缺陷主要是难以掌握评分标准，不易保证评分信度。

7按照测试时间的不同要求

按照测试对时间的不同要求，可以分为速度测试和难度测试。

7．1速度测试（speedtest）

速度测试主要用来测试考生在规定的时间内答题的效率。

这种测试对考生答题的时间进行比较严格的控制，考生答题的时间比较紧张。

如果给考生足够的时间，这种测试的试题难度一般不大。

HSK（高等）阅读部分的构答题部分就是速度测试，这部分试题要求考生迅速从阅读材料中找出相关信息，这些信息在文中一般比较明显，考生应该具备快速检索关键信息的能力。

7．2难度测试（powertest）

这种测试主要用来测试考生掌握的具体知识或技能，试题的难度一般不会随所给答题时间的长短而改变（“难者不会，会者不难”）。

一些大规模测试既是难度测试，同时也要求一定的答题速度。

如，HSK各等级考试中的每个部分都规定了答题时间，在测试过程中，要求考生在规定的时间内完成规定部分的试题，不得提前做，也不得回头补做。

8按照分数解释参照标准的不同

对测试分数的解释一般有两种方式，即标准参照和常模参照，相应的，语言测试也可以分为标准参照测试、常模参照测试和标准-常模参照测试三种。

8．1标准参照测试（criterion-referencedtest）

根据对语言能力的理解，将语言能力分成若干个具体的项目，或将某种语言技能分成若干个等级，规定某个等级所包括的具体项目或具体的技能，这种规定就是解释测试分数的基本依据，依据这种标准设计的测试就是标准参照测试。

如，写作考试的5级评分标准：

5级

内容充实，条理清楚，表达得体。

语法正确，语句通顺；词汇丰富，遣词造句恰当，能使用较复杂的句式和一定的修辞手段；汉字书写和标点使用正确。

有极个别语法、词汇及汉字书写上的错误，但不影响文章思想内容的表达。

4级

内容较充实，较有条理，表达基本得体。

语法结构清楚，语言尚通顺；词汇较丰富，使用正确，能使用较复杂的句式清楚地表达思想；汉字书写和标点使用基本正确。

有个别语法、词汇及汉字书写上的错误，但不影响交际。

3级

内容较完整，能用较通顺的语言表达思想。

语法结构基本清楚；词汇较丰富，但有时词不达意。

有语法、词汇及汉字书写方面的错误，但基本上不影响交际。

2级

基本能表达思想，但内容不够充实。

有一定的词汇量，但往往词不达意。

语言欠通顺，语法、词汇及汉字书写方面的错误较多，影响意思的表达或与他人的交际。

1级

能表达一定的思想，但语言较零乱。

语法及汉字书写错误很多，应用文缺少基本要件，严重影响交际。

根据这个标准可以给考生在作文进行评分（评分者根据考生的作文情况，对照这个标准可以给某篇作文相应的等级分数）。

根据这个标准也可以对作文的等级分数意义进行解释。

施行标准参照测试的基础是制定合适的标准，标准是否合适跟这样一些问题有关：

标准应该包括哪些项目，区分哪些等级，等级划分的依据是什么等等。

标准参照测试所依据的标准的制定须要依据一定的语言能力理论背景并以科学的调查分析为基础。

比如，各等级的语法结构或语法项目应该包括哪些内容，各等级应该掌握哪些词语，哪些错误是不影响交际的，哪些错误是影响交际的，各等级在阅读速度上有什么不同，各等级在听力材料的速度方面有什么区别，诸如此类的问题都必须在调查分析研究的基础上才能解决。

8．2常模参照测试（norm-referencedtest）

考生参加这种测试得到的分数是要通过与常模群体中其他考生成绩进行比较才能加以解释的。

常模参照测试必须建立常模，即确定常模样组由什么人构成。

构成常模样组的人，必须与测试所适用的对象完全同质。

常模在测试所适用的对象中起尺度的作用，单个被试的成绩是要根据常模才能得到解释的。

测验的目标群体往往比较大，不太可能通过测验目标群体里的所有个体来建立常模，通常是设计一个抽样方案，抽取一个有代表性的样本。

常模样组越大（几千人、几万人）越有代表性越好。

大规模考试实施时，应向考试对象公布：

常模的建立过程、常模分数应该如何解释、常模的主要指标等。

8．3标准相关-常模参照测试（criterion-relatednorm-referencedtest）

这种测试既具有标准参照测试的特点，又具有常模参照测试的特点。

HSK和CET都是这种测试。

标准相关-常模参照测试既可以用来考查考生掌握教学大纲规定的学习内容的情况，也可以用来考查考生在全体考生中的相对位置。

标准相关-常模参照测试既与教学内容相关（依据一定的教学大纲，如HSK依据《汉语水平词汇与汉字等级大纲》，CET依据《大学英语教学大纲》），又与一定的语言能力理论为依据（如，HSK和CET都主张全面测试考生的听、说、读、写能力）。

9按照测试对用户影响的大小不同

测试用户包括采用测试的单位、参加测试的考生、采用测试结果的单位或个人等。

测试对用户的影响有大小之分，因此测试也可以分为低风险测试和高风险测试。

9．1低风险测试（low-stakestest）

这种测试对测试用户在物质或精神上产生的影响较小，测试的结果不会对考生的利益产生多大的影响。

像教学过程进行的测验。

低风险测试的结果可以作为改进教学、了解教学效果的参考，一般不作为用人或制定治疗方案决策的直接依据。

低风险测试的研发单位承担的风险也相对较小。

9．2高风险测试（high-stakestest）

这种测试对测试用户在物质或精神上产生的影响较大，测试的结果往往对考生的利益产生较大的影响。

高风险测试的结果，对考生而言，将决定其能否被大学录取、被怎样的大学录取、能否得到奖学金、得到多少奖学金、能否被用人单位录用等等与切身利益紧密相关的问题；对采用测试结果的单位或机构而言，将决定其录取考生的素质、资源（师资、资金、设施等）的分配、录用人员是否能胜任某个岗位的工作等等。

高风险测试的研发单位相应地也承担着更高的风险（包括用户的质疑、批评，社会舆论的压力等），因此对测量的精度有着更高的要求。

小结

依据不同的标准可以对语言测试进行不同的分类，但就一项具体的测试而言，从不同的角度看，它往往具有多种测试的特点。

如，HSK（初、中等）和CET就具有多种测试的特点：

分类标准

测试类别

HSK

CET

语言使用

领域不同

普通语言能力测试

专项语言能力测试

测试目的

水平测试

成绩测试

-,+

学能测试

分班测试

+,-

诊断测试

测试方式

直接测试

间接测试

测试语言技能的分合

分立式测试

+（为主）

综合式测试

+（少量）

测试所用的手段

纸笔测试

口试

-，+

计算机辅助测试

评分方式

客观性测试

主观性测试

测试的时间要求

速度测试

难度测试

分数解释参照标准不同

标准参照测试

常模参照测试

标准相关-常模参照测试

测试对用户影响的大小

低风险测试

-，+

高风险测试

+，-

展开阅读全文