初中英语口语测试信度研究.docx
《初中英语口语测试信度研究.docx》由会员分享,可在线阅读,更多相关《初中英语口语测试信度研究.docx(69页珍藏版)》请在冰豆网上搜索。
初中英语口语测试信度研究
第一章引言
1.1理论背景
社会生活的信息化和经济的全球化,使英语的重要性日益突出。
英语作为最重
要的信息载体之一,已成为人类生活各个领域中使用最广泛的语言。
许多国家在基
础教育发展战略中,都把英语教育作为公民素质教育的重要组成部分,并将其摆在
突出的地位。
改革开放以来,我国的英语教育规模不断扩大,教育教学取得了显著的成就。
然而,英语教育的现状尚不能适应我国经济建设和社会发展的需要,与时代发展的
要求还存在差距。
主要表现在学生实际语言运用能力的薄弱,尤其表现在口语能力
方面(邵永真,1998;马天泽,1998;井升华,1999;姜澎,2001)。
口语能力较弱有语言学习固有特点的所造成的客观原因。
有研究表明,在听、
说、读、写四种语言技能中,说的技能最难掌握。
语言学家海霍(Hayhoe,R)认
为:
听、说、读、写从易到难的顺序应该是读一写一听一说.‘读是最容易的,说是
最难的。
(转引自贾冠杰,1996)
韩晓惠(1998)的调查表明:
30“个受调查者中,大多数人认为即使在英语学
习上花费了多年时间,英语口语仍然是最难掌握的能力。
邱东林、季佩英(2004)
对复旦大学2002级学生入学时的口语水平进行了抽样调查,在调查的408名学生中,
52%的学生认为最薄弱的技能是说。
上述事例虽然反映大学生英语口语能力状况,但实质上是国内(大中小学)英
语教学存在的共性问题。
整个社会大环境对学生的口语能力普遍感到不满意,对学生英语口头表达能力
较弱提出了强烈批评,自然会引出对英语测试的批评。
刘润清(2000)认为,“在听、说、读、写四种语言技能中,说的技能无论怎
么强调恐怕也不过分,因为学习语言的最终目的是把它作为一种工具来进行交际,
而交际首先指的是口头交际。
语言教学今天所强调的文际教学,首先是口头交际。
从社会对外语人才的需求来看,一个人的口语能力无疑是十分重要的。
所以说,没
有口语测试的语言测试是不全面的,或者说不能称其为语言测试。
”科学的语言测
试包括口语测试。
,全社会已经充分认识实施口语测试的重要意义,因而提出了加强英语口语教学
和口语测试的强烈的呼声。
由于各种原因,在过去相当长的一段时间,无论是教学还是考试,对于口语考
试都没有给予足够的重视。
当前义务教育阶段的英语课程特别强调培养学生的口语能力。
《课程标准》对学生的英语口语技能有明确的要求;按照《课程标准》编写的
各种版本的教材从内容设计到建议的教学方法也都非常重视学生的口语能力。
当前
快速发展的社会需求对英语学习者的口语能力也提出了一定的要求,进行口语考试
的环境和条件正在逐步形成。
从外语教学所走过的历程看来,每次重大改革起关键
作用的就是考试这根强效的指挥棒。
口语测试的重要性在于它对口语教学所具有的
极其重要的反拨作用,促进口语教学的发展。
1.2现实背景
江苏省教育厅1999年15号文件《关于改革和加强中小学外语教学的意见》(以下
简称《意见》)要求重视英语考试方法的研究和改革。
《意见》认为“从全省范围来
看,外语考试中‘重知识,轻能力;重笔试,轻口试和听力测试’的问题仍较突出,
严重制约了外语教学的改革和外语教学效益的提高。
因此必须进一步研究和改革考
试方法。
”《意见》明确提出,从2000年起,江苏省实行中学生英语口语等级测试制
度,着重考查学生的口头表达能力。
教育部2001年制订的九年义务教育全日制初级中学《英语教学大纲》(试用修
订版)第五部分“教学评价”中提出:
“终结性评价的方式应包括听力、口试等在内
的期中、期末考试等。
“一考试形式要包括听力测试、笔试和口试。
”全日制义务教
育普通高中《英语课程标准》(实验稿)第四部分“实施建议”也指出:
终结性评价
(如期末考试、结业考试等)是检测学生综合语言运用能力发展程度的重要途径,
也是反映教学效果、学校办学质量的重要指标之一。
终结性评价必须以考查学生综
合语言运用能力为目标,力争科学地、全面地考查学生在经过一段学习后所具有的
语言水平。
测试应包括口试、听力考试和笔试等形式,全面考查学生综合语言运用
能力。
1.3存在的问题
口语测试属于主观性测试。
作为主观性考试,口语测试能够有效地测试、评估
学生的运用英语进行口头表达的能力。
与其他几种语言技能测试相比,口语测试是
最难进行的。
由于对测试结果的评判是主观性的,对考生口语水平的评价取决于测试员的
主观判断,要求测试员更多地应用主观判断能力,而他们的业务水平、测试经验和
个性特点等方面存在差异,这些差异必然影响测试员的判断并反映到所评的分数上,
评分标准的掌握很难完全一致。
甚至同一测试员也会受多种因素影响,对评分标准
的控制缺乏稳定性,同一测试员者对同一口语测试样本在不同时间也会做出不同的
判断。
因此,过去“许多教师和测试专家都承认,口语测试评分很难做到客观公正。
根本原因是其中要注意的成分太多,而且无法进行定量分析。
”(刘润清,1991)
GillianB~和GeorgeYule(1983)也指出:
一直以来,英语老师为口语能
力评价伤透脑筋。
即使许多非常成熟的考试也没有口语测试,似乎只有用书面考试
的形式,才能对语法、词汇进行准确评价。
希顿(1988)认为口语测试对教学产生积极的反拨作用,有利于促进教学,
促进学生口语能力的提高,应该尽可能坚持。
但是,他也认为口语测试可能没有信
度(信度低).
上述观点主要认为口语测试评分主观性强,信度难以得到有效保证,因而阻碍
口语测试的广泛实施。
为了提高口语测试的信度,使测试结果更加公平、公正,提高口语测试对外语
教学的反拨作用,有必要对口语测试中评分者信度及其影响因素进行研究,以促进
口语测试及中小学英语教学健康发展,推动课程改革顺利实施。
1.4章节安排
本文共分为六部分,包括:
引言、理论基础与文献综述、研究问题与设计、研
究过程、结论与建议、结语。
第一章在英语教育教学改革的背景下,从研究的理论
现实背景和存在的问题,论述了研究口语测试信度研究的意义。
第二章介绍了口语
测试信度研究的基本概念、分类以及计算方法,比较详细地论述了影响评分者信度
的相关因素,以及国外内已有的研究与实践。
第三章简要介绍研究的问题和使用的
工具、数据分析方法。
第四章详细论述了如何保证试题信度、创造公平的测试条件
重点就测试员的选择与培训、测试的监督机制、测试过程的细节安排等过程充分论
述提高评分者信度的实践过程。
第五章讨论了本次研究的成果及其对口语测试研究
的意义,并就进一步提高初中口语测试质量提出了一些建议,也思考提高本研究深
度与广度的改进意见。
第二章理论基础与文献综述
2.1语言测试的发展阶段
国内学者(文秋芳、杨惠中等)一般把语言测试的发展大致分为三个阶段:
前科
学时期((Pre-scientificPeriod),结构主义语言学时期(ThePeriodofStructural
Linguistics)和交际法语言测试时期(CommunicativeTestingPeriod)。
从口语测试信
度角度分析,这三个阶段表现出如下特点:
2.1.1缺乏信度和效度、无口语测试的阶段
前科学时期((19403以前)的测试以传统对比语言学(Traditional&Comparative
Linguistics)为理论基础。
以HermannPau.为代表的语言学家认为:
书面语言是最纯
净的,而口头语言是第二性的。
这一时期的考试只有书面测试,考试方式以翻译、
写作为主,没有口语测试。
因为这一时期的考试没有明确的理论指导,与练习没有
明确区分,缺乏信度和效度,称为前科学时期。
2.1.2注重口语的准确性和技能的熟练性的阶段
这一阶段为结构主义语言学时期,指1950至1960年。
这一时期的结构主义语
言学认为:
语言是由语音、词汇、语法构成的一个系统,这一系统是可以分解的。
因
此,可以设计出离散的题目(discreteitems),以逐项测验学生是否掌握了这些分解
的元素。
结构主义测试的典型题型为多项选择题。
行为主义心理学对这一时期的语
言学习、测试理论也有较大影响。
行为主义心理学认为语言是一套习惯,语言测试
就是对这种习惯的客观、科学的评价。
这一时期口语测试开始出现,但由于“结构
主义测试深受行为主义心理学的影响,强调测试的科学性、准确性和可靠性”(文秋
芳,1999)。
而口语测试从测试方法到评分标准都不可避免地受人的主观影响,被认
为是不客观,不科学的,因而不受重视。
这一时期的口语测试的题型为了能符合行
为主义的科学、客观的要求,以朗读(readingaloud)、复述(retelling),补全对话
(completingdialogue),看图说话(picture-cuedconversation)、口头报告(individual
presentation)和问答(answeringquestions)为主.结构主义口语测试通常采用的模
式为单向表达和双向单回合表达,比较机械,而缺乏真实性和交际性。
其评分方法
通常采用从语音语调、语法、词汇、流利程度和内容等方面项目打分的分析法。
结
构主义口语测试评分的侧重点是语言的准确性和技能的熟练性(文秋芳,,1999).
2.1.3重视交际功能阶段
二十世纪八十年代,口语测试进入交际法语言测试时期。
“自七十年代中期起,
语言测试界开始重视所谓总体综合法的研究”(Alderson,2000)。
这一时期被称为语言测试的心理语言学和社会语言学时期(Psycholinguistic-sociolinguisticera)”.
英国的语言学家韩礼德((Halliday)提出了语言的七项基本功能:
工具功能((the
instrumentfunction)、调节功能((theregulatoryfunction)、代表功ft(the
representationfunction)、互动功能((theinteractiionalfunction)、个性功能((the
personalfunction)、启发功能((theheuristicfunction)、想象功能((theimaginative
function)。
自此,人们对语言的功能,特别是交际功能的研究越来越重视,交际法
测试理论也随之出现。
交际法测试理论指出,掌握一门语言指在一定的语境中能够
使用所学语言进行有效的交际、交流思想,达到互相沟通的目的.巴克曼(LyleF
日achman)的交际语言能力模式(Bachman,1990)被国际语言测试界广泛接受.
口语作为最基本的交际方式,因而这一时期的口语测试受到了越来越多的关注。
比较两个阶段的口语测试,可以发现他们不同的特点。
结构主义口试的最大优
点是:
命题容易,对测试员本身的英语水平要求不高,评分相对客观、可靠。
而交
际性测试能准确反映学生的交际能力,体现交际的真实性和交互性,但是命题和评
分方法不易实施。
也就是说,结构主义的口试信度可以更好的控制,而交际性测试
的效度会更理想一些。
在我国现阶段的实际外语教学中、外语测试中,没有绝对的结构主义、交际性
口试之分。
由于我国的现实条件和已有传统,这两种测试方式是混杂在一起的。
结构主义口试以测试说的技能以及与说相关的项目技能为宗旨,试题通常比较
机械、呆板,脱离语言环境,缺少信息交流,但评分比较客观、可靠。
江苏省中学
生英语口语等级测试、上海市高考英语口试都是比较典型的结构主义口试。
2.2口语测试的信度
与其他学科一样,外语测试传的统评价标准是信度(reliability)、效度(validity)
难度(difficulty)、区分度(discrimination)、可行性(practicality)和反拨作用
(backwasheffect)。
20世纪90年代以来,根据教育测量学和外语测试的特点,一
些专家指出,外语测试的评价应增加真实性、互动性等内容。
然而,外语测试界一
致认为,信度、效度与可行性仍是评价测试的主要标准。
2.2.1测试的信度
考试的信度是指考试测量学生语言能力一致性的程度,是测试结果的可信、可
靠的程度,即考试结果不受考试时间、监考人员、场地等因素的影响。
著名心理测
验专家阿纳斯塔西(1996)给信度下的定义是:
同一个人在不同场合参加同一测试
或参加内容与难度相当的不同测试其成绩保持一致的程度。
刘润清(1991)认为语言测试的信度是指考试结果的可靠性和稳定性。
而左焕琪(2002)则认为信度的基本概念是避免测试误差的程度。
徐强((2000)从操作的角度,就如何判断信度下了定义:
信度是指同一考生在
不同的考试条件下(如不同的考场、不同的考官)参加同一项考试后所达到的分数
是一致的。
信度是测试的分数所反映的被试的表现的可信、可靠程度。
信度高的测试,有
很好的一致性(consistency)和稳定性(stability)。
讲信度必须有比较,无比较则无信度可言,例如比较若干次测试的结果(分数)。
大量测试实践表明,像TOEFL这样的考试,信度很高,一致性和稳定性好。
尽管对测试信度的语言表述不同,一致性、稳定性与可靠性是测试信度的本质
特征。
2.2.2评分者信度
在口语测试等主观性测试中有多个评分者,他们在评分过程中不可避免地受到
主观因素的影响,对试题答案、评分标准常有不同的判断,从而导致标准不统一而
产生误差。
因此评分者信度研究就是针对评分者所评分数进行探讨,最大限度提高
,评分准确性和一致性,减少评分者主观因素对分数客观性的影响。
王孝玲(1989)认为,评分者信度是两个或几个评分者之间对同一组测试结果
评定的一致性程度。
就口语测试而言,评分者信度指口语测试中,两个或几个测试
员之间对同一组测试结果评定的一致性程度。
’2.2.3评分者信度的分类
评分者信度(scorerreliability)可分为两类:
评分者之间信度(inter-scorer
reliability)和评分者自身信度((intea-scorerreliability).对于大规模语言测试来说,
还有评分点之间信度((Inter-centerreliability),大规模考试的评分点不止一个.就
口语测试而言,评分者之间信度指不同评分者对同一口试样本是否给出同一个正确
的分数;评分者自身信度指同一评分者对同一口试样本在不同场合出现是否判定同
样的分数。
2.2.4信度的计算方法
‘
(1)再测信度(Test-retestreliability)
将同一份试卷两次测试同一批考生,两次测试间隔一段时间,考生在间隔期间
受到平等影响,即他们在语言能力上的进步基本一致,那么,通过两次测试结果的
相关分析得出该测试的再测信度。
再测信度的主要缺点是两次测试之间产生的一些因素。
如果间隔时间太短,被
测试者对第一次的内容还有一定记忆,会提高第二次测试的答题能力,从而影响测试结果的稳定性。
如果两次间隔时间过长,考生水平进步明显不一致,也会影响测
试结果的稳定性。
(2)复本信度(Alternate-formreliability或parallel-formreliability)
同一组被试者在复本测试(复本测试指测试性质、内容、题型、难度等方面一
致或相等的两份或多份考试)所得结果相关系数就是复本信度。
使用复本信度的问
题是技术上难以使两套(多套)测试试题内容与难度完全相当。
在重大考试中,计算再测信度和复本信度的条件不具备,因此,随着时间的推
移,这两种计算信度的方法已经很少采用。
(3)内在一致性信度(Internalconsistencyreliabil勺)
内在一致性信度是检验一个考试内部试题一致性的程度,内在一致性信度从一
次测试的内部计算信度系数(reliabilitycoefficient),避免两次测试的弊端。
2.2.5评分者信度的计算方法
传统的的评分者一致性计算方法主要有:
相关法和百分比法。
相关法中包括皮
尔逊(Pearson)级差相关、斯皮尔曼(Spearman)等级相关、肯德尔(Kendall)等
级相关以及克龙巴赫(L.J.Cronbach)a系数等组内相关法;百分比法包括简单一
致性百分比法和开帕(Kappa)法。
计算评分者信度简便的方法就是计算由两个或两个以上评分者评定同一口语测
试样本的成绩之间的相关系数。
2.3主要研究与实践
文秋芳等人用口语测试成绩与笔试成绩相关分析的方法,评价口语测试的信
度。
1994年进行英语专业四级口试研究了第一次试点工作,他们将学生的口语测试
成绩于四级统测笔试成绩的分数做了相关分析,相关系数达.66.P值是.000.结果
与香港考试局规定的口试和笔试成绩的相关系数(.65)相差无几,因而判定“所给
的口试成绩从总体上看是可靠的”。
(文秋芳,1999)
1995年进行了第二次试点工作,他们又将学生的口语测试成绩与四级统测笔
试成绩的分数做了相关分析,相关系数达.60.判定“这次评分的信度总体上是有保
障的”.(文秋芳,1999)
聂建中、王正仁对山西省1995年高考外语专业口试进行了评分者信度研究。
该研究首先对口语测试的评分的一致性进行统计。
实验研究发现,测试员在“朗读
与回答,在0.01水平呈显著性差异,“口头作文”在0.05水平呈显著性差异,“自由
问答,无显著性差异(p>0.05).研究者认为,七个口试小组“朗读与回答”和“口
头作文即的两项评分缺乏一致的标准,因而各组测试员在这两项上评分差异明显。
“自由问答”的评分虽含有主观因素,但测试员所期待的答案基本上是客观的,所
以差异不大。
其次,研究者从评分的相关角度,计算七个口试小组克龙巴赫a系数,
五个小组a系数比较理想(0.70-0.79);另三组中,一组偏低,其他两组偏高,该研
究结论是各组的评分者信度存在不一致性,信度不理想。
上海市教育考试院对2000-2004年上海市高考英语口语测试的信度进行了定量
研究,并得出结论:
上海市的高考英语口语测试有较好的信度(徐欣幸,2005)。
通
过一系列措施:
(1)给考生提供公平的考试条件;
(2)命题对不同场次的试卷的内容和
难度进行控制;(3)评分一致性的控制,减少误差,提高考试的信度。
测试信度比较
理想。
年份’20002001200220032004
.7079
Alpha信度系数.7385.7226.7278.7461
近几年,部分省、市的中考或高考等一些重大考试中新增了英语口试。
各地在
总结此项工作时,一般对测试效度、反拨作用进行比较详细的总结、分析。
至于口
语测试的信度,大多数地区的分析报告没有涉及,少数涉及的往往比较含糊,只是
简单定性的结论,一带而过,没有具体的数据统计与分析,因而缺乏说服力。
2.4影响评分者信度的因素
命题、施测、评分过程中有一系列的因素会影响口语测试的信度。
试题信度、
评分者信度、以及评分的操作方式都会影响英语口语测试信度。
作为主观性测试,
对测试信度影响最大的,应是评分者自身因素对测试评分者信度的影响。
2.4.1评分者自身因素
2.4.1.1评分者的语言观
a)口语测试的评价取向
在口语测试过程中,评分者的语言观直接影响者的测试观,影响评分者对测试
的价值取向。
首先表现在口语的准确性与流畅性之间、语言形式与语言内容之间的
取向。
流利程度与准确性使用时概念模糊,标准时常不一,严重时会对口语教学与测
试产生误导。
口语的流利程度即口语表达的流畅性,就是自然与恰当控制口语节奏
的能力。
第二语言流利程度差的描述是:
语速慢,且不恰当的停顿、犹豫和重复而
影响意义的表达。
口语的准确性指表达语言内容与运用语言知识的正确程度。
外语教学中一些关
于口语准确性的传统观念是不全面的。
一是过分注重语言知识与形式的正确性,忽略了恰当表达语言内容是准确性的主要方面,二是不重视日常使用的、不符合传统
语法的口语。
传统教学中,片面强调语言知识与形式(特别是语法)的准确性,忽
视语言内容与流利程度的教学,不注意口语的更新,影响了学生语言交际能力的全
面提高。
受上述的有些片面观念影响,有些评分者在评分过程中会下意识将这些观
念带入评分过程之中。
外语教学史上,语法翻译法强调语言的准确性,忽视流利程度,使学生缺乏实
际使用语言的能力。
听说法恰恰相反,注重语言的流利程度,对使用语言的准确性
不够重视,影响学生的语言交际能力。
文秋芳等人(2001)所著的《全国英语专业四级专业口试指南》一书中把口语
能力的内容分为三大块:
语言形式、语言内容和交际规则。
传统的英语测试仅仅注重考语言知识,只注意语音、语法、词汇,很片面的,
缺乏效度,因而信度也受到影响。
确定英语口语测试评分方法,拟写答案、评分标
准的时候,应从多方面来考虑。
特别要考虑语言的交际功能,考虑准确性
(correctness)、流利程度(fluency)和得体性(appropriateness)三个方面.
李筱菊(1997)是这样解释的:
“准确性指语言符合语法(广义的语法,包括
语音、语法、词汇)规则。
这只关系到语言形式系统本身。
流利,有些人以为就是
讲话讲得快。
其实这主要不是速度问题,而是效率问题。
流利就是能用语言熟练地、
不受拖延、不受阻滞地达到要达到的目的。
”“得体性,指所用的语言是否适合于
具体的语境和情景。
,按照这样的标准,可以从以下三方面要求,评价学生的口语能力。
(1)信息组织
是否合理,表达与交流是否流畅。
学生在组织语言进行表达时,可能有语法和词汇
方面的错误,影响表达的准确性,但基本信息应能得到有效传递;
(2)语音、语调和
节奏是否自然,是否能使对方听懂;③是否能使用恰当的交际策略。
口语表达中,
学生应能使用简单的交际策略,如重复、澄清、使用表情和手势等,使交流活动得
以顺利完成。
总体上看,初中英语口语测试强调准确性与流利性的结合,而不同题型对准确
性与流畅性有所侧重。
回答问题可以加强口语的准确性,自由谈话、讨论都能提高
口语的流利程度。
强调准确性与流利程度的结合,教学质量就能有显著提高。
对初学者而言,一开始重视准确性有利于打好牢固的语言基础。
过分强调流利
程度,不注意语言的准确性,可能会导致形成不良的语言习惯。
长期以来,口语教
学有重语言形式、轻语言内容与意义的倾向。
这些倾向都会对测试员的评分产生影
响。
(2)口语能力的技能构成
语言学家Wei雨日ygate(19如)认为口语能力由三种技能构成:
首先,语言微技能(micro-linguisticskills)。
指语言形式,包括:
语音、语法
和词汇等知识。
对语言的准确性,不宜过于苛求,否则会导致学生不开口。
但也不
能一味强调语言的交际功能,而忽视了语言的正确性,致使某些语言结构的错误固
化在学生的语言体系中,难以纠正。
同时要注意语言形式的多样性,通过口语的训
练,帮助扩大语言的词汇量和改进句子的结构。
不注意丰富词汇量和掌握多样的表
达方式,学生的口语水平只能停留在低层次水平上。
其次,常用表述技能(routineskills)。
指典型的日常交际用语和传递信息的技
能,其中包括:
①运用“问候、介绍、告别、感谢