初中英语口语测试信度研究.docx

资源描述

初中英语口语测试信度研究.docx

《初中英语口语测试信度研究.docx》由会员分享，可在线阅读，更多相关《初中英语口语测试信度研究.docx（69页珍藏版）》请在冰豆网上搜索。

初中英语口语测试信度研究.docx

初中英语口语测试信度研究

第一章引言

1.1理论背景

社会生活的信息化和经济的全球化，使英语的重要性日益突出。

英语作为最重

要的信息载体之一，已成为人类生活各个领域中使用最广泛的语言。

许多国家在基

础教育发展战略中，都把英语教育作为公民素质教育的重要组成部分，并将其摆在

突出的地位。

改革开放以来，我国的英语教育规模不断扩大，教育教学取得了显著的成就。

然而，英语教育的现状尚不能适应我国经济建设和社会发展的需要，与时代发展的

要求还存在差距。

主要表现在学生实际语言运用能力的薄弱，尤其表现在口语能力

方面（邵永真，1998;马天泽，1998;井升华，1999;姜澎，2001）。

口语能力较弱有语言学习固有特点的所造成的客观原因。

有研究表明，在听、

说、读、写四种语言技能中，说的技能最难掌握。

语言学家海霍（Hayhoe,R）认

为:

听、说、读、写从易到难的顺序应该是读一写一听一说.‘读是最容易的，说是

最难的。

（转引自贾冠杰，1996）

韩晓惠（1998）的调查表明:

30“个受调查者中，大多数人认为即使在英语学

习上花费了多年时间，英语口语仍然是最难掌握的能力。

邱东林、季佩英（2004）

对复旦大学2002级学生入学时的口语水平进行了抽样调查，在调查的408名学生中，

52%的学生认为最薄弱的技能是说。

上述事例虽然反映大学生英语口语能力状况，但实质上是国内（大中小学）英

语教学存在的共性问题。

整个社会大环境对学生的口语能力普遍感到不满意，对学生英语口头表达能力

较弱提出了强烈批评，自然会引出对英语测试的批评。

刘润清（2000）认为，“在听、说、读、写四种语言技能中，说的技能无论怎

么强调恐怕也不过分，因为学习语言的最终目的是把它作为一种工具来进行交际，

而交际首先指的是口头交际。

语言教学今天所强调的文际教学，首先是口头交际。

从社会对外语人才的需求来看，一个人的口语能力无疑是十分重要的。

所以说，没

有口语测试的语言测试是不全面的，或者说不能称其为语言测试。

”科学的语言测

试包括口语测试。

，全社会已经充分认识实施口语测试的重要意义，因而提出了加强英语口语教学

和口语测试的强烈的呼声。

由于各种原因，在过去相当长的一段时间，无论是教学还是考试，对于口语考

试都没有给予足够的重视。

当前义务教育阶段的英语课程特别强调培养学生的口语能力。

《课程标准》对学生的英语口语技能有明确的要求;按照《课程标准》编写的

各种版本的教材从内容设计到建议的教学方法也都非常重视学生的口语能力。

当前

快速发展的社会需求对英语学习者的口语能力也提出了一定的要求，进行口语考试

的环境和条件正在逐步形成。

从外语教学所走过的历程看来，每次重大改革起关键

作用的就是考试这根强效的指挥棒。

口语测试的重要性在于它对口语教学所具有的

极其重要的反拨作用，促进口语教学的发展。

1.2现实背景

江苏省教育厅1999年15号文件《关于改革和加强中小学外语教学的意见》（以下

简称《意见》）要求重视英语考试方法的研究和改革。

《意见》认为“从全省范围来

看，外语考试中‘重知识，轻能力;重笔试，轻口试和听力测试’的问题仍较突出，

严重制约了外语教学的改革和外语教学效益的提高。

因此必须进一步研究和改革考

试方法。

”《意见》明确提出，从2000年起，江苏省实行中学生英语口语等级测试制

度，着重考查学生的口头表达能力。

教育部2001年制订的九年义务教育全日制初级中学《英语教学大纲》（试用修

订版）第五部分“教学评价”中提出:

“终结性评价的方式应包括听力、口试等在内

的期中、期末考试等。

“一考试形式要包括听力测试、笔试和口试。

”全日制义务教

育普通高中《英语课程标准》（实验稿）第四部分“实施建议”也指出:

终结性评价

（如期末考试、结业考试等）是检测学生综合语言运用能力发展程度的重要途径，

也是反映教学效果、学校办学质量的重要指标之一。

终结性评价必须以考查学生综

合语言运用能力为目标，力争科学地、全面地考查学生在经过一段学习后所具有的

语言水平。

测试应包括口试、听力考试和笔试等形式，全面考查学生综合语言运用

能力。

1.3存在的问题

口语测试属于主观性测试。

作为主观性考试，口语测试能够有效地测试、评估

学生的运用英语进行口头表达的能力。

与其他几种语言技能测试相比，口语测试是

最难进行的。

由于对测试结果的评判是主观性的，对考生口语水平的评价取决于测试员的

主观判断，要求测试员更多地应用主观判断能力，而他们的业务水平、测试经验和

个性特点等方面存在差异，这些差异必然影响测试员的判断并反映到所评的分数上，

评分标准的掌握很难完全一致。

甚至同一测试员也会受多种因素影响，对评分标准

的控制缺乏稳定性，同一测试员者对同一口语测试样本在不同时间也会做出不同的

判断。

因此，过去“许多教师和测试专家都承认，口语测试评分很难做到客观公正。

根本原因是其中要注意的成分太多，而且无法进行定量分析。

”（刘润清，1991）

GillianB~和GeorgeYule（1983）也指出:

一直以来，英语老师为口语能

力评价伤透脑筋。

即使许多非常成熟的考试也没有口语测试，似乎只有用书面考试

的形式，才能对语法、词汇进行准确评价。

希顿（1988）认为口语测试对教学产生积极的反拨作用，有利于促进教学，

促进学生口语能力的提高，应该尽可能坚持。

但是，他也认为口语测试可能没有信

度（信度低）.

上述观点主要认为口语测试评分主观性强，信度难以得到有效保证，因而阻碍

口语测试的广泛实施。

为了提高口语测试的信度，使测试结果更加公平、公正，提高口语测试对外语

教学的反拨作用，有必要对口语测试中评分者信度及其影响因素进行研究，以促进

口语测试及中小学英语教学健康发展，推动课程改革顺利实施。

1.4章节安排

本文共分为六部分，包括:

引言、理论基础与文献综述、研究问题与设计、研

究过程、结论与建议、结语。

第一章在英语教育教学改革的背景下，从研究的理论

现实背景和存在的问题，论述了研究口语测试信度研究的意义。

第二章介绍了口语

测试信度研究的基本概念、分类以及计算方法，比较详细地论述了影响评分者信度

的相关因素，以及国外内已有的研究与实践。

第三章简要介绍研究的问题和使用的

工具、数据分析方法。

第四章详细论述了如何保证试题信度、创造公平的测试条件

重点就测试员的选择与培训、测试的监督机制、测试过程的细节安排等过程充分论

述提高评分者信度的实践过程。

第五章讨论了本次研究的成果及其对口语测试研究

的意义，并就进一步提高初中口语测试质量提出了一些建议，也思考提高本研究深

度与广度的改进意见。

第二章理论基础与文献综述

2.1语言测试的发展阶段

国内学者（文秋芳、杨惠中等）一般把语言测试的发展大致分为三个阶段:

前科

学时期（（Pre-scientificPeriod）,结构主义语言学时期（ThePeriodofStructural

Linguistics）和交际法语言测试时期（CommunicativeTestingPeriod）。

从口语测试信

度角度分析，这三个阶段表现出如下特点:

2.1.1缺乏信度和效度、无口语测试的阶段

前科学时期（（19403以前）的测试以传统对比语言学（Traditional&Comparative

Linguistics）为理论基础。

以HermannPau.为代表的语言学家认为:

书面语言是最纯

净的，而口头语言是第二性的。

这一时期的考试只有书面测试，考试方式以翻译、

写作为主，没有口语测试。

因为这一时期的考试没有明确的理论指导，与练习没有

明确区分，缺乏信度和效度，称为前科学时期。

2.1.2注重口语的准确性和技能的熟练性的阶段

这一阶段为结构主义语言学时期，指1950至1960年。

这一时期的结构主义语

言学认为:

语言是由语音、词汇、语法构成的一个系统，这一系统是可以分解的。

因

此，可以设计出离散的题目（discreteitems），以逐项测验学生是否掌握了这些分解

的元素。

结构主义测试的典型题型为多项选择题。

行为主义心理学对这一时期的语

言学习、测试理论也有较大影响。

行为主义心理学认为语言是一套习惯，语言测试

就是对这种习惯的客观、科学的评价。

这一时期口语测试开始出现，但由于“结构

主义测试深受行为主义心理学的影响，强调测试的科学性、准确性和可靠性”（文秋

芳，1999）。

而口语测试从测试方法到评分标准都不可避免地受人的主观影响，被认

为是不客观，不科学的，因而不受重视。

这一时期的口语测试的题型为了能符合行

为主义的科学、客观的要求，以朗读（readingaloud）、复述（retelling），补全对话

（completingdialogue），看图说话（picture-cuedconversation）、口头报告（individual

presentation）和问答（answeringquestions）为主.结构主义口语测试通常采用的模

式为单向表达和双向单回合表达，比较机械，而缺乏真实性和交际性。

其评分方法

通常采用从语音语调、语法、词汇、流利程度和内容等方面项目打分的分析法。

结

构主义口语测试评分的侧重点是语言的准确性和技能的熟练性（文秋芳，,1999）.

2.1.3重视交际功能阶段

二十世纪八十年代，口语测试进入交际法语言测试时期。

“自七十年代中期起，

语言测试界开始重视所谓总体综合法的研究”（Alderson,2000）。

这一时期被称为语言测试的心理语言学和社会语言学时期（Psycholinguistic-sociolinguisticera）”.

英国的语言学家韩礼德（（Halliday）提出了语言的七项基本功能:

工具功能（（the

instrumentfunction）、调节功能（（theregulatoryfunction）、代表功ft（the

representationfunction）、互动功能（（theinteractiionalfunction）、个性功能（（the

personalfunction）、启发功能（（theheuristicfunction）、想象功能（（theimaginative

function）。

自此，人们对语言的功能，特别是交际功能的研究越来越重视，交际法

测试理论也随之出现。

交际法测试理论指出，掌握一门语言指在一定的语境中能够

使用所学语言进行有效的交际、交流思想，达到互相沟通的目的.巴克曼（LyleF

日achman）的交际语言能力模式（Bachman,1990）被国际语言测试界广泛接受.

口语作为最基本的交际方式，因而这一时期的口语测试受到了越来越多的关注。

比较两个阶段的口语测试，可以发现他们不同的特点。

结构主义口试的最大优

点是:

命题容易，对测试员本身的英语水平要求不高，评分相对客观、可靠。

而交

际性测试能准确反映学生的交际能力，体现交际的真实性和交互性，但是命题和评

分方法不易实施。

也就是说，结构主义的口试信度可以更好的控制，而交际性测试

的效度会更理想一些。

在我国现阶段的实际外语教学中、外语测试中，没有绝对的结构主义、交际性

口试之分。

由于我国的现实条件和已有传统，这两种测试方式是混杂在一起的。

结构主义口试以测试说的技能以及与说相关的项目技能为宗旨，试题通常比较

机械、呆板，脱离语言环境，缺少信息交流，但评分比较客观、可靠。

江苏省中学

生英语口语等级测试、上海市高考英语口试都是比较典型的结构主义口试。

2.2口语测试的信度

与其他学科一样，外语测试传的统评价标准是信度（reliability）、效度（validity）

难度（difficulty）、区分度（discrimination）、可行性（practicality）和反拨作用

（backwasheffect）。

20世纪90年代以来，根据教育测量学和外语测试的特点，一

些专家指出，外语测试的评价应增加真实性、互动性等内容。

然而，外语测试界一

致认为，信度、效度与可行性仍是评价测试的主要标准。

2.2.1测试的信度

考试的信度是指考试测量学生语言能力一致性的程度，是测试结果的可信、可

靠的程度，即考试结果不受考试时间、监考人员、场地等因素的影响。

著名心理测

验专家阿纳斯塔西（1996）给信度下的定义是:

同一个人在不同场合参加同一测试

或参加内容与难度相当的不同测试其成绩保持一致的程度。

刘润清（1991）认为语言测试的信度是指考试结果的可靠性和稳定性。

而左焕琪（2002）则认为信度的基本概念是避免测试误差的程度。

徐强（（2000）从操作的角度，就如何判断信度下了定义:

信度是指同一考生在

不同的考试条件下（如不同的考场、不同的考官）参加同一项考试后所达到的分数

是一致的。

信度是测试的分数所反映的被试的表现的可信、可靠程度。

信度高的测试，有

很好的一致性（consistency）和稳定性（stability）。

讲信度必须有比较，无比较则无信度可言，例如比较若干次测试的结果（分数）。

大量测试实践表明，像TOEFL这样的考试，信度很高，一致性和稳定性好。

尽管对测试信度的语言表述不同，一致性、稳定性与可靠性是测试信度的本质

特征。

2.2.2评分者信度

在口语测试等主观性测试中有多个评分者，他们在评分过程中不可避免地受到

主观因素的影响，对试题答案、评分标准常有不同的判断，从而导致标准不统一而

产生误差。

因此评分者信度研究就是针对评分者所评分数进行探讨，最大限度提高

，评分准确性和一致性，减少评分者主观因素对分数客观性的影响。

王孝玲（1989）认为，评分者信度是两个或几个评分者之间对同一组测试结果

评定的一致性程度。

就口语测试而言，评分者信度指口语测试中，两个或几个测试

员之间对同一组测试结果评定的一致性程度。

’2.2.3评分者信度的分类

评分者信度（scorerreliability）可分为两类:

评分者之间信度（inter-scorer

reliability）和评分者自身信度（（intea-scorerreliability）.对于大规模语言测试来说，

还有评分点之间信度（（Inter-centerreliability），大规模考试的评分点不止一个.就

口语测试而言，评分者之间信度指不同评分者对同一口试样本是否给出同一个正确

的分数;评分者自身信度指同一评分者对同一口试样本在不同场合出现是否判定同

样的分数。

2.2.4信度的计算方法

‘

（1）再测信度（Test-retestreliability）

将同一份试卷两次测试同一批考生，两次测试间隔一段时间，考生在间隔期间

受到平等影响，即他们在语言能力上的进步基本一致，那么，通过两次测试结果的

相关分析得出该测试的再测信度。

再测信度的主要缺点是两次测试之间产生的一些因素。

如果间隔时间太短，被

测试者对第一次的内容还有一定记忆，会提高第二次测试的答题能力，从而影响测试结果的稳定性。

如果两次间隔时间过长，考生水平进步明显不一致，也会影响测

试结果的稳定性。

（2）复本信度（Alternate-formreliability或parallel-formreliability）

同一组被试者在复本测试（复本测试指测试性质、内容、题型、难度等方面一

致或相等的两份或多份考试）所得结果相关系数就是复本信度。

使用复本信度的问

题是技术上难以使两套（多套）测试试题内容与难度完全相当。

在重大考试中，计算再测信度和复本信度的条件不具备，因此，随着时间的推

移，这两种计算信度的方法已经很少采用。

（3）内在一致性信度（Internalconsistencyreliabil勺）

内在一致性信度是检验一个考试内部试题一致性的程度，内在一致性信度从一

次测试的内部计算信度系数（reliabilitycoefficient），避免两次测试的弊端。

2.2.5评分者信度的计算方法

传统的的评分者一致性计算方法主要有: