桂诗春杨惠中语料库Word格式.docx
《桂诗春杨惠中语料库Word格式.docx》由会员分享,可在线阅读,更多相关《桂诗春杨惠中语料库Word格式.docx(97页珍藏版)》请在冰豆网上搜索。
VII.言语失误表
I.中国学习者英语语料库
一.导言
中国学习者英语库(ChineseLearnerEnglishCorpus,CLEC)是国家社科基金95规划项目“基于语料库的中国学习者英语错误分析”(Corpus-basedAnalysisofChineseLearnerEnglish,CBACLE)的一个重要组成部分。
本书所载的是CLEC的各种统计资料和列表;
对中国学习者英语错误的各种分析另收集在《中国学习者英语错误分析》一书里。
两书为姐妹篇,供读者互相引证。
表1.1语料库研究方法
的发展
时期
研究数目
To1965
10
1966-1970
20
1971-197s
30
1976-1980
80
1981-1985
160
1986-1991
320
在某种意义上说,语料库语言学是一种研究方法;
而这种研究方法是借助计算机来实现的,故Leech(1998a)主张把语料库语言学(corpuslinguistics)说成是计算机语料库语言学(computercorpuslinguistics)。
随着计算机的普及和现代技术(高速的中央处理器、精密的扫描仪和字母识别程序、大容量硬盘等等)的发展,这种研究方法在最近20~30年有了很大的发展。
McEnery&
Wilson(1996)对使用语料库方法来进行语言学研究的发展归纳如表1.1。
根据英国Lancaster大学Taylor,Leech&
Fligelstone等人在1989年的统计,英语的机读语料库当时已有36种,非英语的有18种。
Hofland等人(1999)更把18个大型的英语语料库制成ICAME(InternationalComputerArchiveofModernEnglish)英语语料库光盘(第二版),公诸于世。
语料库方法可以广泛地应用在语言学的各个领域(句法学、语音学、语义学、语用学、社会语言学、心理语言学、应用语言学,等等)。
语料库和语言教学有密切的关系,它成为1994年ICAME年会的主题,1997年由Wichman等人将论文编辑为《教学与语言语料库》(1997)。
根据Leech(1997)的说法,语料库运用到教学可以是直接的(如对学习者讲授语料库语言学、教他们使用语料库、利用语料库进行教学,等等);
也可以是间接的(如编辑词典、编写教材、语言测试,等等)。
Leech还提出编写专门用途英语语料库、母语和二语语言发展的语料库、双语和多语语料库,以进一步探索语料库对教学的作用。
二语语言发展的语料库也可称为学习者语料库(以后均略为LC,learnercorpus)。
Granger(1998)所编著的《计算机上的学习者英语》收录了15篇关于LC的论文,体现了语料库语言学研究者近年来探索在语言教学中使用语料库的各种努力。
LC还可分为有标注(tagged)和无标注(untagged)两种,而有标注的LC还可以从不同的角度进行标注。
从语法角度的标注叫做语法标注(grammaticaltagging),主要是对词类(partsofspeech,POS)标注;
现在已经可能根据概率的原则,用计算机来进行自动化处理,准确率最高达95~97%。
另一个角度从学习者的言语失误来标注,叫做失误标注(errortagging)。
它需要由人工进行,难度大而工作繁重,所以尽管有一些人在做这方面的努力,到目前为止,还未有一个对言语失误进行标注的LC正式问世。
我们所建立的100万词的CLEC组织了一批教师对言语失误进行标注,体现了一种很有意义的尝试。
它现在已经放在因特网上供教师试用,希望能获得反馈,以作进一步的改进;
我们更希望教师们利用语料库所提供的信息,对中国学习者英语特点和英语失误进行探索,产生更多的研究成果,推进我国的英语教学。
根据Leech(1998b)的说法,建立LC的目的是:
∙比较LC和以目标语为母语的语料库(以后均略为ECNS,EnglishCorpusofNativeSpeakers),看有哪些语言特征是超用的(overused)或少用的(underused)的?
∙学习者的母语在多大程度上影响了他们使用目标语的行为?
∙学习者的目标语在哪些方面达到或未达到目标语的说话人的言语行为?
∙学习者有哪些主要方面(按照频数)未能符合目标语说话人的言语行为而需要特别的帮助?
这意味着我们需要从两个方面来分析学习者语料:
一个方面是对比分析LC和别的ECNS的异同,我们选择了美国英语的Brown语料库和英国英语的LOB语料库,因为这两个语料库的数目都是100万个词左右,而且我们的学习者有的学美国英语,有的学英国英语。
但是这两个语料库反映的是60~70年代英语使用情况,所以我们也尽可能使用Frown和FLOB来进行对比。
这两个语料库是德国Freiburg大学根据Brown和LOB两个语料库的采样方案收集90年代美国和英国英语语料建成的语料库。
另一个方面是分析LC的言语失误,这是他们言语行为偏离目标语说话人的主要方面。
应该说明的是学习者的语料偏离ECNS有许多方面,例如语言风格、文化色彩和母语影响等等,我们一下还未能对它们进行标注。
因为对它们的标注有争议,而且带有较强的主观成分;
而我们参与标注的人较多,难以统一。
但我们的语料库一旦公诸于世,研究者就可以根据自己的需要对失误进行再分类和再标注,以便根据特定需要作更深入的研究。
二.CLEC的建立
5.样本的选定
表2.1CLEC语料分布
类型
词次
ST2
208088
ST3
209043
ST4
212855
ST5
214510
ST6
226106
总计
1070602
LC和ECNS最主要的不同是学习者本身是有差异的,他们语言发展居于不同的阶段,所以样本必须来自不同发展阶段的学习者。
而制订ECNS抽样方案则考虑文体类型(genre)而不是语言能力。
学习者的写作能力只是停留在“一般的”英语(例如我们不能期望我们的学习者去写小说、社论、科技文章,而这些类型是一般ECNS都有的)。
从整体上看,我们所建立的LC基本上是同质的(homogeneous),都是中国的英语学习者;
从分体上却是异质的(heterogeneous)的,他们处于不同的发展阶段。
我们定为5个阶段,如表2.1:
a)中学阶段,主要是高中生,因为初中生还没有写作课。
代号为st2。
b)大学英语4级,大学1~2年级非英语专业学习者,多数学习者将参加CET4级考试。
代号为st3。
c)大学英语6级,大学3~4年级非英语专业学习者,多数学习者将参加CET6级考试。
代号为st4。
d)英语专业1~2年级学习者。
代号为st5。
e)英语专业3~4年级学习者。
代号为st6。
整个语料库的语料有100万词,每一类型的学习者的语料为20万词。
为了避免学习者在考试时往往采取回避策略(strategyofavoidance),避免写一些没有把握的东西,因此语料采样应不仅来自考试的试卷,还应来自课内外的作业。
前者称为试卷作文,后者称为自由作文。
由于采样和录入的困难,目前的语料库严格来说是书面英语的语料库。
但是初级的英语学习者不会在语体上区别目标语,所以他们所写的往往就是他们要说的话。
6.样本的处理
样本的处理在LC里也是比较特殊的。
一般的语料库可以通过扫描仪和光学字母识别程序来建立,十分方便。
但是我们的样本都是学习者的手写文字,需要组织专人来输入,而且还要找人来校对,以免出错。
我们的处理程序如下:
a)选好样本。
b)输入样本。
c)校对。
d)对言语失误进行标注。
e)对标注进行统一。
统一最好由一个人进行,使标准得以统一。
但语料太多,我们最后由三个人把失误类型分为三大部分来进行统一。
f)对语料库和言语失误进行统计分析。
g)建立语料库索引检索器(concordancer)。
h)将语料库索引检索器和整个语料库放在因特网上试用。
i)将语料库的统计数据公开发表。
7.言语失误分类表的制订
对语料库中的学习者的言语失误进行标注是本语料库最主要的特点。
在制订言语失误分类表前我们考虑了几条编制原则:
a)简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:
词形、动词短语、名词短语、代词、形容词短语、副词、介词短语、连词、词汇、搭配、句子。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
b)分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误;
过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细,对少见的失误从粗。
现在的分类表有61个失误码,是属于中等规模的分类表。
c)提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如Inthepast,peopleare[vp6,4-]kindtoeachother…,失误用方括号表示,放在失误之后。
[vp6]Inthepast,peopleare[vp6,4-]kindtoeachother……,[vp6,4-]are为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断areare这个词用错了。
d)开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
e)对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
表2.2言语失误分类表总数:
61
词
形
动词
短语
名词
代
词
码
fm1
Spelling
vp1
pattern
np1
pr1
Reference
fm2
wordbuilding
vp2
setphrase
np2
pr2
anticipatoryit
fm3
capitalization
vp3
agreement
np3
pr3
Agreement
vp4
finite/non-finite
np4
case
pr4
Case
vp5
non-finite
np5
countability
pr5
wh-
vp6
tense
np6
number
pr6
Indefinite
vp7
voice
np7
article
vp8
mood
np8
quantifiers
vp9
modal/auxiliary
np9
otherdeterminers
形容词