美国当代英语语料库简介Word文档格式.doc
《美国当代英语语料库简介Word文档格式.doc》由会员分享,可在线阅读,更多相关《美国当代英语语料库简介Word文档格式.doc(7页珍藏版)》请在冰豆网上搜索。
美国当代英语语料库由包含4.5亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。
从1999年至2012年这五个部分以每年增加2亿词的速度进行扩充,以保证语料库内容的时效性。
语料库每年更新1~2次。
因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。
除了在语料上拥有其他语料库无法比拟的优势外,美国当代英语语料库还将语料和检索软件结合起来,帮助语言研究者方便、快捷地分析和研究语料。
现有的大部分语料库,如BNC等,不仅是有偿使用,而且使用者还需要会运用相关的计算机软件,如Wordsmith、Range、ParaConc等,才能分析语料和提取数据。
美国当代英语语料库做到了语料和检索工具的结合,其在线检索系统能帮助使用者观察英语词汇的使用规律,促进词汇自主学习。
在进入COCA语料库网址(http:
//corpus.byu.edu/coca/)之后,整个页面被一分为三,左边是语料库检索主界面(见图1);
右上方是信息栏,公布杨百翰大学语料库研究的新进展,包括新开发的语料库的链接和发布的著作;
而右下方则是使用者的信息注册区域。
注册用户使用时,右下方则显示语境共现索引行。
COCA语料库的检索主界面分为DISPLAY、SEARCHSTRING、SECTIONS、SORTINGANDLIMITS以及OPTIONS五个部分。
图1COCA语料库检索主界面
如图1所示,第一栏DISPLAY是表示检索结果的显示方式,共有四种选择:
LIST、CHART、KWIC和COMPARE。
LIST是将检索结果成行显示,而CHART则是将检索结果用更为直观的柱形图来表示。
KWIC(KeyWordinContext)也叫语境共现(Concordance),以检索词为中心,两端都有该词出现的语境,便于学习者观察该词的使用情况。
COMPARE则是用来辨析同义词,选择该项后WORD(S)部分会出现两个输入框,用来填写待比较的两个单词。
SEARCHSTRING一栏是检索的核心部分。
WORD(S)一栏支持直接检索,可以直接输入想要了解的词;
也支持高级检索,使用者可以点击WORD(S)一栏后的问号获取帮助,以便更好地设定检索项。
COLLOCATES一栏能够帮助学习者观察语言规律,找出与某个特定词汇最频繁搭配使用的词,对于深入掌握词汇有重要意义。
POSLIST则是用来限定搭配词的词性,以帮助锁定与某个特定单词搭配使用的某一类词。
SECTIONS一栏对检索结果作出了限制,在SHOW前面的方框内打钩,表示在检索结果中显示不同文体的组成比例。
如果在下方的方框内选择IGNORE,则表示忽略文体差异。
该方框内的选项设置非常灵活,能最大程度地帮助研究者进行特定领域内的检索。
研究者可以按照COCA的五大基本文体来圈定检索范围,也可以以某一个特定时间段为范围显示检索结果,甚至锁定COCA中某一特定话题,如在关于运动的新闻或者涉及教育的学术性文章中进行检索。
SORTINGANDLIMITS一栏则对检索结果进行排序和限制,以更加直观地呈现检索结果。
SORTING有三种选择,分别是频率(Frequency)、相关度(Relevance)和字母顺序(Alphabetical)。
MINIMUM一栏则通过对频率或者互信息(MutualInformation)作出最小值限定来排除干扰性检索结果。
互信息是信息论中的概念,是指一个词的出现为另一个词提供的信息量。
单词之间的互信息值被用来衡量其相互联系的紧密程度,联系越强,互信息值就越大,一般认为3以上的数值有显著意义(张晨、祁坤钰,2009)。
OPTIONS一栏是可选项,通常处于隐藏状态,点击OPTIONS后展开可选择项,可以对出现在检索结果中的最低频率数和每个页面中所提供的语境共现索引行的数量作出限制。
此外,也可以选择按照具体单词、词目或者是词性来排列检索结果。
二、基于COCA语料库的词汇检索技术
笔者拟以COCA语料库为例揭示利用语料库进行词汇自主学习的方法和技巧。
1.简单检索实例
如果要观察某一个具体单词的用法,采用COCA主界面的基本查询就足够了。
查询者可以勾选KWIC一项,然后将所要查询的单词输入WORD(S)一栏,便可以检索到该词的用法。
此外,查询者也可以使用高级检索来进行模糊查询。
例如,在检索框内输入“[vvg]”(注:
引号内的内容为检索输入项。
下同),表示查询所有动词的现在分词形式。
检索结果显示,在COCA语料库中,按照使用频率高低排列的前10个动词的现在分词分别为going、trying、looking、making、getting、using、saying、coming、working和talking。
或者,学习者试图了解动词draw的各种屈折变化,可将“[draw]”输入检索框中,表示查询以draw为词目的各种不同用法,检索结果按照出现频率高低分别为draw、drawn、drew、drawing、draws和drawed。
检索结果的最后一项是drawed,点击该词可得到其相关信息,该词在4.5亿词的语料库中总的出现频率为21次,多用于小说类文体中,并且从2008年以后该词一次也没有出现过。
2.搭配检索实例
记住了一个单词的读音、拼写和意义并不意味着能在口语和写作中灵活运用。
教师要有意识地向学生提供单词在英语中最地道的用法。
例如,要表达“下雨”这个概念,需要了解与rain一词频繁搭配使用的动词,教师可以进行如下操作:
在DISPLAY一栏中选择LIST,然后在WORD(S)一栏输入“rain.[n*]”,表示检索语料库中所有作为名词使用的rain;
接下来在COLLOCATES一栏设定与其搭配词的词性,可点击POSLIST,在出现的选择项中选择“verb.ALL”,COLLOCATES一栏就会自动出现“[v*]”,将后面的数字框分别选择为0和4,表示检索与rain连用的以该词为中心右边4个词跨度内的所有动词。
此外,对于检索结果的显示也要进行设置,如果在SORTINGANDLIMITS一栏选择按照频率排序,排名靠前的都是些BE动词或者是助动词,无法体现与rain搭配的实义动词的使用情况。
因此,在排序时应该选择按照相关度排列查询结果。
选择RELEVANCE一项,表示查询结果将按照互信息值排列。
此外,为了使检索结果呈现的是与rain连用的搭配词,而不是搭配词的各种屈折变化形式,如现在分词、过去式、过去分词等,还需要在OPTIONS中将检索结果设定为按照词目排序。
从表1中可以观察到与rain连用的动词主要有pelt、patter、slacken、sluice、drench、splatter和spatter等。
查询结果按照互信息值高低排列,以互信息值最高的pelt一词为例,该词在整个COCA语料库中出现的总频率为1560次,与名词rain在右间隔0~4词跨度内搭配出现的频率为114次,%一栏表示这种共现频率与pelt一词在语料库中出现的总频率的比率是7.31%。
也就是说pelt一词在COCA语料库中出现在名词rain右边4个词跨度内的可能性是7.31%,这包括了pelt的各种时态用法。
使用者可以点击表1中FREQ下面的数字观察该搭配词的语境共现索引行,了解其具体用法。
表1与名词rain连用的动词情况
FREQ
ALL
%
MI
1
PELT
114
1560
7.31
8.36
2
PATTER
40
599
6.68
8.23
3
SLACKEN
18
332
5.42
7.92
4
SLUICE
10
305
3.28
7.20
5
DRENCH
31
1092
2.84
6.99
6
SPLATTER
1135
2.73
6.94
7
SPATTER
19
953
1.99
6.48
8
SLEET
12
629
1.91
6.42
9
DRIP
82
5875
1.40
5.97
DAMPEN
17
1413
1.20
5.75
3.同义词检索实例
同义词辨析是外语教学中的一大难题。
传统的英语同义词辨析方法效率低,效果差(杨节之,2007)。
COCA语料库能通过提供大量的实例帮助使用者发现两个同义词之间的差异。
例如,要区别动词cheat和deceive,可通过如下操作实现。
在DISPLAY一栏中选取COMPARE,然后在SEARCHSTRING的WORD(S)一栏中输入“[cheat].[v*]”和“[deceive].[v*]”,表示检索这两个词作为动词的用法,在其搭配项中限定搭配词为名词,词距长度为3。
从检索结果可以看到cheat的用法更为普遍,与其搭配使用最多的名词分别是wife和husband,表示用不诚实的手段得到需要的东西;
而deceive经常与public、world、people等词连用,表示用谎言使人相信虚假的东西,隐瞒事实。
三、基于COCA语料库的关系数据库的词汇检索技术
基于COCA语料库中大规模的语料,以词频和搭配为核心开发的关系数据库(http:
//www.wordandphrase.info)更加直接地提供了被检索单词在英语中的使用情况,确保教师传授的是该单词当前的主流用法。
作为COCA语料库的有益补充,WORDANDPHRASE关系数据库不仅可以提供检索对象的定义、搭配以及在不同时期不同文体中的使用频率,还可以分析整个语篇,评估和了解其词汇特征和难易度等。
1.基于频率的独立词汇检索
Ellis(2002)指出语言处理模式与输入内容的频率高低密切相关。
他从音系学、形态句法学、拼写、阅读、词汇、语言理解、程式化表达等各个方面阐述了高频率的输入对语言习得的促进作用。
基于美国当代英语语料库的关系数据库以频率为基准排列语料检索结果,能够帮助使用者有的放