语料库-入门PPT推荐.ppt

上传人:b****1 文档编号:14135453 上传时间:2022-10-19 格式:PPT 页数:71 大小:6.98MB
下载 相关 举报
语料库-入门PPT推荐.ppt_第1页
第1页 / 共71页
语料库-入门PPT推荐.ppt_第2页
第2页 / 共71页
语料库-入门PPT推荐.ppt_第3页
第3页 / 共71页
语料库-入门PPT推荐.ppt_第4页
第4页 / 共71页
语料库-入门PPT推荐.ppt_第5页
第5页 / 共71页
点击查看更多>>
下载资源
资源描述

语料库-入门PPT推荐.ppt

《语料库-入门PPT推荐.ppt》由会员分享,可在线阅读,更多相关《语料库-入门PPT推荐.ppt(71页珍藏版)》请在冰豆网上搜索。

语料库-入门PPT推荐.ppt

为何要用语料库方法研究语言并将其运用于语言学习?

Example:

Startorbegin?

在口语中哪个更常用?

我们的老师经常说Letsbegin!

之类的话,对吗?

但有人在BNC等语料库中查到,在口语中,start更常用。

语料库的方法基于真实的语言使用情况,事实胜于雄辩,我们通过对语料库的检索结果进行分析,可以找到很多问题的答案,例如:

“学知识”在英语中是“studyknowledge”吗?

“快速导航”翻译成“fastguide”对不对?

“只为点滴幸福”这句广告语,对应的英文翻译是“Littlehappinessmatters.”吗?

为何“ThebadweathersetinonMonday.”是正确的,但“ThegoodweathersetinonMonday.”却是错误的?

“快速导航”翻译成“fastguide”对不对?

上海世博会英文网站,在口头表达、写作或翻译中如何确定某些用法是地道的?

学习者一般要有多大词汇量才能读懂英文报纸?

哪些是商务英语中最常用的单词和短语?

某种考试中,哪些单词、词组或其他语言现象出现的频率特别高?

如何通过量化统计来分析文学作品的写作风格?

以上问题也许在词典或语法书这样的工具书中是无法找到答案的,但语料库能为我们提供方便快捷的解决方案。

语料库可以辅助EFL学习的各个方面,如词汇、语法、阅读、语体分析、翻译、口语、写作、测试和西方文化学习等。

具体来说,本书中语料库辅助EFL自主学习的方法(简称为“语料库方法”)主要指以下三种:

(1)直接在权威的语料库中查询语言和文化现象,如英国国家语料库(BNC)和美国当代英语语料库(COCA);

(2)利用语料库软件进行文本分析,如AntConc和Range;

(3)利用其他基于语料库的网站进行学习,如JustTheWord和SketchEngine。

TypesofcorporaGeneralcorpus通用语料库Annotated标注corpus:

acorpusenhancedwithvarioustypesoflinguisticinformation(ortaggedcorpus).Anannotatedcorpusmaybeconsideredtobearepositoryoflinguisticinformation,becausetheinformationwhichwasimplicitintheplaintexthasbeenmadeexplicitthroughconcreteannotation(“addedvalue附加值”).,语料库语言学常用术语,Monolingual单语corpus:

acorpuswhichcontainstextsinasinglelanguage.Multilingual多语corpus:

acorpuswhichrepresentssmallcollectionsofindividualmonolingualcorpora(orsubcorpora)inthesensethattheyusethesameorsimilarsamplingproceduresandcategoriesforeachlanguagebutcontaincompletelydifferenttextsinthoseseverallanguages.Parallel平行(aligned)corpus:

amultilingualcorpuswheretextsinonelanguageandtheirtranslationsintootherlanguagesarealigned,sentencebysentence,preferablyphrasebyphrase.,语料库语言学常用术语,Token形符:

anindividualwordType类符:

wordform.指不重复计算的形符数。

Iseeacatandadogcontainsseventokensbutonlysixtypes(thetypeaoccurstwice).ThesentenceRoseisaroseisaroseisarose.waswrittenbyGertrudeSteinaspartofthe1913poemSacredEmily.,语料库语言学常用术语,type/tokenratio(TTR)类符/形符比,形次比Rose句的TTR:

4/10*100=40TTR是衡量文本中词汇密度的常用方法。

可辅助说明文本的词汇难度。

但是,文本中有大量功能词(functionwords,如the、a、of等)反复出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。

这样文本越长,功能词重复次数越多,TTR会越低。

因此用TTR衡量词汇密度就不合理。

语料库语言学常用术语,standardizedtype/tokenratio标准化类符/形符比例如,计算每个文本每1000词的TTR,均值处理,得出STTR,语料库语言学常用术语,Frequencies/occurences(频数,出现次数)Frequency(频率)例如每一百万词、十万词中,某单词的出现次数常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个语料库中的该单词的使用上是否有差异,语料库语言学常用术语,Lemma词目在英语语料库文本中,一些实词有大量的屈折形式(inflections),如go这一动词就有go,goes,went,going,gone共5种不同的屈折变化形式。

go就是词目。

在分析语言时,如果把那5种形式作为5个词来看待,就有可能显得不妥。

因此需要将它们全部归并到go名下。

这个过程叫词目归并或词形还原(lemmatization).有专门的软件根据词形还原表,自动对文本进行词形还原。

Keywords关键词Keywordsarewordswhosenormalizedfrequencyinonecorpus(observedcorpus)issignificantlyhigherorlowerthanthatinanothercomparablecorpus(referencecorpus).Positivekeywordsandnegativekeywords,语料库语言学常用术语,Concordance索引(又称“语境中的关键词,KeyWordInContext,KWIC”)指的是运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出AntConc、WordSmithTools等检索软件,语料库语言学常用术语,何谓语料库检索,Concordancersaredevelopedtoproduceconcordancelinesofaspecificstringoftext.WordsmithToolsAntConcManyothers,语义韵semanticprosody,褒义、贬义例如,通过查询语料库,我们发现cause后面的名词,多为贬义,词汇的语义韵(semanticprosody)类似我们经常说的褒义、中性和贬义等色彩,大体可分为积极语义韵(positiveprosody)、中性语义韵(neutralprosody)和消极语义韵(negativeprosody)等类型(Stubbs,1996)。

例如汉语中的“广大”不能与含贬义的词搭配,我们不能说“广大犯罪分子”,只能说“广大人民群众”等。

英语中像happen、incur、utterly和commit这样的词会搭配一些具有显著消极意义的词,而career和provide这样的词则会搭配一些有显著积极意义的词。

这些特殊的节点词总是习惯性和某一类拥有相同或者相似语义特点的词语共现,使它们的语义相互影响、相互作用、相互渗透,在一定的语境内形成一种语义氛围,同时该节点显示出明显的语义韵特点(张瑜,2009)。

我们可以利用语料库去探索发现单词的语义韵特点。

当今世界上最大的英语语料库之一COBUILD语料库的领导者JohnSinclair教授是第一个注意到语义韵现象的学者,他通过定位检索发现happen和setin(发生)常常与“不愉快的事件”(unpleasantevents)联系在一起(Sinclair,1991)。

“SETin”(SET大写表示包括该词的各种变化形式,下同)的主语绝大多数是不愉快的事情,如rot、decay(腐败、腐烂)、ill-will(歹义)、decadence(颓废)、impoverishment(陷入贫困)、infection(感染)、prejudice(偏见)、viciouscircle(恶性循环)、rigormortis(僵硬死尸)、numbness(麻木)、bitterness(痛苦)、mannerism(癖性)、anticlimax(兴奋之后突然平淡而令人失望的情景)、anarchy(无政府状态)、disillusion、disillusionment(幻灭)和slump(萧条)等。

Sinclair诙谐地称setin长期与坏蛋(badcompany)为伍,其结果是只要SETin一出现,人们就知道被描写的事情一定是不愉快的。

另一方面,由于SETin已经染上了“贬韵”(imbuedwithan“unfavourableprosody”),一般来说它便没有资格在褒扬场合中抛头露面了。

假如有人说这样一句话:

“Goodtimessetin(好日子临头了)”,那么讲话人很可能是为了营造某种诙谐或讥讽的效果,否则听话人一定会感到很别扭(转引自纪玉华等,2000)。

Stubbs(1995)在COBUILD语料库的1亿2千万单词中定位检索出4万个与动词cause(导致、造成)搭配使用的词群,发现该词染有较强的“贬韵”,充当其宾语的往往是accident、concern、trouble、damage或death之类的词。

但是他发现动词provide(提供)在COBUILD语料库中却带着较强的“褒韵”(favourableprosody),充当其宾语的词汇多属于诸如“关怀”、“食物”、“帮助”、“金钱”之类的语义场(转引自纪玉华等,2000)。

还有,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 职业教育 > 职业技术培训

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1