语料库2.docx - 冰豆网

资源描述

语料库2.docx

《语料库2.docx》由会员分享，可在线阅读，更多相关《语料库2.docx（11页珍藏版）》请在冰豆网上搜索。

语料库2.docx

语料库2

由于语料库文体学特别注重文学语篇语言特征的分析,到目前为止,基于语料库的文学语篇语言文体特征的分析主要集中在以下几个方面:

1.利用语料库的词汇统计原理识别某个语篇的作者2.主题词（KeyWords）分析:

对语篇的关键词进行统计,得出关于该语篇的主题相关性;3.两种语言风格对比:

以平行语料库的方法对不同作家或同一作家不同时期文学语篇、不同作家的同类语篇或文体特征进行比较研究;4.文学手段如象征手法等的运用;5.利用词汇频率（包括使用频率、覆盖率和分布率）的统计对文学文本进行体裁特征及体裁差异分析;6.词语搭配（修辞搭配、异常搭配等）的文体意义分析。

语料库文体学:

文学文体学研究的新途径

对文学作品主题、人物形象的塑造、叙事的发展以及作家风格等进行研究。

纵观文学文体的语料库研究,根据研究角度的不同,大致可分为以下三个主要研究领域:

1）以个体语言特征的文体研究为目的的语料库标注和分析;2）对作品主题的语言表现方式的研究;3）作家风格研究

搭配研究可以用于语言创造性使用、文体变异、作家风格等研究目的

《警察与赞美诗》的语料库检索分析用语料库方法分析美国小说家欧·亨利的小说《警察与赞美诗》,能揭示小说的情节、人物的塑造及作者的写作技巧。

最近几年来语料库语言学正以其独特的优势得以迅猛发展,语料库（Corpus）被广泛应用于与语言相关的各个领域。

语料库检索软件（Concordancer）在语言学领域,尤其是在文本分析中已被广泛使用。

语料库检索结果就是在语料库中抽取一个文本的一个检索词班代及其出现的语境按字母顺序罗列出来,语料库检索软件是提供这些词的罗列结果的系统。

它使用既简单又省时,因为它可以快速有效地显示出检索词的搭配词频。

作为一种建立在庞大的数据基础上的极有威力的假设检验设置,语料库索引可以使文本隐含的结构显现出来,同时又激发人的想像力,并能检验文本对读者的感染力,具有很强的客观检验性。

语言学并不是语料库检索软件应用的惟一领域,它也可以用于文学批评领域来分析文学文本。

本文旨在探讨语料库检索软件在分析文学文本中的应用，笔者选用美国著名短篇小说家欧亨利的小说《警察与赞美诗》,对其情节、人物和写作风格用语料库检索软件进行分析,希望读者能管窥语料库检索软件在文学批评分析中的魅力。

使用的语料库检索系统是语料库分析软件Wconcord和Wordsmith.。

首先把《警察与赞美诗》的文本用Wordsmith软件统计,它提供了有关这个文本的一些简略统计数字:

例如形符数（tokens，指语篇一共有多少个词），类符数（types，指语篇一共有多少个不同的词），类符形符比（type/tokentatio,指形符与类符的比率,即用词的变化性）标准化类符比，平均词长，句子数，句长，平均句长，段落长，平均段落长，1-letterwords，2-letterwords，3-letterwords，4-letterwords。

美国短篇小说大师欧!

亨利的警察与赞美诗为例，形符数：

2374，类符数：

965，类符形符比：

40.65，标准化类符比：

48.85，平均词长：

4.56，句子数：

117，句长：

20.15，平均句长：

16.66，段落长：

1187.00，平均段落长：

1667.00，1-letterwords：

85，2-letterwords：

350，3-letterwords：

563，4-letterwords：

370。

在这个文本中，从其字节数，形符数和句子数可以断言这是个较短的文本,把其类符形符比40.6与标准类符形符比数48.85相比较,可以推断此文本的词汇变化量为中等程度,因为单纯的形符数和类符数不能反映语篇的本质特征,但两者的比率却在一定程度上反映了语篇的某种本质特征,即用词的变化性。

它的句长为20.15,与平均句长16.66相比意味着它比一些简易文本句子要长。

它的段落长为1187.00,与平均段落长相比要短些。

如果我们把一个字母的词、两个字母的词、三个字母的词和四个字母的词数全加起来,就可知道少于四个字母的词共有1368个,而这个文本的形符数是2374个,这样整个词汇的43%都是多于四个字母的词。

因而可以推断这个文本属中等难度水平,句子较长,篇幅较短。

把这个文本用Wconcord软件进行统计,Wconcord中的词频统计产生了一些有趣数据,Wconcord中出现的有关这个文本的前244个出现频率最高的词的词频以词的频率大小排列能帮助我们了解文本的大意（这里词频省略）。

在对以上资料进行分析后,从有意义的实词中得出结论,这个故事是在冬天曾发生于公园、小岛、饭店、大街、白老汇、麦迪逊、广场、咖啡馆、俱乐部等地,它是有关一位名叫苏贝（Soapy）的人与一位女人，一位侍者，一个男子和一位警官之间发生的故事。

这时需要继续使用语料库检索软件进行分析,由Soapy和he两个检索词的上下搭配（collocation）的检索结果，读者可以了解到一些苏贝所做的事情,由此这篇短篇小说的主要情节便可以清晰地显示出来。

从有关主人公苏贝的语料库检索结果中我们已经接收到了有关这个故事情节的全部信息,从中我们也明白了欧·亨利的短篇小说的文学结构开端，开始策划诡计，爱，神秘事物和结局。

与Soapy一词相搭配的形容词的语料库检索结果很清晰地显示出苏贝的状况和内心的变化

短篇小说的叙事进程:

语料库文体学方法初探：

将文学文本与语料库分析工具结合在一起的研究方法被称为语料库文体学

构建英美文学文化三源泉语料库改进文学教学

这种基于语料库的操作方便、快捷、准确。

古希腊罗马神话和《圣经》构成的三源泉语料库

1）“三源泉”背景知识查询。

由于本语料库包

括了与古代希腊神话、罗马神话和《圣经》有关的大量文本、图片、音频、视频资料、较为丰富的网络资源链接和相关学术评论文章，英美文学专业学生和爱好者可以比较容易地查询到他们在英美文学学习中遇到的与“三源泉”有关的文学文化背景知识，了解有关文学人物、原型、典故等的来源、背景和使用语境等。

2）文学课程教学。

语料库中除提供了英美文学文化语境三源泉的背景知识外，还包含一些图片、音频、视频片断，评论文章和链接网站等，可以为英美文学专业学生提供足够丰富的学习和欣赏资料，大大丰富了文学课教学内容。

比如，在讲授英国著名剧作家萧伯纳的剧本《卖花女》时，许多教材上只有几段节选。

学生在读完节选段落时，仍觉得意犹未尽，想了解得更多。

利用该“三源泉”语料库，学生不但可以观看根据该剧本改编的电影片段，可以阅读作品中的人物评论及相关的学术论文，还可以从语料库中找到古希腊神话中皮格马利翁（Pygmalion）原型的动人故事，从而进行拓展阅读

3）英美文学研究与分析。

利用文学语言语料库对文学语言进行定量与定性的分析是比较方便的。

语料库为文学研究提供定量分析的基础，学生和研究者可以利用语料库进行词汇、语句、典故等统计，发现语言规律、特征，可以利用语料库研究和分析一些典型的文学模式，提高学生对文学作品的鉴赏能力。

基于语料库的《呼啸山庄》检索分析

一、文本的总体统计特征及分析要进行定量研究就要涉及文本的检索和数据的统计

二、主题和情节的检索与分析。

首先用WordsmithTools对文本进行统计,得到一个主题词表（省略）,从而得到该文本中出现频率最高的实义词。

其中Heathcliff出现423次排在34位,Linton和Catherine排在40、41位,出现频率也相对较高,由此可以确定作品的主角是Heathcliff、Linton和Catherine,整本小说是围绕这三个主人公展开的。

主要人物整个故事发生的地点关键描述信息。

笔者又利用WordsmithTools的plotting功能作出主题词图（图2）,通过观察主题词在文本中的位置分布,全方位地分析小说情节,梳理情节进展的脉络。

三、人物刻画的检索与分析通过利用语料库软件的语境共现（concord）功能,输入关键词（如故事人物）进行带语境的关键词即（KWIC[6]）检索,列出所有人物出现时的上下文,能够检索出对于重要人物的描写,这对研究人物性格以及作者对人物的刻画,都有不可或缺的重要性。

基于语料库的《暮光之城》系列小说词汇特点初探

外语学习者来说，运用语料库手段分析文学作品词汇的方法有助于提高学习外语的效率，增强选词、用词的能力，从而提高对外国语言文化的欣赏水平。

词频表反映的是上述两类语料库中出现频率依次排序的词汇。

通常高频词是功能词，但是《暮光之城》出现频率最高的是实义词第一人称代词“I”。

通过语料库手段对文学作品词汇的分析为进一步研究提供了更加科学的数据支撑，从而使结果更具客观性和准确性，继而增加了解释的说服力。

然而，其缺点是语料库的建立比较费时费力，语料库研究方法也比较复杂，不易在短时间内普及。

基于语料库的《献给艾米丽的一朵玫瑰花》检索分析软件

AntConc3.2将被用来检索分析这篇小说，以揭示其故事情节、人物性格及写作特征。

二、检索结果及分析

（一）故事情节的检索

（二）人物性格的检索分析（三）写作特征的检索1、小说的语言特色把《献给艾米丽的一朵玫瑰花》的文本用AntConc3.2

软件中的WordList功能检索，我们可以发现小说中共有1122个不同的词。

表1就是出现频率前50的词。

根据表1，不难发现，同一个词的某些形式出现的频率较多。

比如，过去式“was”出现了49次,排在第10位，而原形“is”只出现了5次，排在第127位，不在前50个词当中；“were”出现了22次,排在第22位，而原形“are”仅出现了3次，也根本就不在前50个词当中。

这表明，作家在创作这篇小说时，经常使用过去时态来讲述故事发展情节。

而且，列表当中某些词类出现得比较多，如“that”、“which”这两个指示代词在文本中分别出现了56次（排在第8位）和15次（排在第34位），这点可以说明这部小说的语言中有很多从句，而且句子的结构也比较复杂。

这正好印证了威廉·福克纳的句式复杂的语言风格。

我们还可以从表1中获得一些信息。

例如“her”和“she”这两个词排名都很靠前，一个排在第1，一个排在第2，再如“I”在文本中出现了14次。

这些人称代词在小说中频繁出现，必然与小说的内容息息相关。

我们可以推断，故事中的主要角色应该是女性，否则作者不会如此频繁地使用女性代词（主格、宾格和物主代词）。

2、小说的叙事特点，根据表1，可以发现“we”在文本中出现的频率高达47次，用AntConc3.2中的Concordance功能搜索“we”就会列出“we”出现的所有的上下文。

通过分析，可以推断出“we”是小说的叙述者，即小镇上的人们，也就是说，小说采用了第一人称的叙述视角。

通过软件中的ConcordancePlot功能检索，我们可以得到全文中“we”出现的位置和数量，准确清晰地把握了小说的

主要情节，并对其人物塑造、语言特色和叙事特点等方面进行了统计分析。

当然用语料库作为工具对文本的分析不能代替从文学本身出发的鉴赏，但毕竟为我们理解作品提供了客观的证据。

因此，将语料库语言学与文学结合，可以为文学研究提供一种全新的研究方法，即以图形、列表、统计等量化的方法分析文本，从而得到对文本更加理性的诠释。

基于语料库的海明威作品《一个干净、明亮的地方》分析

本文通过使用WordsmithTools语料库索引软件,对海明威的短篇小说《一个干净、明亮的地方》进行了分析。

通过提取关键词（keyword）并将其与亨利·詹姆斯的《帕斯特》、布朗语料库（BrownCorpus）等对比,我们不仅得出海明威作品用词简单,句子简短的特点,而且还进一步利用软件提取出的关键词与自动生成的情节（plot）去了解小说的主要内容和故事情节。

这无疑为我们进行文学作品分析提供了一个新的途径。

基于语料库的文学语篇分析以外婆的日用家当为例

以解读小说的主要内容、人物的塑造和作者的写作意图。

一、基于词表的语篇基本情况分析

二、基于主题词提取的主要内容分析

三、基于关键词索引的人物分析

四、基于关键词索引的作者的写作意图分析在该文本中,围绕日用家当展开的对话构成了故事的主要情节,而反复出现的被子（quilt）则最有象征意义。

从中能够看出作者的写作意图,以下是对quilt的语料库检索结果:

基于语料库的文学作品分析方法#虽然在语言特征判断方面无重大突破,但实施起来却快捷、准确,省时省力,而且证据充实,令人信服?

[2]。

在准确的统计数据和真实的语境中,我们可以对语篇的文本特征、大意、人物塑造和作者的写作意图进行分析和概括。

但我们必须认识到,语料库方法仅仅是对传统文学篇章分析的一种补充。

必须先通读原文,对语篇有一定了解后,语料分析才有实际意义。

其次,虽然通过检索软件,可以得到文本统计信息和主题词等量化信息,但是如何来解释,如何做出有意义的推论,还是要依靠我们的文学知识和直觉。

也就是说,只有将计算机准确、高速的运算能力和语言研究者的概括、推理能力相结合,基于语料库的文学语篇分析才有意义。

基于语料库的文学作品分析志飘为例

从人物刻画，修辞手法，故事情节及语言特点等方面入手，利用WordsmithTools，Concordance，和MicroConcord等语料库检索软件对文学作品进行分析。

使读者能够直观地了解到与作品相关的重要信息，从而为把握作品主题的内涵和写作风格，以及质疑或发展前人的研究成果提供了可靠地数据支撑。

1.基于词表的作品基本情况分析

2.基于主题词提取和此图的故事情节分析

3.基于索引的写作特色分析

3.1艺术手法—人物性格塑造

3.2语言特色

基于语料库的小说文体学研究

根据数理统计的原理，所统计的语料的总体个数必须达到一定足够的数量，才能保证统计结果符合客观实际。

语料库检索软件检索能力强大，可用在文学文本的分析上，用语料库方法分析文学作品能揭示文本的主题是如何通过故事情节、人物刻画、修辞手法等来表达的。

本文探讨了基于语料库的文学作品分析方法。

该方法不仅可以用于文学批评领域的文本分析，还可以用于涉及文本分析的语言课堂教学。

检索软件获得的语料被认为可以为批评家的直觉提供数据验证语料库检索软件检索能力强大，可用在文学文本的分析上，以此“把隐含的结构显现出来，同时激发人的想象力，并能检验文本对读者的感染力”用语料库方法分析文学作品能揭示文本的主题是如何通过故事情节、人物刻画和修辞手法等来表达的本文从文本总体统计特征和分析、主题和情节检索与分析、对人物刻画的检索与分析、对修辞手法的检索与分

析四个方面简要说明基于语料库的文学作品检索步骤和分析方法

二、文本总体统计特征和分析

基于语料库的语言研究一般采取定性与定量相结合的研究方法，要进行定量研究就要涉及文本的检索和数据的统计。

主要的统计特征有：

文件的字节数（bytes）、形符数（tokens，指文本一共有多少个词）、类符数（types，

指文本一共有多少个不同的词形）、类符形符比（type/tokenratio）、标准化类符形符比（standardtype/token

ratio）、平均词长（averagewordlength）、句子数（sentences）、平均句长（sentencelength）、句长标准差（standard

deviationofsentencelength）、段落数（paragraphs）、平均段落长（paragraphlength）、段落长标准差（standard

deviationofparagraphlength）等等（杨惠中，2002）从文本的字节数、形符数和句子数可以推断文本的篇幅长度。

单纯的形符数和类符数不能反映文本的本质特征，但两者的比率却在一定程度上反映了文本的某种本质特征，即用词的变化性。

一般说来，类符

形符比越高，用词变化性越高。

但英语的词汇是有限的，如果文本不断扩大，形符数将随之扩大，然而类符数的增加却不能保持同步，所以当文本容量达到一定程度时，类符数的增加将越来越小，两者的比率无法反映用词的变化性。

因此我们需要采用标准化类符形符比来反映用词的变化性，其计算方法是按一定的长度分批计算文本的类符形符比，然后求出它们的平均值（杨惠中，2002）。

利用平均句长和句长标准差

可以判断文本的句子是否比一些简易文本句子要长。

同理，我们还可以用它来比较段落长。

根据平均词长，

可以计算低于该词长的类符数在总类符数中所占比例，以判定该文本的词汇难度。

三、主题和情节检索与分析

对作品用语料库软件（如AntConc3.01）生成词表（wordlist）,可以得到文本中出现频率最高的词的词频（以词的频率多少排列）。

对这些词的初步分析可以让我们了解有关文本内容的信息，但无法确定哪些信息重要，哪些信息次要。

我们需要选择关键词（keywords）以确定关键信息。

一个词是否是某一文本或文类（genre）的关键词，不仅取决于该词在该文本或文类中的出现情况，还取决于该词在与之相对比的参照语料库中的出现情况。

假如定冠词the在某一长度为1000词的文本中出现了50次，其出现频率达到了5%，但不能说the是该文本的关键词，这是因为the在任何文本中的频率都很高，不是惟独在这一文本中出现频率高，它在参照语料库中的频率可能还不止5%，单就其在该文本或文类中出现的频率来决定它是否关键词显然是不合适的。

（杨惠中，2002）因此，我们可以选取某一参照语料库（长于被检索文本），按照关键值（keynessvalue）生成关键词词表或主题词词表（keywordlist）。

通过观察关键词词表中排在较前的关键词，可以得到该文本的最关键信息（关键值越高说明该信息越重要），如故事中的主题、主要人物、时间、地点、背景、关键描述信息等。

为了了解文本（如小说）的大致情节，我们可以利用语料库软件的语境共现（concordance）功能，输入关键词（如主要人物）进行带语境的关键词（指搜索词）（KWIC）检索。

通过分析并阅读搜索词两边的语境（或上下文），就可以得出作品的主要情节了。

具体实例可参见郭放的“《快乐王子》的语料库检索分析”（郭放，2004）。

WordsmithTools在提取主题词和了解作品的概况方面有独到的优势。

首先，它可以与参照语料库对比生成一个按照关键值排列的主题词表（与上述的AntConc3.01操作过程相似）。

对主题词的分析过程与上

述相同。

其次，它有独特的词图（plot）功能。

词图统计是根据主题词表，计算出各个主题词在语篇中的位置分布，其意义主要在于对某一连续文本的词语分布进行统计和计算。

尽管其他软件（如AntConc3.01）也有词图功能，但只能统计单个词的词图。

单个词图只有同其他词图放在一起进行比较，才显示出真正意义。

对WordsmithTools产生的词图进行观察就可以直观地、清楚地看到故事情节的开始、发展、高潮、结局等各环节。

主题词在词图中所体现出来的密集与稀疏真实地反映了各条线索的发展，因而对于了解文本的情节有明显的优势。

具体实例可参见张厚振的“基于语料库的海明威作品《一个干净、明亮的地方》分析”（张厚振，2004）。

四、对人物刻画的检索与分析

作品中的主要和次要人物一般会出现在主题词表（或关键词表）的较前位置。

欲认识各人物形象，可依次输入人物关键词（如表示姓名的名词和其人称代词、形容词性物主代词等），检索全文，定能从检索项的共现语境中查到相关的名词、形容词、动词、副词以及短语等。

这些词和短语就是用来修饰和限制检索项的。

基于语料库的文学作品分析方法初探将所收集到的词和短语进行分类、归纳和分析（如积极与消极、正面与负面），就能够描述人物的外貌、活动、性格、心理活动等方面了。

具体实例可参见郭放的“《快乐王子》的语料库检索分析”（郭放，2004）。

五、对修辞手法的检索与分析

在对文本有了初步的认识后，再进行修辞手法的检索与分析是比较合适的。

语料库软件并没有自动识别、检索修辞手法的功能。

因此，我们可以根据对修辞手法各种特征的了解和对试读语料的主观印象及从语料中发现的个例，提出可能的检索项，充分运用语料库软件的检索、计算功能找到各种修辞实例。

具体实例可参见郭放的“《快乐王子》的语料库检索分析”（郭放，2004）。

首先，最容易找到的修辞手法应该是明喻（simile）。

它利用不同事物之间的相似点，借助比喻词（如like,as）起连接作用，清楚地说明甲事物在某方面象乙事物。

有几种类型：

（1）like型；

（2）as型；（3）虚拟句型（最常见的是asif或asthough，mighthavedone/been）；（4）what型（常用句式：

AistoBwhatXistoY;WhatXistoY,AistoB）；（5）than型；（6）and型。

（李冀宏，2000）因此，检索以上各词和词组，并分析结果即可。

第二，隐喻直接将甲事物当作乙事物来描写，无须借助比喻词。

有几种类型：

（1）名词型（最常见的句式是“甲是乙”，喻体一般体现在句子的标语部分）；

（2）动词型；（3）形容词型；（4）-of-短语型（李冀宏，2000）。

对于名词型的隐喻，可以检索be的各种形式；对于-of-短语型隐喻，可以检索of；但对于动词型和形容词型隐喻，就只能通过阅读语料凭主观判定了。

第三，排比的构成可体现于各个语言层次，如单词、短语、从句、句子等，其中以三项式平行结构最为普遍（李冀宏，2000）。

它的平行特点与其标点符号紧密相关，因此，可以搜索词位置为中心，限定其检索的跨距（span），检索“，；。

”。

其它的修辞手法可能很难用语料库手段进行发掘，问题的关键在于要检索的搜索项无法自动确定，必须人工确定。

但一旦确定搜索项，语料库所提供的方便与快捷是无与伦比的。

基于语料库的文学作品分析方法“虽然在语言特征判断方面无重大突破，但实施起来却快捷、准确，

省时省力，而且证据充实，令人信服。

”（何安平，2001）该方法不仅可以用于文学批评领域的文本分析，

还可以用于涉及文本分析的语言课堂教学。

林丽云做了尝试，将语料检索运用于英语精读课的教学中：

通

过语境共现揭示语篇主题发展和变化，通过词汇复现突现语篇的文体和语言特征；在引导学生学习词汇的

同时，从语篇、语言特点、及文章主题思想方面来阅读、欣赏所学文

展开阅读全文