我读语料库.docx

上传人:b****5 文档编号:6473203 上传时间:2023-01-06 格式:DOCX 页数:7 大小:23.81KB
下载 相关 举报
我读语料库.docx_第1页
第1页 / 共7页
我读语料库.docx_第2页
第2页 / 共7页
我读语料库.docx_第3页
第3页 / 共7页
我读语料库.docx_第4页
第4页 / 共7页
我读语料库.docx_第5页
第5页 / 共7页
点击查看更多>>
下载资源
资源描述

我读语料库.docx

《我读语料库.docx》由会员分享,可在线阅读,更多相关《我读语料库.docx(7页珍藏版)》请在冰豆网上搜索。

我读语料库.docx

我读语料库

读《语料库相关类文章》有感

以前只有在语言学里略微提及到语料库,但是从来也没有搞明白,读完《语料库相关类文章》,我才真正开始接触语料库和语料库语言学,要了解一个事物,必须要明白以下几点:

首先,它是什么?

什么是语料库?

什么是语料库语言学?

其次,怎么来的?

发展起因和发展历史过程是怎样的?

再次,发展现状是什么?

有什么特征?

有什么理论意义和现实意义?

发展中出现了什么问题?

最后,未来发展趋势是什么?

只有这样,才能称之为理解掌握,并使之成为自己的内化的知识,为自己所用。

一什么是语料库?

什么是语料库语言学?

1什么是语料库?

(1)定义

 语料库通常指经科学取样和加工的大规模电子文本库,为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。

(2)分类

按照语料的语种,语料库也可以分成单语的、双语的和多语的。

按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。

双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

(3)特征

  语料库有三点特征:

首先,语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;其次,语料库是承载语言知识的基础资源,但并不等于语言知识;最后,真实语料需要经过加工(分析和处理),才能成为有用的资源。

2什么是语料库语言学?

 别的语言学科基本上都是研究有关领域与语言之间的关系,例如,社会语言学研究的是社会与语言的关系,心理语言学研究的是人的心理活动与语言之间的关系。

而语料库语言学则不同,它只是以语料库为手段来研究语言。

在一些人看来,语料库语言学是一个独立的学科,它有自己独到的理论体系和操作方法。

由于语料库语言学立足于大量真实的语言数据,对语料库所做的系统而穷尽的观察和概括所得到的结论对语言理论建设具有无可比拟的创新意义。

而在另外一些研究者看来,语料库语言学并非语言学的又一个分支学科,而是一种研究方法,这种方法基于大量的真实语言,可以用来回答通过其他途径很难回答的问题,从而极大地丰富已有的研究方法。

语料库语言学以大量精心采集而来的真实文本为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的。

由于语料库是建立在计算机上的,因此,语料库语言学是语言学和计算机科学交叉形成的一门边缘学科。

在目前的研究水平下,语料库语言学主要是利用语料库对于语言的某个方面进行研究,仅仅是一种新的研究手段。

严格地说,语料库语言学还没有十分完备的理论,它还不能跟语言学中的其他成熟的学科(如计算语言学、社会语言学、心理语言学)相提并论。

尽管这样,这个新兴的研究领域一出现,就引起了语言学界的普遍关注,越来越多的语言学家愿意采用语料库作为他们的工具来研究语言,并取得了令人可喜的成绩。

目前,语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编纂、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解和机器翻译等领域中的应用。

二语料库语言学的由来

1发展起因

自17世纪以来,由于受经验主义影响,语言研究开始重视观察自然发生的语料,大量收集外部语言数据,即文本和语料库,在客观分析语言现象的基础上进行相关研究。

因此,语料库语言学从一开始就是一种经验主义的语言研究方法,重视观察收集真实语料,认为仅凭常识和内省法只能得到有限的事实这种研究传统在19世纪得到了进一步发展。

在20世纪50年代以前,现代语言学的传统,无论是规范语言学、历史语言学或是描写语言学,都注重语言事实,提倡经验主义,即“根据对大量事实的广泛观察,得出一个比较有限的结论”。

美国语言学家乔姆斯基(NoamChomsky)自1956年开始发表有关形式语言的一系列论文,主张采用公理化、形式化的方法,严格地按照一定的规则来描述自然语言的特征,试图使用有限的规则描述无限的语言现象,发现人类普遍的语言机制,建立所谓的“普遍语法”。

自此形成了转换生成语法的研究途径,60年代末到70年代时期在美国兴盛一时,也大力推动了机器翻译和自然语言理解的研究和发展。

转换生成语法的研究途径在一定程度上克服了传统语言学的某些弊病,推动了语言学理论和方法论的进步,但它认为统计只能解释语言的表面现象,不能解释语言的内在规则或生成机制,渐渐远离经验主义的途径。

这种转换生成语法的研究途径实际上承继了“理性主义”的哲学思源。

然而,人们逐渐发现,这种理性主义的研究所得出的语言规则似乎只能适用于一种子语言(sub-language),而不能推广到该子语言之外的于其他语言现象,具有很大的局限性。

人们开始思考,乔姆斯基的“普遍语法”是否是真正的语言规则,是否能够经受大量的语言事实的检验,语言规则是否应该和语言事实结合起来考虑,而不是一头钻入理性主义的隧道?

乔姆斯基开始反思,在最近他提出的“最简方案”中,他认为,所有重要的语法原则直接运用于表层,不同语言之间的差异通过词汇来处理,把具体的规则减少到最低限度,开始注重对具体的词汇的研究。

可以看出,转换生成语法也开始对词汇重视起来,逐渐地改变了原来的理性主义的立场,开始与经验主义妥协,或者悄悄地向经验主义复归。

由于语言学中经验主义方法的东山再起,注重语言事实的传统重新抬头,大多数学者们普遍认为:

语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。

传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。

尽管一些对于语言研究有浓厚兴趣和献身精神的语言学家对于这样的工作乐此不疲,但是一般的人对此却望而生畏。

计算机出现之后,随着计算机功能的逐渐完善和强大,原先完全靠手工的工作开始交由计算机去做,大大地减轻了人们的劳动。

后来,在这种工作中逐渐创造了一些独特的方法,提出了一些初步的理论,形成了一门新的学科——语料库语言学。

2发展历史

(1)早期语料库发展(18世纪-20世纪50年代手工语料库):

语料研究手段主要停留在卡片收集和人工检索阶段,因此语料库不仅在数量、规模和代表性方面很受局限,而且检索起来也费时费力。

  

(2)现代语料库语言学的开端(50年代末至80年代,第一代计算机语料库):

计算机技术的引入、语料库的收集科学化、规模一般在100万字左右、语言研究为导向;语料库发展史上的转折点、现代语料库语言学的基础

  (3)语料库研究的壮大(80年代以来)表现:

首先,语料库越来越大,第二代、第三代语料库的出现;百万、千万、上亿词级深度标注;标准编码体系。

其次,语料库越来越普遍。

小语料库(从几十万到100万词)研究ELT的利用;各种专门用途语料库和研究工具的不断开发。

最后,语料库的深加工和应用研究不断增多。

语料库的应用领域的不断拓宽——诸如词典编纂、语音识别、语音合成和机器翻译等。

三语料库语言学的研究现状

1发展特征

20世纪90年代以来,语料库逐渐由单语种向多语种发展,各种语料库深加工技术层出不穷,语料库在语言研究各领域得到更加广泛的应用,主要有以下特点。

(1)规模大、语种多的语料库建设。

90年代以来,很多国家政府和学术机构日渐意识到保护民族语言资源的重要性。

他们从维护、发展和规范本民族语言的角度出发,纷纷投资建立大型国家语料库。

这些语料库以通用均衡语料库为主,容量大,体裁多,能够代表国家的语言,另一个变化是多语种语料库开始出现,原因是国际交流日益频繁,全球化趋势日渐明显,随之带来翻译和对比研究不断升温。

与传统的单语种语料库相比,多语种语料库包含两种或以上的语种文本,以此考察语言之间的共性和异性,进而探讨语言整体特征。

(2)语料库应用范围不断扩大。

近年来,语料库研究的应用范围不断扩大,主要体现在两个方面。

第一,从研究对象看,传统语料库研究主要集中于词语研究,如统计某个词语的出现频度,研究它与其他词语的搭配情况,归纳这个词语的用法。

近年来,语料库研究的对象逐步超越词汇层面,扩展到其它级阶,包括短语、习语、句子直至语篇。

第二,从研究领域看,语料库最初主要用于词典编纂和语法研究,后来逐步扩展到语言教学、话语分析、对比研究和翻译研究等领域。

近二十年来,语料库研究领域进一步拓宽,出现了一些新的研究领域。

相关研究方法在一些语言学分支领域,如社会语言学、语法化和语用学等,也取得了很大进展。

(3)语料库本体论的发展。

现代语料库语言学开始于20世纪60年代,从诞生开始,有关语料库本体论的研究就一直没有停止过。

最初人们讨论较多的是语料库语言学的学科定位问题。

大多数语言学家认为语料库语言学只是一种研究方法,并不是一门独立学科。

(4)语料库相关软件不断发展。

90年代中期以来,语料库研究得到高速发展,这一方面得益于存储媒介、字符识别设备等计算机领域硬件的发展,另一方面则离不开各种相关软件的推陈出新,尤其是标注和检索软件。

四语料库语言学的研究目的(理论意义和现实意义)

1语料库语言学的理论意义

(1)语料库语言学的语言学地位

自1961年最早的Brown计算机化语料库的诞生,到了上个世纪八、九十年代语料库语言学掀起的一股热潮传播至今。

那么它对语言学的发展到底会产生怎样的影响呢?

语料库语言学为语言学的研究提供了新的哲学思路,但我们认为它在语言研究方法论上的意义更加深远。

它使我们有办法利用语料库提供的数据将我们对语言规律的朴素的认识,上升为语言学理论;或者用这些数据来纠正我们常识中对于语言规律理解的种种谬误。

这种通过定量定性相结合的方法得出的结果更加有说服力。

从目前语料库语言学的发展来看,它还无法获得与其他经典语言学的领域相当的地位。

至于将来随着计算机技术和语料库研究方法上的发展,语料库语言学能否为传统语言学带来一些重大变革还将有待时间的检验。

(2)语料库对语言学理论的影响

语料库的建设和应用对语言学理论正在产生影响,有可能引起语言学理论和方法的重要变革。

早期对语言结构的研究都是以实际语料为基础的,萨丕尔、布龙菲尔德等语言学家都采集和研究了英语及一些少数民族的语言,才提出他们的语言学理论,对语言的结构做出了描写和解释。

后来,结构主义语言学越来越转向内省和形式化研究,专门探索人的大脑中生成语言的机制,因而与语言的实际使用距离越来越远。

现在,使用计算机为工具建立语料库,就使几代人以前不可能进行的大规模的语料分析成为现实。

许多语言现象因此可以进行更充分的描写和解释,这可能对以内省为方法的语言学理论产生冲击和影响。

语料库语言学无疑会广泛地丰富语言学的理论和方法。

(3)语料库对语言学研究方法的影响

从目前的态势看来,它不仅发展了对实际语料的研究方法,而且也并不排除内省的方法。

例如,实际语料常被用来验证关于语言的一些假设,这些假设可以是从大量语料中归纳出来的,也可以是研究者内省的结果,或者二者兼而有之。

可以说,语料库语言学有助于形成兼有早期美国结构主义语言学语料归纳法的优点和乔姆斯基学派内省法长处的综合的研究方法。

语料库语言学注重实证性的研究方法,重视实际使用中的语言,注重用数据来说话,这样就提高了研究成果的真实性和可信性。

又由于在采集和处理语料(尤其是口语语料)的过程中发展了比过去采访调查对象更为细致和系统的方法,从而使调查和记录语言材料的技术出现很大的革新。

此外,语料库具有资源再利用的特点,即同一语料可以为各种不同的研究目的和学科服务。

同时,因为语料库能够不断地增加新的语料,更新内容,语料库因此具有开放性的特点。

4语料库语言学的实际应用(现实意义)

(1)语料库与言语研究

语料库在言语研究中的作用有二:

首先,语料能提供空前广泛的言语素材,使对口头语言的概括和对特定语言内方言变异的研究成为可能。

其次,现代口语语料所提供的是自然的而不是人工诱导出的言语,这意味着语料研究更有可能反映实际生活中真正使用的语言的特点。

此外,业经标注的口语语料不仅方便了对言语的单层面大规模量化分析,而且有利于研究不同语言层面间的相互关系。

(2)语料库与词汇研究

引述实例是词典编纂的传统,机读语料库的出现改变了词典编纂者利用语料的方式,他只需坐在计算机终端前就可以从数百万字的语篇语料中调出某个词或短语的用法实例。

这不仅意味着词典的编纂和修订速度大大加快了,能及时提供新的语言信息,而且大量的自然语言实例会使词的定义更加完整和确切。

(3)语料库与句法研究

这首先是由于语料标注和计算机检索手段的发展使得对句法的量化分析更为容易,越来越多的研究者试图通过量化分析对过去靠主观判断所论及的句法现象作出较为客观的描述。

句法层面语料研究的空前繁荣主要是因为语料库已成为唯理语法理论和描写语法理论的交汇点。

50年代以来形成的唯理和描写两种截然不同的研究方法,从80年代中期以来呈现出前所未有的相互交融,即出现了一大批难以

简单归于上述两大研究传统的研究者。

他们既不是通过内省的方法构建语法理论,也不是通过描写归纳生成新的语法理论,它们致力于利用语料库验证唯理派的语法理论。

(4)语料库与语义研究

语料库可用来为词项赋义提供客观标准,有助于建立语义的模糊范畴的梯度概念。

心理研究表明,认知范畴是存在模糊界的。

语义区别作为一种范畴认知,实际上也不是绝对的,也是模糊界的。

具体讲来,义项之间不是简单的包容与非包容关系,而是一种与包容比例相关的梯度关系。

语料对于判断和揭示这种梯度的存在及其大小具有重要作用。

(5)语料库与社会语言学

社会语言学作为一个经验研究领域,主要依赖于具体的语料数据。

但是如何尽可能地减少数据的诱导因素,提高数据的代表性和自然性,一直是困扰社会语言学家的难题。

大容量机读语库的启用为上述难题的解决提供了可能。

利用语料库开展的社会语言学研究目前主要集中在语言与性别领域。

五未来发展趋势

1语料库语言学的发展方向及前景

对于语料库语言学的发展前景,特别是下一世纪的发展方向,近年来语料库语言学家多有论及。

如J.Svartvik预测计算机将运行更快,体积更小,价格更低;语料库将规模更大,质量更好,利用率更高。

T.McEnery则认为语料库语言学今后的发展将主要受语料库规模、类型、国际关注和计算机发展等四方面力量的左右。

基于语料库语言学的研究现状,总观各家之说,语料库语言学的发展方向将主要体现在以下七个方面:

(1)基础语料库的发展。

90年代以来,由于对民族语料资源价值的认识的深化,特别是在欧洲,许多国家的政府或学术机构从维护、发展和规范本民族语的角度纷纷投资建立大型语料库。

此外,口语语料库的发展应加大力度,以克服目前书面语料库和口语语料库发展的失衡,促进口语研究的发展。

(2)语料标注的发展。

语料标注是对语言进行多维多层分析的基础,而且此种分析并不仅限于原标注者,因而语料的有效利用在很大程度上有赖于语料标注的层次和质量。

(3)语料处理工具的发展。

作为一种独特而强大的技术工具,计算机使得这种新的语言学(语料库语言学)成为可能。

语料库分析有赖于计算机环境的支持,即软件工具从语料库中检索数据并对语料进行处理。

目前的软件工具尽管有了一定数量,但多数工具的文件化程度不够,且适用范围有限。

(4)语料库的容量将会更大。

从设计理念上看,现代超大型语料库有成为动态监控语料库的趋势。

从技术层面上看,随着计算机技术的不断发展,存储媒介容量越来越大,价格更加低廉,这使得存储海量语料成为可能。

最后,近年来,利用因特网建设网络语料库的研究成为热点。

与传统语料库相比,网络语料库制作简单,周期短、费用低,并且能够及时反映语料的最新变化。

(5)语料库的类型将更加多样化。

近年来,随着语料库研究的深入,传统文本语料库已经不能满足研究需求,一些新型语料库正在出现并得到迅速发展,未来语料库将更加多样化以适应新时期语料库研究的需要。

(6)专用语料库将得到进一步发展。

随着语料库在各领域研究的深入,通用语料库,尽管容量巨大,还是无法满足各专业领域研究的需要,如语言习得、语用语体、法律语言学研究等,这就要求研究者建立自己的专用语料库进行某个特殊领域的研究。

这表明,在发展超大型通用语料库的同时,研制更多的小型专用语料库将是一大趋势。

(7)语料库语言学与其它语言理论进一步融合。

随着语料库应用领域的不断扩大,语言研究各领域越来越依赖于电子语料库这一研究工具,语料库语言学正逐渐成为一个跨学科的语言学分支。

综上,语料库语言学通过多年的发展,无论是在语料库的利用上还是研究方法上都取得了长足的进步,它是先进技术和方法的代表,显示了在语言学研究方法上的巨大变化,而且这一变化会改变长期存在我们头脑中对教师的角色、教育的文化背景理论和技术的观念。

相信随着越来越多的语言学家重视语料库语言学的研究,它对于外语教学的指导作用也会越来越明显。

 但同时我们也应看到存在的一些问题:

如在各研究领域发展欠平衡,有些研究语料库的选取不够恰当,采取的统计方法还不够严谨等。

首先,语料库只能告诉我们语言事实本身,但是不能进行推理;如对于歧义结构的句子而言,似乎只能用内省判断解释。

其次,语料库只能给我们提供例证,但是不能对于例证提供解释,对于例证的解释要依靠语言的直觉和内省文本,语料库不能提供关于声调、手势以及社会背景方面的信息。

再次,语料库语言学缺乏理论支撑。

目前对于语料库语言学体系理论还没有明确的构建。

(4)技术开发研究相对薄弱。

需重视技术开发和语料库的深加工,同时注重技术方法培训,只有这样,在语料库建设方面才能避免低层次重复,最大限度实现资源共享。

 

 

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1