英语语言学笔记第十章.docx
《英语语言学笔记第十章.docx》由会员分享,可在线阅读,更多相关《英语语言学笔记第十章.docx(23页珍藏版)》请在冰豆网上搜索。
英语语言学笔记第十章
语言学教程:
第十章语言和计算机
计算机是根据一组存储在内存里的指令来处理数据的电子设备,它可以在很短的时间内处理复杂的任务。
计算机本身是由键盘、打印机、屏幕、磁盘驱动器和程序等组成,我们称之为计算机系统(Richards,etal1998)。
从一开始,人们就认识到语言(以及语言学,即研究语言的科学)和计算机之间有密切的联系。
在不少非正式场合,本书作者曾被不断地告知Chomsky,一个美国语言学家和他的转换-生成语法,在计算机科学中发挥了积极作用。
人们发现,系统功能语法学家Halliday的系统网络可以和各种菜单系统相媲美,通过它,用户可以选择自己的决策--尽管韩礼德认为在开发Firth的系统和功能的概念时,他本人还没有使用计算机的知识。
今天,通过使用一个微处理器,一个有强大功能的集成电路用作中央处理单元,微机的大量使用便成为可能,计算机对个人用户来说已经是触手可及的东西。
我们现在生活在一个充满计算机的社会,我们使用"计算机操作能力"这个词组时,特指那些能使用计算机并具有大量计算机软件知识和技巧的人。
在这一章里,我们涉及的范围仅限于语言和计算机之间的关系,这种关系构成一门新的学科,即计算机语言学。
计算机语言学可以看作是应用语言学的分支,即通过计算机处理人类语言(Johnson&Johnson,1999)。
计算机语言学包括:
对语言数据的分析,建立一个序列,通过它,初学者可以获得各种语法规律或某一特定条目的出现频率;人类语言的电子生成(言语合成)和人类语言的自动识别;在自然语言之间的自动翻译;语篇处理和人与计算机的交流。
当然,我们还不能够覆盖这个新学科的每个层面。
以下问题将成为我们讨论的主要内容。
10.1计算机辅助语言学习(CALL)
10.1.1CAL/CAI和CALL
当讨论计算机辅助语言学习的时候,我们首先需要清楚CAI(computer-assistedinstruction,计算机辅助教学)和CAL(computer-assistedlearning,计算机辅助学习)的区别。
计算机辅助教学,就是在教学的过程中使用计算机(Richard,1998etal)。
包括:
a.一个通过计算机按顺序显示的教学程序。
学生在计算机上作出回答,计算机显示该回答正确与否。
b.通过计算机监测学生的学习进程,指导学生选择合适的课程、材料等。
我们又称之为计算机管理教学。
和CAI相对应,CAL是计算机辅助学习。
前者注重于教师教的问题,后者强调在教和学两方面使用计算机,帮助学习者达到教学目标。
第一种开发出的CAL程序体现了和程序化教学相类似的原则。
计算机指导学生一步一步地完成学习任务,并用提问的方式来检查学生的理解。
根据学生的反应,计算机向学生给出下一步练习和进度(见branching)。
在最近的CAL课件中,学生能够与计算机互相交流,探讨一个主题和问题时也能够执行更高级别的任务。
如果说CAI或CAL是处理一般的教与学,那么CALL(computer-assistedlanguagelearning)则是用来处理语言教学的。
在20世纪80年代,传统的教授和讲师都鄙视CALL,认为"我已经学习和教授英语二、三十年了,我可以证实:
没有计算机,我一样可以是一位合格的学习者,现在我同样是一位合格的教师。
"现在有不少人已改变了看法。
CALL,计算机辅助语言学习,指的是将计算机运用到第二语言或外语的教学中去。
根据Richardsetal(1998),它可以采取以下形式:
a.通过其他媒介进行与学习并行的活动,但使用计算机设备(例如,使用计算机来显示阅读文本);
b.以印刷或教室为基础的课堂活动的延伸或改变(例如,教学生写作技巧的计算机程序,它帮助学生逐步展开一个题目或主题、并从词汇、语法和主题展开等方面来检查一篇作文);
C.对CALL而言的独特的活动。
10.1.2CALL的发展阶段
CALL的发展过程中主要有4个阶段。
阶段1在这个阶段,计算机还限制在研究机构,其主机非常大。
例如,70年代,北京大学就在姊妹北楼里存放了大型机。
大规模的教学方案设计出来,例如,伊利诺斯大学的PLATO(自动化教学操作的程序逻辑)。
无论是语法解释,还是听说语言教学,教学方法通常都是传统的。
在进行语法解释时,学习者看到屏幕上显示了一个要点的解释,随后还有实际材料。
在进行听说语言教学时,以书面形式出现的语言点被一遍又一遍地操练。
这种模式通常是自我指导,每台计算机一个学生,有时集中在和语言实验室相类似的计算机实验室。
程序储存在超大主机上,并且只能从某些大学的网站的终端上接入。
阶段2小型计算机出现了,比以前的要便宜。
这使得新一代程序的产生变为可能。
它们能被储存在带子或软盘上,并且整个系统都是便携的。
大多数的这种程序都是由老师设计的,这些老师都是自学计算机的,而不是心理学家或在第1阶段起主要作用的计算机专家设计的。
因此,这种程序是折中的,注意实效并且以学生为定位的,而不是设想大块的语言模式或教学理论。
阶段3学习主要不是通过文本自身的语言,而是通过认知的处理问题的技术,和小组中学生之间的相互交流。
因此计算机被用作学生之间交流的触点(trigger)。
结果,对每个学生而言,计算机不再是个人资源,它逐渐被视为小组学习的焦点,这就使得许多被称为"交流性"的活动变得可行,例如,交互的多角色游戏。
典型的教学格式是:
几个学生围绕着单一的计算机进行交流或单一的计算机成为整个班级的资源。
阶段4文字处理已不再是为语言教学编写具体的程序,而是适应语言教学,使学生用一种非永久性形式写作并修改他们的作品。
从更为学术性的方面考虑,专家们已经开始采用多媒体技术使各种各样的信息类型在计算机上可以同步利用,以至于在屏幕上不再只是显示书面语句,也能同时产生口语语言和移动的影象。
由于新技术成为家庭的需要,使用这种方式进行语言教学无疑将变得更广泛。
使CALL与更多的关于学习的传统观点结合成ICALL(智能CALL)的工作已经开始,这样,当前对语言的各种观点又周而复始地回到了认知科学的传统中去,而不是纯粹语言学的观点。
10.1.3技术
多年来,基础的操练-实践软件程序占领了CALL市场。
这些程序着重于词汇或离散的语法点。
大量的操练-实践程序仍然被利用。
然而,创新和交互性程序正以不断增长的数量在开发。
这里有一些Higgins(1993)总结的程序。
(1)定制、模块和编程。
使用CALL来教学的最大弹性在于编程的领域。
教师们能够用他们自己的材料,运用这些程序来创造简单的或精心制作的软件程序。
通过这种方式,教师们能够设计适合他们自己课程计划的程序(Garrett,1991)。
编程的范围是从简单模块程序到十分复杂的编程语言。
这使得多媒体有了发展的潜能,也使不太复杂的编程成为可能。
(2)计算机网络。
除了单独的程序以外,计算机通过网络连在一起,扩大了我们外语教学的途径。
局域网(LAN)就是指,在教室、实验室或其他建筑里,计算机通过光缆连接在一起。
它们为教师们提供了一种新颖的方式,来创造新的活动,对学生而言就是对目标语言提供更多的时间和经验。
某些LAN设置允许学生和教师通过计算机互相通信,或指导学生用目标语言合作写作。
学生们还能用目标语言进行互相合作的写作练习,会话,并且尝试着解决问题。
教师能观察到学生的活动和进步,并从老师的网站对个别学生作出评价,这类似于在一个语言实验室里发生的情况。
发展LAN的独特能力,即远距离网络--或通过远距离连接在一起的计算机--促进了国内和国外的学生间的交流。
通过调制解调器和电话线,计算机能运用电子交流软件在千里之外进行交流。
国外和国内的说话者能直接地交互地进行交流。
(3)激光盘技术。
激光盘技术在外语教育中用处很多,包括信息检索,交互音频和交互式多媒体程序。
激光可视盘(CD-ROM)使得大量信息储存在一张磁盘上,以便快速获取信息。
出版商已经把能够装满十来个软盘的百科全书的全部内容,放在一张激光盘(CD)上。
学生和教师能够快速有效地在课内或课后使用信息。
近年来,许多外语计算机程序已经放在激光盘上,淘汰了对许多软盘的需求。
(4)数字化语音。
一个新的物理特性已经加在许多程序上--数字化语音。
利用数字化语音的激光盘,提供了快速自由的获取信息和优良的声音质量。
例如,一张"LinguaROM"软件有一个程序磁盘和各种各样的语言磁盘,它们能容纳数字化言语。
有了这种程序,学生们能听到一个短语,单词甚至一个音节或声调的发音。
然后,模仿发音,录下他们自己的发音。
他们可以再听原来的发音和自己的发音,并比较二者,还能再次录下自己的发音,比较二者,直到他们觉得自己的发音已经有了长进或已经正确。
当然,数字化语音远比磁带录音优越得多,所以储存它的空间也相对大多了。
然而,在CD-ROM技术上的持续发展将缩小空间限制。
CD技术的最新进展是CD-I(交互式激光盘)的开发。
这种技术包括数字化语音、压缩视频、动画和可能的为交互式程序创造的多媒体平台的文本。
在外语教学中,技术有潜力扮演一个主要的角色。
然而,这种潜力的发展还处在初级阶段。
实现这种潜力,取决于:
"把技术当作辅助教育到把它视为支持学习的手段的转变;参与评价技术效力的问题;软件真正个性化的先决条件;以及以教学法设计的材料与真实材料的对照和学习者控制学习环境的优、缺点"(Garrett,1991:
95)。
10.2机器翻译
机器翻译(简称:
MT)指利用机器(通常是计算机)把文本从一种语言翻译到另一种语言。
虽然机器翻译在发展过程中总有起有落,但总是计算语言学关心的一个主要焦点,这已经由Hutchins(1995,1999)和Kay(在线)很好地概括过了。
10.2.1发展历史
机器翻译从50年代的最早阶段至今几乎没什么变化。
当时使研究者意见产生分歧的那些问题至今仍然是争论的主要原因。
不过,我们仍然可以列出以下几个阶段:
(1)MT研究者的独立工作。
20世纪50年代初期,研究的目标必需适中,因为受到硬件局限性的限制,尤其是,内存不足和存储速度慢,以及没有高级程序语言。
除此以外,研究是在没有句法学家和语义学家必要的协助下,独自进行的。
那时的美国语言学家主要跟随行为主义者的研究方式,前者(MT)是一个被语言学研究相对忽视了的领域;而后者(行为主义)实际上对机器翻译一无所知。
结果,最早的MT研究者只好求助于以未加提炼的字典为基础的方法,就是说,主要是逐字翻译,以及统计方法的运用。
在这样的背景下,早期研究者意识到,他们所开发的无论什么样的系统都只能产生低质量的结果。
因此他们建议:
输入文本的前期编辑和输出的后期编辑,主要采用人工翻译。
他们还建议,先发展对有控制的语言进行翻译,并限定于某些特定领域。
这使得人们想起,该观点是由英国伦敦学派创始人Firth(弗斯)提出的。
那些研究者主张,MT系统能够通过不完善的方法的循环改进而获得进步。
也就是说,操纵他们熟悉的反馈机械装置的应用。
在这种氛围里,最早的演示系统开发出来了,也即是人们关注的1954年IBM与Georgetown大学合作的结晶。
(2)瞄准高质量的输出。
大约在1960年,由于受到早期演示系统的鼓舞,公众和MT的潜在资助者开始乐观地看待事态。
他们相信在几年之内就可以达到好的质量输出。
这可能也是对大大改进的计算机硬件和最早的编程语言的回应。
当然,编程语言首先是在句法分析上取得进步。
由于从长远来看,哪种方法将取得最大的成功还不清楚,所以美国政府机构只好支持大批项目。
同时,对MT的热情传遍了全世界。
因此,这个时期以一个假设为特征,该假设是:
MT的目标必须是产生高质量翻译的全自动系统的发展,而人工辅助的使用被视为仅是过渡的安排。
系统越进步,后期编辑就应该越少。
因此,研究的重点在于达到"完美"翻译的理论和方法的研究。
当然,我们仍然能听到一些声音,这些声音不同于占支配地位的"十全十美"的声音。
例如,Georgetown大学和IBM的研究者在为首批操作系统而工作,他们承认要使译文达到可接受的程度,MT在长时间内有局限性。
1960年,Bar-Hillel对理论基础项目强烈不满,特别是那些研究中间语的方法,他还证明了全自动高质量翻译(FAHQT)在原则上的不可行性。
作为替代,Bar-Hillel倡导在他称为"人机共生"的基础上特别设计的系统。
实际上,他在MT尚在幼年时期的10年以前就提出了这个观点。
(3)翻译工具的发展。
从20世纪70年代以来,持续的发展有三条主线:
翻译者的计算机基础工具,以各种各样的方式涉及了人工辅助的操作性MT系统,和针对MT方法改进的"纯粹"理论研究。
由于对完美主义者的方法感到沮丧,研究者们开始寻找成熟的翻译工具,也就是说,能够使他们的工作更能产的翻译工作站。
专业翻译者所需要的是在线词典和专门名词的数据库,使用多种语言的字处理,术语表的管理和专门名词资源,输入和输出交换(例如,OCR扫描仪,电子传输,高级打印)。
翻译工具的发展是可能的,因为自从20世纪60年代以来,实时交互的计算机环境已经可以利用,七十年代又出现了字处理,并且80年代生产了大量连接网络和大容量存储的微型计算机。
最近又新添了"翻译记忆"设备,它能够存储和使用已经存在的译文,以便后来的(局部的)再利用或修订或作为翻译范例的资源。
并且,人们已意识到,所有现行的商业和操作系统都有了输出。
如果这种输出要讲求发行质量,就得编辑或修改这种输出。
MT在特殊领域或受控制的环境里运行较佳,这一点也被人们广为接受。
在这方面,MT开发者已经富有成效地采纳了50年代首先由那些先驱们提出的论题和建议。
10.2.2研究方法
MT研究方法可以从两个方面来叙述,一方面是语言学理论的运用,另一方面是MT研究者们实际所从事的内容。
(1)语言学的方法
MT研究已经被看作一个试验新的语言形式或新的计算技术的领域。
换言之,MT已经被视为语言理论的实验床,因为MT和翻译的质量能由非专家来判断。
与之相关的理论有:
20世纪50年代和60年代的信息理论,范畴语法,转换生成语法,从属语法,和层次语法;70年代和80年代的人工智能,非语言知识基础,诸如词汇功能语法,广义短语结构语法,中心词驱动短语结构语法,有定从句语法,原则和参数,70年代和80年代的蒙太古语法等这些形式主义;90年代的神经系统网络,连接主义,平行处理,和统计学方法以及其他理论。
人们还发现,那些以小样本为基础,在它们最初的试验中取得成功的新理论,最终被证实都存在一些问题。
为了解决这些问题,必须检验所有有希望的方法并鼓励修正。
在20世纪90年代初期,由于以语料库为基础的方法的出现,MT的研究有所增强,特别是统计学方法和以实例为基础的翻译的引进。
统计学技术已经摆脱了以前专门以规则为基础(通常定位于句法)的方法的不足和越来越明显的限制。
在以语料库为基础的技术帮助下,歧义消除的问题,首语重复的解决和更多惯用语的生成都已经变得更容易驾驭。
在这一章,会有新的一节来谈这个主题。
(2)实践的方法
实践的方法可进一步分为3条线索。
a.转移法
根据机器翻译转移理论的多数观点,源文本的一定量的分析是在源语言的上下文里单独进行的,而译文本的一定量的工作是在目标语言的上下文里进行的。
大量的工作取决于具体的两种语言的比较信息。
这种想法是由于设计一种单独的中间语言绝对是困难的。
这种中间语言要求能表达所有语言中的任何事物。
并且有人持有这种观点:
翻译本质上就是一种对比语言学的练习。
大型的Eurotra系统是一个转移系统,其中的各个小组来自所有参与该系统的欧洲联盟国家。
日本人则普遍认为转移法带来了早期成功的最好机遇。
b.语际法
这种方法被看作一个步骤,是翻译过程中积极全面的较为经济的措施。
在原则上,在一批语言的每两种语言之间,只要求将每一个语言成员翻译成中间语言或从中间语言翻译成每一种语言。
如果有n种语言,就需要有n个成员被翻译成中间语言,然后再翻译成目标语言。
中间语言不必是为此目的特别设计的语言,如世界语。
C.基于知识的方法
这是一个转移系统,相对于转移成分来说,分析和生成成分是很大的工作,转移也因此根据相当抽象的条款来处理。
在不对语言普遍性承担责任的时候,这个转移系统也具有中间语言系统的特征。
所提到的语言普遍性可以看作语际法的特征。
像这样的语义转移系统引起了很多注意。
正如这些系统在中间语言和转移之间建立某种媒介位置一样,从某种程度上看,它们也是一种在我们现在已经考虑到的以语言学为基础的方法和CarnegieMellon大学与新墨西哥州立大学的语言研究中心着重从事的所谓的基于知识系统之间的妥协方法。
翻译很大部分取决于非具体语言的信息和能力。
这正是因为我们可以把日常世界的常识和知识当作是想当然的事,而我们却无法使机器也用这种方法看世界。
近年来出现的唯一的新的主要研究思路,已经投入使用,它使已有的翻译成为关于新作品信息的主要来源。
以实例为基础的机器翻译,即一个其他方面都设计得相当传统的系统,能够查阅现有翻译的集锦。
IBM支持一种十分激进的方式。
在这种方式里,系统所使用的全部知识,都要求自动来自现有大量翻译的统计特性。
10.2.3MT的质量
我们不得不承认:
在所有现有的实际翻译中会产生错误。
人们仍然能从中找到相同的错误,这类错误是人工翻译中不会出现的。
例如,错误的代词、介词,混乱不清的句法,措辞不当,用复数形式代替单数,时态错误等等。
Kay(在线)引用了一个著名的旧例,很好地说明了这个观点:
例10-1
Thepolicerefusedthestudentsapermitbecausetheyfearedviolence.(警察拒绝给学生通行证,因为他们害怕暴力。
)
假设它被译成像法语一样的语言,其中police这个词为阴性的,那么they这个代词也必将为阴性。
现在用advocated来代替feared,那么似乎句中的they是指students而不是police了,如果表students的词是阳性的,则它又将成为一个不同的译法。
要求得到这些结论的常识没有任何东西是有关语言学的。
这与students,police,violence这些日常现象以及我们所看到的它们之间的各种关系有关。
其次,翻译不是一项保留意义的工作。
试考虑下列用法语陈述的问题:
例10-2
Ouvoulez-vousquejememette?
它的字面意义是"Wheredoyouwantmetoputmyself?
"(你想让我把自己放在哪里?
)
但这是一个很自然的译法,因为want这种形式有一系列的英语提问形式"Wheredoyouwantmetosit/stand/signmyname/park/tieupmyboot?
"。
在大多数情况下,英语"Wheredoyouwantme?
"将被接受。
但是,为了翻译得更流畅而增删信息,也是很自然和常规的事。
有时这无法避免,因为有的语言像法语,代词表明数量和性别,日语中代词常常一起省略,俄语里没有冠词,汉语里的词不分单数和复数,动词也不分现在时和过去时,德语里词序的可适应性使得什么是主语什么是宾语变得不确定。
当然,如果系统保持研究原型以及低质量没什么公众影响的话,以上情况并不会成为问题。
但是,当商业性系统出现时,整个MT工业都将从低质量翻译中遭受打击。
不幸的是,这种状况在近期内不会改变。
没有任何迹象表明,基本通用的MT机器将有更大改进。
10.2.4MT和互联网
近年来,互联网的影响非常大。
人们常常听到有人说,21世纪是互联网的时代。
自然而然地,我们已经看到互联网本身实时在线的翻译是以加速度增长。
例如,近年来,已经出现许多特别设计的用于网页和电子邮件的翻译系统。
很显然,人们对某种翻译系统有急切的需求。
这种系统是特别为处理互联网上各种各样的口语信息(常常是非正规的形式和拼写)而开发的。
在这种情况下,我们不能依靠那些陈旧的语言学规则为基础的方式。
虽然,利用互联网上获得的大量数据,并以语料库为基础来研究它们的方式是合适的。
但这样的系统研究得很少。
人们一致赞同:
互联网具有更深远的影响。
这种影响当然将改变MT未来的前景。
预言之一就是:
孤立的个人计算机及其系列软件,如文字处理、数据库、游戏等,将被在必要时能从互联网上下载系统和程序的联网计算机所取代。
在这种情况下,单独购买MT软件,字典等,将被MT程序,字典,语法,翻译成果,具体字汇等的远程存储所代替。
这种远程存储将根据你选择所用的东西来付款。
互联网的另一个深远影响将与软件本身的特性有关。
互联网服务的用户所寻找的是,无论用的是哪种语言,最终都可以采用一种方式书写或存储以至翻译的信息。
用户将需要一个有翻译的信息检索,摘录和概括系统的统一整体。
因此,在未来几年里,"纯粹"的MT系统将越来越少,基于计算机的工具和应用将越来越多,而自动翻译仅仅是其中一个部分。
10.2.5口语翻译
新世纪人们广为预期的发展,一定是言语翻译的发展。
当研究项目在20世纪80年代末90年代初开始时,人人都知道实际应用是不可能的。
这些小范围内的系统的局限对任何进步都是非常重要的,这就是问题的复杂性。
但是这些局限意味着:
当实际演示之后,观察者们想知道什么时候更广泛的范围可行。
人们假设,一旦在小规模研究系统内基础的原则和方式被成功地证明了,那么生产大型实践系统的只是金融和管理问题。
事实上,大规模的MT系统必须一开始就被设计成这样,而这需要许多人多年的努力。
更有可能的是,将有为数众多的口语翻译的应用被作为小领域自然语言的应用,例如,数据库的询问(尤其是财政和股票市场的数据),商业谈判的相互交往,公司内部的交流等等。
10.2.6MT和人工翻译
在新世纪之初,很明显,MT和人工翻译能够且将会相对协调地同时存在。
我们仍旧需要那些人工翻译者的技巧作出贡献。
当翻译不得不讲求"可发行"质量时,人工翻译和MT都具有各自的作用。
机器翻译被证明对令人厌烦的技术文件大规模和/或快速翻译,(高度重复的)软件本地化手册的翻译,和许多别的情况而言,是有效的。
在这些情况下,MT加上必要的人工准备和修正的成本,或者在没有计算机辅助时使用计算机化的翻译工具的成本,明显比那些无计算机辅助的传统的人工翻译低得多。
通过对比可知,人工翻译者对非重复的语言上复杂的文本(例如,文学和法律的文本)而言,甚至对个别有关具体的高度专业化学术主题的文本而言,仍是也还将是无可替代的。
对文本翻译来说,在输出的质量不太重要的地方,机器翻译常常是一种理想的解决方法。
例如,对科学和工业的文件进行"初略"翻译,如果这种翻译仅仅用来由一个纯粹想找出重要的内容和信息,并不关心已翻译的任何东西的可理解度的人和肯定不会因笨拙的语言或语法错误而引起障碍的人来读,这时MT将逐渐成为唯一的选择。
对信息的一对一交替而言,人工翻译很可能会有作用,例如,商业通信(尤其是如果内容是敏感的或有法律约束的)。
但是对个人信件来说,MT系统更可能逐渐被使用;并且,对电子邮件和网页的信息摘录以及以计算机为基础的信息服务而言,MT是唯一可行的解决方法。
至于口语翻译,一定会是人工翻译的市场。
但是MT系统开放了一些新领域。
这些都是人工翻译从未具有的。
在这些新领域里,当作者用外语写成草稿版本时,他在产生一个原始文件时所需的辅助;电视字幕的实时在线翻译;数据库里信息的翻译。
毫无疑问,随着全球交流的网络扩展了,MT的实际可用程度将被更为广泛的大众所熟悉,更多的崭新的应用将在未来出现。
10.3语料库语言学
在上一节,我们知道MT方式之一是建立以实例为基础的系统,也就是说,一个"能参考现有翻译存储"的系统。
这就预先假设了一个关于现有翻译的非常大的语料库。
虽然美国结构主义语言学家都用过以语料库为基础的方法论(Kenne