转载《语言学中的数学方法》导读Word格式.docx

资源描述

转载《语言学中的数学方法》导读Word格式.docx

《转载《语言学中的数学方法》导读Word格式.docx》由会员分享，可在线阅读，更多相关《转载《语言学中的数学方法》导读Word格式.docx（10页珍藏版）》请在冰豆网上搜索。

转载《语言学中的数学方法》导读Word格式.docx

它们似乎成了学校教育的两个极点：

一个极点是作为文科代表者的语文，一个极点是作为理科代表者的数学，在一般人看来，语文和数学似乎是两个风马牛不相及的学科，很少有人想到，这两门表面上如此不同的学科之间竟然还存在着深刻的内在联系。

可是，一些有远见卓识的学者却慧眼独具，敏锐地看出了语言和数学之间的联系。

早在19世纪中叶，就有人提出过用数学来研究语言现象的想法。

例如，1847年，俄国数学家В.Я.Вуляковский（Buljakovski，布里亚柯夫斯基）认为可以用概率论来进行语法、词源及语言历史比较的研究。

1894年，瑞士语言学家DeSaussure（索绪尔）指出，"

在基本性质方面，语言中的量和量之间的关系可以用数学公式有规律地表达出来"

，后来，他在其名著《普通语言学教程》（1916年）中又指出，语言学好比一个几何系统，"

它可以归结为一些待证的定理"

1904年，波兰语言学家BaudouindeCourtenay（博杜恩·

德·

古尔特内）认为，语言学家不仅应该掌握初等数学，而且还要掌握高等数学。

他表示坚信，语言学将日益接近精密科学，语言学将根据数学的模式，一方面"

更多地扩展量的概念"

，一方面"

将发展新的演绎思想的方法"

1933年，美国语言学家L.Bloomfield（布龙菲尔德）提出了一个著名的论点：

数学不过是语言所能达到的最高境界"

当时，学者们不仅提出了这些想法，还有人用数学方法对语言进行了实际的研究。

1851年，英国数学家A.DeMorgen（德摩根）曾把词长作为文章风格的一个特征进行过统计研究。

1867年，苏格兰学者L.Campbell（坎贝尔）用统计方法来确定Plato（柏拉图）著作的执笔时期。

1881年，德国学者Dittinberger（迪丁贝尔格）进一步用统计方法把Plato著作的执笔时期分为前期、中期和后期三个阶段。

1887年，美国学者C.Mendenhall（门登荷尔）对不同时期的英国文学作品进行过统计分析，特别是研究了Shakespeare（莎士比亚）的作品。

1898年，德国学者F.W.Kaeding（凯定）编制了世界上第一部频度词典《德语频度词典》，用以改进速记的方法。

1913年，俄国数学家А.А.Марков（Markov，马尔可夫）采用概率论方法研究过《欧根·

奥涅金》中的俄语元音和辅音字母序列的生成问题，提出可马尔可夫随机过程论，后来成了数学一个独立的分支，对现代数学产生了深远的影响。

语言结构中所蕴藏的数学规律，成了Марков创造性思想的源泉。

1935年，美国语文学家G.F.Zipf（齐夫）发表了Zipf定律（Zipf'

slaw），用数学方法描述频度词典中单词的序号分布规律。

同年，加拿大学者E.VarderBake（贝克）提出了词的分布率的概念，认为词典在选词时，应当以分布率为主要标准，频度为辅助标准。

1941年，英国数学家G.U.Yule（尤勒）发表了《文学词语的统计分布》一书，大规模地使用概率和统计方法来研究语言。

然而，不论是Вуляковский，Saussure，Baudouin和Bloomfield的想法和信念也好，还是Марков等学者的实际研究也好，都没有对语言学本身发生显著的影响。

这是由当时的社会实践的要求所决定的，因为当时的语言学，主要是为语言教学、文献翻译、文学创作和社会历史研究服务的，在这样的社会实践要求下，语言学还没有很大的必要与数学建立直接的联系。

就是像Марков从语言符号序列的观察和分析中发现随机过程的卓越成就，在语言学界也鲜为人知。

语言学仍然沿着自己传统的道路，孤立于数学之外，迟缓地发展着。

与此同时，有一些杰出的学者学开始从计算机和通讯的角度来关注语言问题,取得了突破性的成就。

在计算机出现以前，英国数学家A.M.Turing（图灵，1912-1954）就预见到未来的计算机将会对自然语言研究提出新的问题。

他在1950年发表的《机器能思维吗》一文中指出：

我们可以期待，总有一天机器会同人在一切的智能领域里竞争起来。

但是，以哪一点作为竞争的出发点呢?

这是一个很难决定的问题。

许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点，不过，我更倾向于支持另一种主张，这种主张认为，最好的出发点是制造出一种具有智能的、可用钱买到的机器，然后，教这种机器理解英语并且说英语。

这个过程可以仿效小孩子说话的那种办法来进行。

[2]A.M.Turing提出，检验计算机智能高低的最好办法是让计算机来讲英语和理解英语，他天才地预见到计算机和自然语言将会结下不解之缘，显示他不同凡响的洞察力。

在第二次世界大战刚结束时那个充满了理智的时代，计算机的研制正在紧锣密鼓地进行着，这时，有三项基础性的研究特别值得注意：

--一项是A.M.Turing（图灵）算法计算模型的研究，

--第二项是N.Chomsky形式语言理论的研究，

--第三项是C.E.Shannon（香农）概率和信息论模型的研究。

20世纪50年代提出的自动机理论来源于A.M.Turing在1936年提出的算法计算模型，这种模型被认为是现代计算机科学的基础。

Turing的工作首先导致了McCulloch-Pitts（麦克罗克-皮特）的神经元（neuron）理论。

一个简单的神经元模型就是一个计算的单元，它可以用命题逻辑来描述。

接着，Turing的工作导致了Kleene（克林）关于有限自动机和正则表达式的研究，这些研究都与语言的形式化描述有密切关系。

Turing是一个数学家，他的算法计算模型是针对形式语言的，但与数学有着密切的关系。

1948年，C.E.Shannon把离散马尔可夫过程的概率模型应用于描述语言的自动机。

1956年，N.Chomsky（乔姆斯基）从Shannon的工作中吸取了有限状态马尔可夫过程的思想，首先把有限状态自动机作为一种工具来刻画语言的语法，并且把有限状态语言定义为由有限状态语法生成的语言。

这些早期的研究工作产生了"

形式语言理论"

（formallanguagetheory）这样的研究领域，采用代数和集合论把形式语言定义为符号的序列。

Chomsky在研究自然语言的时候首先提出了上下文无关语法（Context-FreeGrammar），但是，Backus（巴库斯）和Naur（瑙尔）等在描述ALGOL程序语言的工作中，分别于1959年和1960年也独立地发现了这种他们提出的巴库斯-瑙尔范式（Backus-Naurnormalform）与Chomsky的上下文无关语法是等价的。

这些研究把数学、计算机科学与语言学巧妙地结合起来，大大地促进了学者们采用数学方法来研究语言的数学面貌。

N.Chomsky在他的研究中，把计算机程序设计语言与自然语言置于相同的平面上，用统一的观点进行研究和界说。

Chomsky在《自然语言形式分析导论》一文中，从数学的角度给语言提出了新的定义，指出：

这个定义既适用于自然语言，又适用于逻辑和计算机程序设计理论中的人造语言"

[3]。

在《语法的形式特性》一文中，他专门用了一节的篇幅来论述程序设计语言，讨论了有关程序设计语言的编译程序问题，这些问题，是作为"

组成成分结构的语法的形式研究"

[4]，从数学的角度提出来，并从计算机科学理论的角度来探讨的。

他在《上下文无关语言的代数理论》一文中提出：

我们这里要考虑的是各种生成句子的装置，它们又以各种各样的方式，同自然语言的语法和各种人造语言的语法二者都有着密切的联系。

我们将把语言直接地看成在符号的某一有限集合V中的符号串的集合，而V就叫做该语言的词汇.，我们把语法看成是对程序设计语言的详细说明，而把符号串看成是程序。

[5]在这里乔姆斯基把自然语言和程序设计语言放在同一平面上，从数学和计算机科学的角度，用统一的观点来加以考察，对"

语言"

、"

词汇"

等语言学中的基本概念，获得了高度抽象化的认识。

这个时期的另外一项基础研究工作是用于语音和语言处理的概率算法的研制，这是C.E.Shannon的另一个贡献。

Shannon把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为噪声信道（noisychannel）或者解码（decoding）。

Shannon还借用热力学的术语"

熵"

（entropy）作为测量信道的信息能力或者语言的信息量的一种方法，并且他采用手工方法来统计英语字母的概率，然后使用概率技术首次测定了英语字母的熵为4.03比特。

这些研究与数学和统计学有着密切的关系，属于信息论（informationtheory）的基础性研究。

Turing,Chomsky和Shannon这三位学者的研究，为在语言学中采用数学方法提出了明确的思路，为语言学和数学的结合奠定了坚实的理论基础。

另一方面，社会实践的迫切要求进一步推动了语言学和数学的结合。

20世纪以来，由于科学技术突飞猛进的发展，科技文献的数量与日俱增，世界各国每天出版的科技文献以数十万计，科技文献的这种增长情况被形容为"

信息爆炸"

（informationexplosion）。

面对浩如烟海的科技文献，科技工作者为了了解外国的研究成果，取得科技情报，不得不花费大量的人力、物力来做难以数计的翻译工作，大大地影响了科研工作的效率。

1946年，世界上第一台电子计算机研制成功，紧接着，在20世纪50年代初期，人们就开始考虑把这些工作交给电子计算机去做，利用电子计算机把一种形式的信息转换成另一种形式的信息，也就是将原始信息转换成为结果信息，这就提出了机器翻译、机器自动作文摘以及机器自动检索科技文献等信息加工问题。

在用计算机将一种语言A翻译为另一种语言B时，除了确定语言A中的每一个词在语言B中相应的等价物之外，还必须分析语言A的句子结构和语义结构，并把翻译出来的词作某种变化，按照语言B的结构把它们配置起来，最后生成语言B。

这样，人们就得"

教会"

计算机自动地分析和生成句子。

但是我们知道，任何一个问题要用计算机自动地来解决，首先就要使该问题所涉及的现象能够用数学语言来描述，也就是要把所考虑的问题"

数学化"

所以，为了进行机器翻译，首先就要采用数学语言来描写语言现象，对传统语言学中的各种概念用数学的方法进行严格的分析，建立语言的数学模型（mathematicalmodel）。

用计算机自动做文摘和检索时，要求把科技文献的信息储存在计算机中，计算机按照人们的要求，在其所储存的信息的范围内，对人们提出的问题自动地进行文摘和检索。

在计算机中用以储存信息的语言，在内容上应该是严格的、精确的，在形式上应该适于计算机储存形式的要求，这当然也要用精密的数学方法来加以描述。

由于自动化技术和计算技术的发展，人们正在迅速解决生产过程自动化问题，争取在不远的将来，用自然语言来进行"

人机对话"

（man-machinedialogue），让计算机能理解自然语言，这就要求将自然语言代码化，变为计算机所能理解的形式，自动地从自然语言的外部形态中，抽出它所表示的语义内容，并将计算机所理解到的语义内容，根据"

的要求，由计算机组织成相应的语句，回答人所提出的问题。

另外，由于通讯技术的发展，要求对负载信息的语言寻找最佳编码方法，要求提高信道的传输能力，以便在保持意义不变的前提下，最大限度地压缩所传输的文句，在单位时间内传输最多的信息，这就需要对语言的统计特性进行精密的研究。

语音识别和语音合成的研究也需要使用信号处理的技术，而信号处理技术离不开数学。

随着信息技术的进步和网络的发展，因特网（Internet）逐渐变成一个多语言的网络世界。

目前，在因特网上除了使用英语之外，越来越多地使用汉语、西班牙语、德语、法语、日语、韩国语等英语之外的语言。

从2000年到2005年，因特网上使用英语的人数仅仅增加了126.9%，而在此期间，因特网上使用俄语的人数增加了664.5%，使用葡萄牙语的人数增加了327.3%，使用中文的人数增加了309.6%，使用法语的人数增加了235.9%。

因特网上使用英语之外的其他语言的人数增加得越来越多，英语在因特网上独霸天下的局面已经打破，因特网确实已经变成了多语言的网络世界，因此，网络上的不同语言之间的自动翻译自然也就越来越迫切了。

在当今的信息时代，科学技术的发展日新月异，新的信息、新的知识如雨后春笋地不断增加，信息爆炸的情况更加严重。

现在，世界上出版的科技刊物达165000种，平均每天有大约2万篇科技论文发表。

专家估计，我们目前每天在因特网上传输的数据量之大，已经超过了整个19世纪的全部数据的总和；

我们在新的21世纪所要处理的知识总量将要大大地超过我们在过去2500年历史长河中所积累起来的全部知识总量。

随着知识突飞猛进的增长，翻译市场供不应求的局面也就越来越严重了。

根据国际权威机构对于世界翻译市场的调查显示，全世界翻译市场的规模在1999年只是104亿美元，在2003年为172亿美元，而在2005年则达到了227亿美元。

随着因特网应用范围的扩大和国际电子商务市场的日渐成熟，到2007年，只是网页的翻译业务将达到17亿美元的规模。

目前，我国翻译能力严重不足，我国翻译市场的规模尽管已经超过了100亿人民币，但是现有的国内翻译公司只能消化10%左右，由于无法消化大量从国际上传来的信息流，我们的信息不灵，就有可能使我们在国际竞争中失去大量的机会。

在这样的情况下，机器翻译、信息检索、信息挖掘、自动文摘等自然语言处理（NaturalLanguageProcessing，简称NLP）的研究显得更加迫切，自然语言处理成为了当代语言学中最引人注意的一个新兴学科。

美国计算机科学家BillManaris（玛纳利斯）在1999年出版的《计算机进展》（AdvancedinComputers）第47卷的《从人-机交互的角度看自然语言处理》一文中曾经给自然语言处理提出了如下的定义：

自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。

自然语言处理要研制表示语言能力（linguisticcompetence）和语言应用（linguisticperformance）的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断地完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。

这个定义比较全面，我们认同这样的定义。

我们认为，计算机对自然语言的研究和处理，一般应经过如下四个方面的过程：

第一，把需要研究的问题在语言学上加以形式化，建立语言的形式化模型，使之能以一定的数学形式，严密而规整地表示出来；

这个过程可以叫做"

形式化"

第二，把这种严密而规整的数学形式表示为算法，这个过程可以叫做"

算法化"

；

第三，根据算法编写计算机程序，使之在计算机上加以实现，建立各种实用的自然语言处理系统；

程序化"

第四，对于所建立的自然语言处理系统进行评测，使之不断地改进质量和性能，以满足用户的要求；

实用化"

显而易见，要为自然语言处理建立形式化、算法化、程序化、实用化的语言模型，都离不开数学，都必须使用数学方法来分析和描述语言，语言学与数学的结合已经到了迫在眉睫的地步了。

上面我们只是分析了语言学与数学结合的必要性，那么，语言学与数学的结合是否有可能呢?

我们认为，不论从语言本身的性质来看，还是从当前科学技术发展的水平来看，都是有可能的。

语言本身的性质来看，正如DeSaussure（索绪尔）指出的，语言是一个符号系统，它可以同交通信号灯这样的符号系统相类比，只不过比交通信号灯复杂得多。

每一种语言都是"

能指"

（即符号的物质表达）与"

所指"

（即概念或对象）的统一体，它为不同平面上的一定的结构规律制约着。

音位学支配着语音的结合，形态学支配着构词和变词，句法学支配着词的组合。

因此，我们在研究语言时，可以只管它的结构，至于这种语言是口说的或是手写的，还是用莫尔斯电码编了码的，对于研究者来说都是无关紧要的。

这正如在下棋时，棋局的结构是重要的，而用木头的棋子或是用象牙的棋子则是无关紧要的一样。

这样，我们就可以把语言看成是一个抽象的符号系统，这种抽象的符号系统，当然可以用数学来加以研究。

从科学技术当前的发展水平来看，也为用数学来研究语言提供了理论和方法。

现代数学日新月异地发展，20世纪以来迅速发展着的概率论、数理统计、信息论、集合论、数理逻辑、图论、格论和抽象代数等数学部门，为用数学思想和方法研究语言提供了有力的武器。

现代语言学也逐渐向精密化方向发展，在传统语言学内，出现了O.Jespersen（叶斯泊森）的"

分析句法"

，在结构语言学内，L.B1oomfield（布龙菲尔德），Z.Harris（哈里斯）和C.Hockett（霍凯特）等人提出了以替换和分布为手段，以辨别语素、分析层次为目标的一套严格的语言研究法。

这些语言学派，在其语言观方面难免有片面之处，就是其具体方法本身，也有许多故弄玄虚、徒滋纷扰的地方。

但是，由于采用了比过去的语言学更加严格的精密方法，在某些方面，对于用数学思想和数学方法来研究语言也有一定的启示作用。

另外，本世纪以来，控制论（cybernetics）逐渐成熟起来。

控制论是研究机器与机器之问、人与人之间、人与机器之间的信息的传输、接收、储存、加工和利用的一门综合学科，而语言是人类最重要的交际工具，是信息的最主要的负荷者，对语言进行精密的研究，有助于控制论的发展，而控制论采用的一些方法，特别是模拟方法，也可以作为建立语言模型的借鉴。

近年来，计算机科学发展迅速，语言学与计算机科学日益接近并互相渗透。

计算机科学中使用的高级程序语言要尽量与人们的自然语言相接近，而其高级的程度，恰恰就是依这种程序语言与自然语言相接近的程度而定的，越接近自然语言就越高级，也就越便于人们掌握和使用。

这样，计算机科学中对程序语言结构和编译技术的研究，就可以作为用数学方法研究自然语言的参考。

目前，人工智能已经成为国内外科技界十分关注的一个领域。

自然语言是人类最重要的一种智能，人工智能所探讨的有关人类智能活动的一般规律，对使用数学方法来研究语言，有着一般性的指导作用。

因此，我们可以说，使用数学方法来研究语言，不但是必要的，而且也是可能的。

生活在信息时代的语言学家，应当面对信息时代的需要，努力进行知识更新的再学习，改进自己的知识结构。

本书恰好可以满足这样的要求。

我国学者早在50年代就关注到语言学中数学问题的研究。

最早关注这个问题并且认识到其深远意义的人是50年代的大学生冯志伟。

他于1957年在北京大学求学期间，就敏锐地注意到语言的数学描述问题，1959年他毅然从理科转到中文系语言专业，试图用公理化的方法来研究语言的结构，他的研究生毕业论文就是"

数学方法在语言学中的应用"

可惜他的研究很少人能够理解，一些人甚至认为他是离经叛道的古怪学生，他成为了一个孤掌难鸣、应者寥寥的孤独者，随着1966年的"

文革"

浩劫，他的研究生毕业论文被中途腰斩了，冯志伟也被迫改行，于1968年离开了北京大学。

离开北京大学之后，由于资料缺乏，信息闭塞，他的研究条件变得异常地艰苦，但冯志伟仍然一如既往地坚持着他的探索，1982年秋天，冯志伟应母校北京大学的邀请，在北京大学中文系汉语专业开设了"

语言学中的数学问题"

的选修课。

这是国内首次在高等学校全面地、系统地讲述语言学中的数学问题的课程，受到学生们的欢迎。

北京大学前任校长、著名数学家丁石孙教授在他的专著《数学与教育》一书中，对冯志伟的这门课程作了如下的评价：

1982年，北京大学中文系开设了《语言学中的数学问题》，这是给汉语专业学生开的选修课程，许多同学对这门学科产生了很大的兴趣，经过一个学期的学习，同学们初步认识了现代数学的发展给语言学注入了生机，觉得获益匪浅，对语言学这门古老的学科分支的发展充满了信心，而且这一举动冲击了相当多的人的旧概念，使闭塞的中国学术界认识到，即使在人文科学教育中，数学也在逐渐起作用。

[6]在北京大学讲稿的基础之上，冯志伟写出了我国第一部系统地用数学方法研究语言的专著，书名叫做《数理语言学》，于1985年8月由上海知识出版社出版，全书分代数语言学、统计语言学和应用数理语言学三部分，简明扼要地论述数理语言学的基本原理和方法。

他在1991年又出版了《数学与语言》，分七章论述了数学与语言的关系：

语言符号的随机性与统计数学，语言符号的离散性与集合论，语言符号的递归性与公理化方法，语言符号的层次性与图论，语言符号的非单元性与复杂特征的运算，语言符号的模糊性与模糊数学。

著名数学家陈省身在扉页上为该书题词：

我们赞赏数学，我们需要数学"

[7]。

冯志伟的艰苦探索终于得到了我国学术界的认可。

现在我们进入了信息网络时代，冯志伟数十年前的对于语言学中数学方法的探索已经成为陈年旧事，依稀地存留在一些人的记忆中。

随着我国自然语言处理研究的进一步发展，越来越多的学者开始关注语言学中数学方法的研究，数学方法在语言研究中的应用越来越广泛，就是在传统的语言学研究中，也开始采用数学的方法，不再认为使用数学方法来研究语言是一种离经叛道的古怪行为。

我们认为，在语言研究中采用数学方法，现在已经得到了我国语言学界的普遍认同。

随着自然语言处理研究的发展，数学已经成为语言学研究的最重要的一种工具。

今天，现代语言学的研究，特别是面向计算机的语言学研究，离开了数学将寸步难行。

正是由于这种在观念上的巨大变化，今天我们才有可能理直气壮向读者们推荐这本《语言学中的数学方法》，并且建议在语言研究中使用这样的方法。

本书是专门为语言学工作者写的，讲数学问题时都紧紧扣住语言，深入浅出，实例丰富，作者还精心设计了大量的练习，书末附有练习答案选，正好满足了语言学工作者更新知识的迫切需要，是一本不可多得的优秀读物。

二、本书主要内容

本书的作者有三位，他们都是语言学家。

本书第一作者BarbaraH.Partee（帕蒂）是美国马萨诸萨大学（UniversityofMassachusetts）著名的语言学和哲学教授，国际上资深的蒙塔鸠语法（Montaguegrammar）研究专家和形式语义学（formalsemantics）奠基人之一，蒙塔鸠（Montague）英年早逝，BarbaraH.Partee首先提出蒙塔鸠语法这个术语，使得蒙塔鸠的卓越成果得以传于后世。

她于1965年师从当代著名语言学家N.Chomsky获得博士学位，1986年担任美国语言学会主席，1984年和1989年先后当选为美国文理科学院和国家科学院院士，她也是荷兰皇家文理科学院外籍院士。

多年来她一直担任国际形式语义学刊物的编委。

本书第二作者AliceterMeulen（默棱）,出生于荷兰的阿姆斯特丹（Amsterdam）,获美国斯坦福大学（StanfordUniversity）博士学位，1985

展开阅读全文

转载 《语言学中的数学方法》导读Word格式.docx

转载《语言学中的数学方法》导读Word格式.docx