汉语语料库的建设及其在汉语教学中的应用精华.docx

资源描述

汉语语料库的建设及其在汉语教学中的应用精华.docx

《汉语语料库的建设及其在汉语教学中的应用精华.docx》由会员分享，可在线阅读，更多相关《汉语语料库的建设及其在汉语教学中的应用精华.docx（17页珍藏版）》请在冰豆网上搜索。

汉语语料库的建设及其在汉语教学中的应用精华.docx

汉语语料库的建设及其在汉语教学中的应用精华

汉语语料库的建设及其在汉语教学中的应用（精华）

汉语语料库的建设及其在汉语教学中的应用

俞士汶

北京大学信息科学技术学院

北京大学计算语言学研究所

1.引言

语言学家历来重视第一手语言资料的获取和运用。

在个人计算机普及以前，语言学家只

能靠手工用卡片收集少量的典型的资料。

所以，中国前辈语言学家曾感叹他们是在用小本钱

做大买卖。

计算语言学把传统的语言学研究同自然语言信息处理技术结合起来，为语言学的

发展、为语言教学研究注入了新的活力。

计算语言学（ComputationalLinguistics）这个专业术语自1960年代在文献中出现以来

[1]，这门学科已经有了40多年的发展历史。

1990年代，语料库语言学异军突起，这是计算

语言学发展历史上的一个重要的里程碑。

由于计算机以及应用技术（电子排版、因特网等等）

的发展，大规模的电子文本唾手可得，自然语言处理技术专家有了从大规模真实文本中获取

语言知识（词频、词义、词语搭配、句子结构规则等等）的物质基础，基于大规模语料库的

统计语言模型（如:

n元语法、隐马尔可夫模型、向量空间模型等）在诸如词性标注、文本分

类等语言工程中的成功应用[2]更加有力地推动了语料库语言学的发展，至今仍是方兴未艾。

语料库语言学发展的基础设施是由大规模真实文本资料构成的语料库。

可以引用以下事

实作为语料库价值的佐证。

2002年3月，中国教育部和国家语委发布《第一批异形词整理

表》时，李行健先生解释了整理异形词所遵循的三个原则:

通用性、理据性、系统性。

并进

一步说明:

“通用性怎么确定呢,就是用计算机做词频统计。

”这项词频统计工作是应用计算

机技术、选用1995年至2000年6年共计1.5亿字的《人民日报》语料作为对象进行的。

如果没有理解错，笔者以为李行健先生所做的“词频统计”是仅仅针对预先收集到的几

百组（最多不过1500组）异形词进行的。

即使针对性如此明确，在中文文本中统

计这些异

形词的时候，仍会遇到困难。

原因同日语一样，书面汉语的词与词之间不留间隔。

“过分”

和“过份”是一组异形词。

如果在原始文本中简单地统计汉字串“过分”的出现次数，就会

出现误差。

例如，“他们有过分歧”、“有人做过分析”、“已经检查过分会场了”、“北大在汉

中办过分校”等等汉字串中的“过分”都不是一个词。

汉字串“过分”的出现频度并不等于

“过分”这个词的频度。

笔者以为，进行异形词统计的研究者应该是进行了人工校对的。

但

这样的工作并不能得到关于数以万计的汉语通用词语使用频度恼迦鲜丁,杂谥形睦此担?

实现大规模文本的正确的词语切分是词频统计的基础。

相对于原始的未经过任何加工的（生）

语料，将汉语句子正确地切分为词语序列（即在词语同词语之间加上区分标记，如:

空格）

的语料就是经过加工的（熟）语料。

面向不同的应用，语料库需要有不同深度的加工。

只作

切分，只能得到不区分词性的词频统计。

以“把”为例，至少有3种词性:

介词，量词，动

词，意义和用法截然不同。

只有在大规模文本中，在切分的基础上，进一步标注“把”的词

性，才能统计出带词性的词频。

显然，带词性的词频信息无论对信息处理、词典编纂还是汉

语教学都有重要的意义。

通常，将词语切分和词性标注这两件密切相关的加工任务叫做汉语

语料库的基本加工。

语料库语言学为汉语语料库的基本加工提供了理论模型和实现技术。

面向语言信息处理

的理论、技术和应用，北京大学计算语言学研究所（以下简称“北大计算语言所”）研制了

系列化的经过加工的语料库和其他语言知识库。

*本文相关研究得到中国国家自然科学基金项目69483003、973项目G1998030507-4、863项目2001AA114040的支持。

2.北京大学计算语言学研究所语料库建设概况

北大计算语言所从1992年起开始研究现代汉语语料库的多级加工技术，历时已有10

载，对从词语切分和词性标注的基本加工到树库的构建都进行过探索[3,4,5]，并完成了一

系列的大型语言工程，积累了一些有价值的成果。

目前，北大计算语言所拥有的加工语料库首推自1999年4月至2002年4月历时3年完

成的《人民日报》标注语料库。

该语料库包含1998年全年2600多万汉字语料，对全部语料

已完成词语切分和词性标注等基本加工。

该项成果通过了合作单位Fujitsu的验收。

其中

1月份的200多万字的标注语料已在计算语言所的主页（或

）上公布，可以免费下载。

对于上半年的1300万字的标注语料，业界可以

通过人民日报社新闻信息中心获得许可使用权。

语料库的加工离不开详细的、严谨的加工规范的指导。

《人民日报》语料库的加工规范

是1999年3月制订、2001年7月修订的《现代汉语语料库加工规范——词语切分与词性标

注》。

这个规范以《北京大学现代汉语语料库基本加工规范》[6]为题，已在《中文信息学报》

2002年第5期和第6期连载。

从遵照这个规范加工完成的《人民日报》标注语料库中，摘取一段样例如下:

原文是《人民日报》1998年12月1日第一版第二篇文章的第1,2,3,4段。

经加工后，词语

之间有了空格，斜杠之后的字母是该词语的标记。

《规范》的标记集包括约40个标记。

其

中包括26个词性标记（依据北大计算语言所开发的《现代汉语语法信息词典》的词类体系

[7]，基本词类有18类:

名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、

代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、

拟声词o。

另外增加了成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素

字x、标点符号w等8个附加类别）、专有名词标记（人名nr，地名ns，团体机构名称nt，

其他专名nz等）、语素子类标记（如名语素Ng，动语素Vg，形容语素Ag，副语素Dg等）

以及动词和形容词的特殊用法标记（如名动词vn，副动词vd，名形词an，副形词ad）。

不

妨将这些标记笼统地称为“词性标记”。

短语型专名“”、“”先切分标注，再用方括号标

记出来，结果为。

读者可以在本所的主页上测试中文文本词语切分词性标注软件。

中文汉字的一字多音现象虽然没有日文那么严重，对于初学者和外族人，仍然是令人头

痛的。

如果能实现中文文本的自动注音，对汉语教学是很有帮助的。

这也是实现语音识别、

语音合成等汉语信息处理系统的基础技术之一。

为了这些目的，北大计算语言所也开发了一

定规模的注音语料库。

摘录一段样例如下:

咱们/r中国/ns这么/r大{da4}/a的{de5}/u一个/mq多/a民族/n的{de5}/u

国家/n如果/c不/d团结/a，/w就/d不/d可能/v发展/v经济/n，/w人民/n

生活/n水平/n也/d就/d不/d可能/v得到/v改善/vn和{he2}/c提高/vn。

置于花括号内的字母数字串是多音词的汉语拼音（分别用1,2,3,4,5代表第一声、第二声、

第三声、第四声和轻声）。

它是在切分标注的基础上加上的。

对于单音词，直接查词典就可

以知道他们的读音了。

读者也可以在本所的主页上测试中文文本自动注音软件。

北大计算语言所于1980年代和1990年代曾进行了机器翻译译文质量自动评价研究。

为

此，建立了“英汉机器翻译译文质量测试大纲”（从本所主页可以下载）和根据这个大纲精

选的近万句英语句子，并给出了对应的译文。

这是北大计算语言所建立英汉对照双语语料库

的基础。

为了实现基于实例的机器翻译（ExamplesBasedMachineTranslation）,更需要

一个规模更大的不同级别对齐的双语语料库（alignedbilingualcorpus）。

现在，双语语

料库的规模如下:

篇章级对齐的，汉语有2000万字，英文有1000多万词。

句子级对齐的，65000句对

短语级对齐的，50000多条（一部分短语还附带属性信息）

通常能够收集到的对齐双语语料只是篇章级对齐的。

对于应用来说，单位过大，句子级

对齐的更适用。

为了实现较小的单位的对齐，需要开发辅助工具，也需要制订有

利于统一

管理和数据交换的标记。

现在，不仅有了一套便于双语语料库开发和应用的工具软件（包

括实现两种语言间不同单位的对齐、索引和检索、翻译等价单位提取等等），而且也有了

覆盖从篇章到句子各级语言单位的XML置标规范。

这样的双语语料库对于汉英对比研究和教学也是十分有价值的。

北大计算语言所曾参与

开发日汉机器翻译系统，也积累了一些日语资料。

在条件成熟时，拟开发包含汉、英、日、

韩、蒙、藏等多语对照的语料库。

如同一个人做工作，不仅要有语言能力和常识，还要具备专业知识一样，要最终实现自

然语言理解，也要给计算机配备专业领域的知识。

术语库（TermBank）是最基本的专业知

识。

由于很多学科都在迅速发展，静态的术语库是跟不上应用需求的。

需要建立从语料库中

及时提取新出现的术语的机制。

北大计算语言所于2002年启动了一个新的研究课题，即“科

技术语辅助提取与术语库建设”。

考虑到本单位的特点，首先选择信息科学与技术领域作为

实验对象。

到2002年底，已收集信息科学与技术领域的语料约1亿字，并完成了篇章级标注（包

括分支学科类别、标题、作者、摘要、关键词、来源、作品类型、地域分布等等），还要在

2000万字精心选择的核心语料库完成本领域术语的标注。

这样便提供了本领域术语的使用

环境。

这样，计算机辅助提取术语的软件不仅可以利用术语本身的结构知识，而且可以利用

语境知识。

3.北京大学计算语言学研究所的其他语言资源

除上述语料库外，北京大学计算语言学研究所在十多年的基础研究和应用研究中，还

积累了一系列的语言资源。

3.1

最重要的、而且最有影响的一项资源是自1986年便开始研制的《现代汉语语法信息词

典》。

这是一部面向语言信息处理的电子词典。

当前的收词规模已超过7.3万[8]。

构建这部

大型语法信息词典的最具创新性的思路是在依据语法功能分布原则建立一个现代汉语词语

分类体系并实际完成7.3万多词语的归类的基础上，进一步采用关系数据库技术对属于同一

类的词语详细描述它们的语法属性。

词典中有一个总库，吸纳各类词语共同的十几项属性信

息。

对每一类词语再各自建立一个数据库，描述其专有属性。

以动词库为例，设立的属性信

息字段包括:

是不是联系动词、助动词、趋向动词，能不能受“不”、“没”、“很”、“在/正

在”等副词修饰，能不能带“了”、“着”、“过”等助词，能不能带宾语，如果能带宾语，还

要描述能带什么样的宾语，体词性的、谓词性的还是准谓词性的，能不能带双宾语，等等，

共计40多项。

为了既能更细致地描述体宾动词、谓宾动词、双宾语动词等动词子类的属性，

又尽可能减少词典的冗余信息，对动词又设立了6个分库。

总括起来，《现代汉语语法信息

词典》所描述的动词属性达120多项。

当然，动词的属性字段是最多的。

各类词语的语法属

性字段平均约有50项。

规模是足够大的。

而7.3万词语的归类以及这些属性的值的确定更

是很不容易的。

以“分配”和“接受”这两个常用动词为例，也许人们平常说“分配学生一

个任务”和“接受上级一个任务”这样的话。

从这个层次看，“分配”和“接受”都可以带

双宾语。

但《现代汉语语法信息词典》认为“分配”是双宾语动词，而“接受”则不是。

为

什么,“分配学生一个任务”可以变换为“给学生分配一个任务”，而“接受上级一个任务”

不能这么变换。

反之，“接受上级一个任务”可以变换为“从上级接受一个任务”，而“分配

学生一个任务”不能这么变换。

在更深的层次上，这两个动词带宾语的属性是不同的。

《现

代汉语语法信息词典》的规格说明书限定只对“给予”义的动词描述它能否带双宾语。

这部词典是制订语料库加工规范和开发自动切分标注软件的基础。

反过来，大规模加工

语料库的存在又推动了《现代汉语语法信息词典》的发展。

现在的《现代汉语语

法信息词典》

关于词的语法属性的描述都是定性的，属性值的类型是可否型（或逻辑型）的。

有了《人民

日报》标注语料库之后，可以将其改造为概率型的。

仍以动词的若干属性为例:

动词总频次不没很在正在了着过

吃3125103241721772585

发226198000194512

发展2102127007216161201

进4435387012584150

进行1981332107019335727977

睡289750005912

说343569629012014196262

听16694440202107421

想43392621938311388934

上表列出了9个常用动词的若干属性的频次。

总频次表示这些动词在2600多万字的一

年语料中出现的总次数。

“很”所在列的值表示它们左接副词“很”的次数。

从“发”到“听”，

中间7个的值都是“0”，验证了《现代汉语语法信息词典》关于这些动词不能受“很”修饰

的描述。

“想”在语料中共出现4339次，受“很”奘?

8次，通常认为“想”可以受“很”

修饰，也是得到了证实的。

问题出在“吃”上。

通常认为“吃”不能受“很”修饰。

但这里

出现了1次（“拷寇”是一出唱、念、做、舞都很吃功的戏）。

以往常常用一个反例否定一个

命题（二值逻辑理该如此），但语言现象又不宜如此简单地处理。

1/3125=0.00032，如果用

概率值描述，可以近似地认为“吃”受“很”修饰的概率为0.032%。

而38/4339=0.0088，

即“想”受“很”修饰的概率为0.88%。

如果仍希望使用“可否型”的值，不妨确定一个阈

值δ=0.5%，因0.88%>δ，重新确认“想”可以受“很”修饰，而0.032%汉语语义词典》[9]，

完成了4.9万汉语常用实词（名词、动词、形容词）及部分成语、习用语的语义分类和配价

信息描述。

自2001年起，计算语言所又与北大中文系合作，在中国国家973项目“面向新

闻领域的汉英机器翻译系统”和“现代汉语动词论旨结构系统和汉语词语语义分类层级系统

研究”的支持下，再次发展《现代汉语语义词典》。

预计2003年初，《现代汉语语义词典》

的规模将达到7万个记录，词典的质量也有较大的提高。

它既可以在中文信息处理应用系统

中独立使用，也可以通过“词语、词类、同形”这3个主关键字（primarykey）与《现代汉语

语法信息词典》进行链接，相互配合，从而使系统获得更加完备的语法、语义信息。

3.3

北大计算语言所自2000年9月开始构建中文概念词典（ChineseConcept

Dictionary,

CCD）。

CCD是WordNet框架下的现代汉英双语概念词典，同时提供汉英双语概念的知识表

达[10]。

在词典设计的理念上，它同WordNet兼容，从关系语义学的观点出发，用同义词集

合（synset）来描述概念，用同义关系、反义关系、上下位关系、整体部分关系来描述词汇的

语义;同时，针对中文的语言文化特点，CCD也在概念的内容和概念间的关系上对WordNet

进行了一定的调整和发展。

CCD可以直接应用于概念检索、信息提取、自动文摘、文本分

类和机器翻译等领域，为其中的语义理解任务提供丰富的语义资源。

中文概念词典和现代汉

语语义词典各有侧重，相辅相成。

CCD课题组将计算词典学的诸多新思想引入研制全过程的各个环节，设计并实现了一

个可视化的辅助词典构造软件VACOL（VisualizedAuxiliaryConstructionof

Lexicon），并提出

了CCD的构造模型。

该模型强调双语词典（BilingualLexicon）构造中的继承（Inheritance）和转

换（Transformation）的思想，逐步实现由WordNet到CCD的计算性转换和词典结构的自动维

护，水到渠成地得到一个汉英对应的双语概念词典，从而大幅度提高词典编纂的质量和效率。

现在已完成了约60,000个双语概念的描述。

2003年将完成7万个中文常用概念的描述。

3.4

北大计算语言所与中国标准研究中心合作于2001年12月-2002年12月承担了“信息

科学与技术领域术语辅助提取及术语库的建设”项目。

现在已初步建成了一个“信

息科学技

术术语库”。

其中术语条目已超过15万，对其中的6万条术语已收集了相关定义，正在校对

中。

更完整的信息科学技术术语库在建成后，将提供社会服务。

3.5

北大计算语言研究所开展古诗词计算机辅助研究，已有近十年的历史[11]。

已收集整理

古代诗词语料1100万字，其中900万字完成了题名、作者、体裁等篇章信息的标注，640

万字完成了注音、切分和词性标注。

还构造了一部含4万多条目的多字词词典，并建立了

1400名诗人的属性库（包括生卒年、性别、籍贯以及诸如皇帝、官僚、平民、僧人、道士

等身份）。

3.6

现代汉语的短语（phrase,又叫词组）是由两个以上的词或短语按照一定的规则构成的、能

在更大的句法结构中承担主语、谓语、述语、宾语、定语、状语、补语、中心语等功能的语

法单位。

针对《现代汉语语法信息词典》中的18个基本词类，全面地考察了18*18=324种

两两组合（例如名词和名词、名词和动词、动词和名词、动词和动词等）构成合法短语的情

况，然后再用短语（名词性的，动词性的，等等）替代合法短语中的词类，递归地构造出更

复杂的短语，如此得到600多条短语结构规则[12]。

适应计算机自动处理的需要，这些规则是形式化的，严格地给出规则成立的条件（包括

《现代汉语语法信息词典》中词语的语法属性）及执行规则所产生的结果。

例如，对于动-

名组合具体地指明什么样的动词和什么样的名词可以构成什么样的短语，该短语是体词性的

还是谓词性的，它继承了构成成分（特别是中心成分）的哪些属性，失去了哪些属性，又派

生了哪些新的属性等等。

4.语言知识库在汉语教学中的应用

Internet的迅速扩展引起了教育模式的变革，“网上教学”成了时尚。

同传统的教育模式

相比较，“网上教学”的确有其优势。

学校代替私塾曾经是中国教育模式的一个重

大变革。

在私塾里，学生只跟一个老师学，因而有“良师出高徒”之说。

到了学校，学生可以跟许多

老师学，好比蜜蜂采百花蜜。

不过，不论私塾还是学校，学生基本上是在被动地接受知识，

主动学习的空间相当狭小。

“网上教学”就不同了，学生可以根据自己的需要和时间主动地

学习，也可以超越地理界限，跟远在外地、外国的老师学。

这里所说的“老师”是广义的，

包括各个教育网站以及它们所提供的各种教育资源。

在以“教”为主导的模式中，好的老师

已经主张“教给学生一杯水，自己要准备一桶水”。

当教育模式转变为以“学”为主导时，

作为教育资源的核心的各种知识库的整备成为网上教育成败的关键。

将传统的教科书、百科

全书等所包含的知识重新组织和包装，成为电子书籍（E-book）,自然是重要的知识库。

为

计算机处理乃至“理解”自然语言而开发的各种知识库基础性和完备性等特征对于语言教学

来说，用来作为网上语言教学的资源也是有优势的。

汉语教学的对象可划分为两类:

第一类

学生的母语是汉语;第二类学生的母语是其他语言。

针对不同的对象，利用这些知识库的方

式应该是不一样的。

本文着重讨论以第二类学生为对象，如何利用这些知识库。

词汇教学是语言教学的基础。

相当多的外国朋友学习汉语是为了能够阅读中文资料以便

直接了解当代中国的社会、政治、经济、科技、文化、教育、体育、旅游等各方面的实际情

况。

《人民日报》是反映当代中国实际的知识宝库，也是传播中国社会各个领域的信息的主

渠道。

对于外国人来说，阅读《人民日报》相当于打开了认识中国的一扇窗户。

而且，李行

健先生在解释为什么选《人民日报》作为词频统计的语料时，明确地指出:

“专家和有关方

面都认为，《人民日报》最能代表当代汉语的书面语言风格”。

甚至一张简单的《人民日报》

词频表也能折射出中国社会生活的某些侧面。

词典是词汇教学的主要工具书。

可是，过去编

词典碰到的第一个难题就是收词问题。

根据使用频度选词最合理，可是过去却不便操作。

这

是因为中文文本只适合做字频统计，而词频统计就绕不开词语切分的难题。

现在

有了2600

多万字的《人民日报》标注语料库，得到“切分单位”的出现频度（不妨简单地认为这就是

“词频”）是轻而易举的事。

新词语是词汇教学和词典编纂必须面对的另一个问题。

虽然使

用频度仍是决定一个新词语该不该收入词典的重要依据，但是在文本中确定新词是中文信息

自动处理的一个更困难的课题。

当注意到2600多万字的《人民日报》标注语料库是由1998

年全年的语料加工得到的，这个问题的解决有了希望。

从这个标注语料库得到了1998年的

词表，以此为基础，处理1999年的《人民日报》，准确度会很高。

新词基本上只会在那些“碎

片”中出现。

需要特别关注的范围大大缩小，人与机器配合，可望解决新词发现问题。

这样

便又得到了1999年的词表，如此递进，不断发现和确认新词，词典编纂就可以跟上时代的

步伐。

当然，也可以先从2002年做起，两头夹击，也许可以更快地解决这个问题。

在1980年代，中国也曾在2000万字语料的规模上进行过词频统计。

但同一个“词形”

却可能是不同的“词”。

例如，“把”既是介词，又是量词和动词，意义和用法各不相同。

因

此，为了更准确地把握汉语词汇的全局，需要做带词性的词频统计。

在汉语语言学研究史上

这是从来没有做过的事。

由于现在的2600万字的语料库不仅完成了切分，而且进行了词性

标注，这样就可以更细致地统计带词性的词语使用频度。

带注音的语料库可以帮助掌握词语

的正确读音更是显然的（如连词“和”、介词“和”都读he2，动词“和”却有4种不同读

音:

he2,hu2,huo2,huo4）。

依据这些基础研究成果实施汉语词汇教学，自然会收到事半功倍

的效果。

当然，在这样的语料库进行数据挖掘和知识发现研究，还可以得到更深层的知识，如词

语搭配知识、短语结构规则、句型及其分布等等。

中国著名语言学家朱德熙先生在1987年

出版的《现代汉语名词量词搭配词典》（作者是刘学敏、邓崇谟）序言中说:

“现代汉语的名

词大都有固定的量词跟它搭配，对于外国人、外族人或中小学生来说，学习一个

新的名词的

时候，必须同时记住跟它搭配的量词是什么。

因此理想的词典应该在名

展开阅读全文