从语料库中挖掘知识北语1.docx

上传人:b****6 文档编号:7228858 上传时间:2023-01-22 格式:DOCX 页数:27 大小:1.27MB
下载 相关 举报
从语料库中挖掘知识北语1.docx_第1页
第1页 / 共27页
从语料库中挖掘知识北语1.docx_第2页
第2页 / 共27页
从语料库中挖掘知识北语1.docx_第3页
第3页 / 共27页
从语料库中挖掘知识北语1.docx_第4页
第4页 / 共27页
从语料库中挖掘知识北语1.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

从语料库中挖掘知识北语1.docx

《从语料库中挖掘知识北语1.docx》由会员分享,可在线阅读,更多相关《从语料库中挖掘知识北语1.docx(27页珍藏版)》请在冰豆网上搜索。

从语料库中挖掘知识北语1.docx

从语料库中挖掘知识北语1

语言信息处理与汉语知识研讨会,2010/5/29-30,北京语言大学

从语料库中挖掘知识

MiningKnowledgefromCorpus

冯志伟

提要:

本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作,如,汉语名词语法功能的研究,20种语言中心词居前与中心词居后的分布研究,汉语复杂网络的研究。

这些工作都是在汉语依存树库的基础上进行的。

本文也简要地介绍了国外从语料库中获取非语言学知识的研究。

20世纪90年代以前,从事计算语言学系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。

因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。

而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。

这样,就提出了大规模真实文本的自动处理问题。

1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:

“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。

为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。

1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。

所谓“理性主义”,就是指以生成语言学为基础的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。

从中可以看出当前计算语言学关注的焦点。

当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。

随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。

因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。

但是,要想使语料库名符其实地成为自然语言的知识库,就有必要首先对语料库中的语料进行自动标注,使之由“生语料”变成“熟语料”,以便于人们从中提取丰富的语言知识。

可以看出,计算语言学现在正在面临着一场战略转移。

这场战略转移的关键是知识的获取方式和方法:

从依靠“内省”方式转向依靠“语料”的方式,从基于“规则”的方法转向基于“统计”的方法。

面对计算语言学的战略转移,我觉得,语言学在获取知识的方式方法也应当进行一场战略转移。

与计算语言学相似,传统语言学家获取语言知识的方法基本上是通过“内省”进行,由于自然语言现象充满了例外,治学严谨的学者们提出了“例不过十不立,反例不过十不破”的原则,这样的原则貌似严格,实际上却是片面的。

在成千上万的语言数据中,只是靠十个例子或十个反例就来决定规则的取舍,难道真的能够保证万无一失吗?

显然是不能保证的。

因此,“例不过十不立,反例不过十不破”的原则只是一个貌似严格的原则,实际上是一个很不严格的原则。

现在,是抛弃这个原则的时候了。

语料库是客观的、可靠的语言资源,语言学研究应当依靠这样的宝贵资源。

语料库中包含着极为宝贵的语言知识,我们应当使用新的方法和工具来获取这些知识。

当然,前辈语言学家数千年积累的语言知识(包括词典中的语言知识。

语法书中的语言知识)也是宝贵的,但由于这些知识是通过这些语言学家们的“内省”或者“洞察力”发现的,难免带有之主观性和片面性,需要我们使用语料库来一一地加以审查。

语言学的一切知识,都有必要放到语料库中来检验,决定其是正确的,还是片面的,还是错误的,甚至是荒谬的,从而决定其存在的必要性,决定其是继续存在,还是放弃其存在。

我们可以预见,语言学研究战略转移的时代必将到来!

一种新的基于语料库的研究方式必将代替传统的依靠“内省”的研究方式,“内省”的研究方式今后只能是基于语料库研究方式的补充,而决不能是语言学研究的主流。

“从语料库挖掘知识”—这应当现代语言学的基本研究方法。

自然语言处理中的战略转移,必将影响到传统的语言学,传统语言学战略转移的时刻或迟或早总会来临。

从语料库可以挖掘的知识,可以是语言学的知识,也可以是非语言学的其他有用的知识。

由于时间的限制,这里我们着重讲怎样从语料库挖掘语言学知识,最后,我们举一个例子说明怎样从语料库中挖掘非语言学知识。

一、从语料库中获取语言学知识

 

语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。

传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。

计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。

后来,在这种工作中逐渐创造了一些独特的方法,提出了一些初步的理论,形成了一门新的学科--语料库语言学(corpuslinguistics),由于语料库是建立在计算机上的,因此,很多学者把它看成是自然语言处理的一个分支学科。

语料库究竟有什么用处。

中国传媒大学依存树库研究团队(包括硕士生、博士生和部分青年教师)近年来在从语料库中获取语言学知识方面做了一些初步的探索。

这里,我们只举例说明。

如果我们有关于副词“多半”用法如下的例句:

1.游览北京名胜古迹的多半是外地人。

(表示“大部分”)

2.过了立秋,天气多半会变得凉爽起来。

(表示“通常”)

3.他们多半会同意的,你不用着急。

(表示“很有可能”)

仔细观察,发现句子3有歧义。

除了表示“很有可能”之外,还可以表示“他们”中的“大部分”。

也就是说,“多半”的语义指向可以向后指向“同意”,还可以向前指向“他们”。

最近,我的博士生高松带着这样的问题,对北大语料库提供的500条语料进行分析,得出了如下的统计结果:

条目数比例

切分错误224.4%

无歧义32965.8%

有歧义14929.8%

合计500100%

发现如果不分词,会产生如下的切分错误句子:

4.我差不多半年都没去书店了。

其实句子4中根本没有“多半”这个单词。

在有歧义的149条中,歧义格式可以分为两类:

--名词、名词性短语+多半+动词

5.考到外地大学生又多半不想回来。

--人称代词+多半+动词

6.她们多半是妙龄女子。

进一步分析发现,出现歧义的条件是:

句子的主语必须是群体性的名词、名词词组或者人称代词。

句子3之所以有歧义,就是因为主语“他们”是表示群体的人称代词。

这样就解释了句子3出现歧义的原因。

可见,语料库是语言研究的有力工具,值得我们注意。

 

我们从语料库中获取知识的过程大致如下:

语料库数据带标语料库树库数据挖掘结构化的数据统计分析知识(包括语言学知识和非语言学知识)。

可以看出,树库(tree-bank)在数据挖掘中起着重要的作用。

树库是在词性标注的基础上,对每个句子加注句法关系的语料库。

近年来,树库作为获得句法结构的知识源和评价句法分析结果的工具,受到很多研究者的重视(Abeillé,2003)。

越来越多的研究发现:

树库资源不仅可以使用在计算语言学的研究中,也可以使用在理论语言学的研究中,它是语言学研究有用的工具(Hinrichsetal.,2005;Nivre,2005;Hudson,200)。

树库中含有的大量句法分布信息可为句法研究提供坚实的基础(刘海涛,2009)。

依存树库是一种用依存语法标注的语料库,通过建立词语之间的联系来描述句法的结构,以依存关系为基础。

依存关系是两个词之间一种有向的、非对称的关系。

它具有三个组成部分:

支配词、从属词、依存关系标记。

句子中的每个词都有自己的支配词,即它是受哪个词支配的,它依存于哪个词。

把这种依存关系用符号标记出来,这些符号就是依存关系标记。

有关依存语法理论,可参见冯志伟(1983)、Hudson(2007)、刘海涛(2009)。

图1为汉语句子“这是一本书。

”的依存句法结构图。

图1“这是一本书。

”的依存句法结构图

图1中带箭头的弧的起点为支配词,箭头指向的是从属词,弧上标记为依存关系标记。

动词“是”是句子的谓语,它支配主语“这”和宾语“书”。

“是”是支配词,“这”和“书”是从属词,“s”、“subj”、“obj”是依存关系标记。

数词“一”作量词“本”的量词补足语,“本”是支配词,“一”是从属词,“qc”是依存关系标记。

数量短语“一本”作名词“书”的定语,名词“书”支配量词“本”,“atr”是依存关系标记。

我们在汉语树库中使用的标记集(最新版)如下:

1.词性标记集

ID

标记

中文含义

标记类别

1

np

专有名词

词类标记

2

nt

时间名词

词类标记

3

ns

处所名词

词类标记

4

nl

方位名词

词类标记

5

n

其它名词

词类标记

6

vu

助动词

词类标记

7

vd

趋向动词

词类标记

8

vl

系动词

词类标记

9

vi

不及物动词

词类标记

10

vts

小句宾语

词类标记

11

vtd

双宾动词

词类标记

12

vtc

兼语动词

词类标记

13

vt

其它及物动词

词类标记

14

v

其它动词

词类标记

15

pba

介词“把”

词类标记

16

pbei

介词“被”

词类标记

17

pjiang

介词“将”

词类标记

18

p

其他介词

词类标记

19

cc

并列连词

词类标记

20

cs

从属连词

词类标记

21

ua

动(时)态助词

词类标记

22

uc

比况助词

词类标记

23

ur

替代助词

词类标记

24

um

语气助词

词类标记

25

up

介词框架助词

词类标记

26

uo

其他助词

词类标记

27

usde

结构助词“的”

词类标记

28

usdi

结构助词“地”

词类标记

29

usdf

结构助词“得”

词类标记

30

m

数词

词类标记

31

q

量词

词类标记

32

a

形容词

词类标记

33

d

副词

词类标记

34

r

代词

词类标记

35

e

叹词

词类标记

36

o

拟声词

词类标记

37

zdi

字“第”

语素标记

38

zmen

字“们”

语素标记

39

bnd

句中标点

标点标记

40

bjd

句末标点

标点标记

2.依存关系标记集

ID

标记

中文含义

1

s

谓语

2

subj

主语

3

obj

宾语

4

obj2

间接宾语

5

subobj

兼语

6

soc

兼语补语

7

pobj

介词宾语

8

fc

方位结构补语

9

comp

补语

10

dec

“的”字结构补足语

11

dic

“地”字结构补足语

12

dfc

“得”字结构补足语

13

baobj

“把”字句宾语

14

plc

名词复数

15

oc

序数补足语

16

qc

量词补足语

17

beis

被字句

18

sentobj

小句宾语

19

obja

能愿动词宾语

20

adva

状语

21

va

连动句

22

atr

定语

23

top

主题

24

coor

并列关系

25

epa

同位语

26

ma

数词结构

27

ta

时态附加语

28

esa

句末附加语

29

ina

插入语

30

cr

复句关系

31

csr

连带关系

32

auxr

助词附着关系

33

punct

标点符号

树库标注实例:

 

在这个树库的基础上,中国传媒大学依存树库研究团队进行了一系列的研究。

我们将最主要的一些研究介绍如下。

1.1高松对于汉语名词语法功能的研究

中文信息处理系统在进行现代汉语自动句法分析时,需要量化的研究成果,特别是需要词的各种语法功能的量化描写。

量化的信息也有助于语言的本体研究与对外汉语教学。

名词是现代汉语词类中的重要成员,是三大类实词之一。

语言学家们从定性的角度对名词语法功能进行了研究,得出了一些有共识的结论。

博士生高松通过定量分析,统计出汉语名词的语法功能,可以验证和补充前人的研究结论,有助于对名词语法功能的认识更清晰。

在对外汉语教学中,可以根据名词各语法功能出现频率的高低区分出典型、非典型功能来分阶段教学。

刘海涛、冯志伟(2007)提出了概率配价模式理论(ProbabilisticValencyPatternTheory,简称PVP)。

该理论是对传统配价理论的发展,吸收了配价理论的优点,将配价理论和依存语法很好地结合起来,形成了一种较完整的自然语言分析和理解理论。

他们提出该理论时,给出的汉语词类概率配价模式图是凭借着语感用粗细不同的线条表示词类结合力的大小。

线条粗的,词类的结合力大;线条细的,词类的结合力小。

我们从真实语料出发,构建汉语依存树库,从树库中提取汉语词类的配价模式,用精确的数据来表示词类结合力的大小,改变了原来凭借语感用线条的粗细表示结合力的大小,这是对概率配价模式理论的进一步发展。

高松利用汉语依存树库,统计出名词作为支配词时,它支配从属词所形成的支配关系和和这种支配关系出现的频次;以及,名词作为从属词时,支配词支配名词所形成的名词从属关系和这种从属关系出现的频次;由此总结出汉语名词所具有的句法功能;将统计结果与前人的研究结果进行对比,验证和补充以前的研究结论;并按照汉语名词各语法功能出现频率的高低区分出名词的典型功能和非典型功能,以此来为对外汉语教学提供参考。

1959年,法国语言学家泰尼埃的《结构句法基础》一书出版。

此后,他所提出的配价理论与依存语法引起了世界各国语言学界的广泛重视。

在语法研究、语言教学、自然语言处理中,配价理论都得到了广泛的应用。

这体现出配价理论是一种面向实用的语言学理论。

刘海涛、冯志伟(2007)认为:

配价是对词汇的一种静态描述,它是词与其他词结合的潜在能力。

在词典中,词的配价有多种可能。

但当词进入到具体的语境中,它与其他词结合的潜在能力得以实现,多种可能的配价变为一种,这也就形成了依存关系,依存关系是一种实现了的配价。

配价是一个词的结合力,力有大小,我们可以用一个词类支配或被支配的依存关系在数量上的不同来描述力的大小,可以通过依存树库来获得精确的定量描述。

这就是概率配价模式理论。

它就是在描述一个词或词类的配价模式时,不仅用定性的方式来描述它可支配什么样的依存关系,可受什么样的依存关系的支配,还用定量的方式给出这些依存关系的权重或概率分布。

高松的研究以概率配价模式理论为理论基础。

高松研究使用的树库是中国传媒大学依存树库研究团队开发的面向有声媒体语言的汉语依存树库。

选取的语料为2007年电视台和广播电台31档节目的转写文本。

电视节目如“新闻联播”、“实话实说”、“鲁豫有约”、“百家讲坛”等;广播节目如“新闻和报纸摘要”、“今日论坛”、“海峡时评”、“中国之窗”等。

选取的语料既包含新闻播报类又包含访谈会话类,涉及的范围和内容比较广泛。

语体上,既有书面语体又有口语体。

语料中共有3600个句子,98236个词次,使用软件工具进行了自动分词和词性标注,并采用依存语法对其进行了句法标注。

为确保标注的一致性,对汉语的某些特殊结构,给出了统一的标注方法(高松、赵怿怡、刘海涛,2009)。

所有的标注结果都经过了人工和工具的核对校正。

所用的汉语依存关系句法标注体系见LiuandHuang(2006)。

在依存树库中,高松用excel电子表格统计出“从属词词性”、“支配词词性”与“依存类型”之间的关系,得到汉语名词通过哪些依存关系支配从属词,支配词通过哪些依存关系支配名词。

名词支配从属词形成的依存关系,能得出名词可以带什么成分,受什么词修饰;支配词支配名词形成的依存关系,能得出名词在句中作什么成分。

分析这两种依存关系能得出汉语名词具有的句法功能分布。

高松实验的结果与分析

1汉语名词的语法功能分布

在依存树库中,高松首先统计了名词为支配词时,它与从属词所形成的支配关系,包括支配关系标记、这种支配关系出现的频次、每种支配关系占名词作支配词所形成的所有支配关系的比例以及在树库中的例句。

见表1。

表1:

名词为支配词,支配从属词所形成的依存关系、依存关系出现的频次、比例和例句

支配关系

频次

比例

例句

定语atr

12018

73.70%

援助巴勒斯坦国际会议昨天在巴黎结束。

标点符号punct

3275

20.09%

如果他当选总统,普京准备出任总理。

同位语epa

331

2.03%

胡锦涛总书记发表了重要讲话。

并列关系coor

127

0.78%

大力推进社会主义民主政治制度化。

状语adva

121

0.74%

他在电视上都谈论很学术的问题。

助词附着关系auxr

111

0.68%

很多老年人都患有心脑血管等多种慢性病。

复句关系cr

108

0.66%

昨天星期天,他想这该好好歇歇了。

主语subj

56

0.34%

王主任家俩屋一厅。

名词复数plc

50

0.31%

向为我国航天事业做出贡献的同志们致敬。

句末附加语esa

37

0.23%

这是什么原因呢?

量词补足语qc

33

0.20%

该项工程启动了三年多,成效显著。

连带关系csr

31

0.19%

那里需要的不是军队,而是行政资源。

插入语ina

8

0.05%

比方说,你的书的销量。

Total

16306

100%

从表1中,可以得到的结论主要有:

1)汉语名词支配补足语可以形成的依存关系有:

主语、名词复数、量词补足语。

名词带各补足语的比例在名词支配从属词的比例中都很低。

其中,名词带主语的比例在名词带所有补足语的比例中是最高的,占0.34%。

其次是带名词复数,占0.31%。

接下来是带量词补足语,占0.20%。

2)汉语名词支配说明语可以形成的依存关系有:

定语、同位语、并列结构、状语等。

其中,名词带定语的比例在名词带所有说明语的比例中是最高的,占73.70%。

其次是带同位语,占2.03%。

然后是带状语、带助词附着成分、带复句谓语、带句末附加语、带复句连词、带插入语。

3)语言学家们指出汉语名词能受数量短语修饰、特定条件下可受副词修饰、指人的普通名词后边可加“们”表示复数。

我们统计出来的汉语名词可以带量词补足语(如“一个人”)、可以带状语(如“很学术”)、可以带名词复数(如“朋友们”)验证了这些结论。

一些语言学家认为汉语名词不能受否定副词“不”修饰(胡裕树,1995;邵敬敏,2001),而在我们的树库中有“不中国”、“不男人”、“不青春”、“不学术”等名词受“不”修饰的例子,所以我们认为现在有少量名词可以受“不”修饰,这些名词带有形容词的性质。

4)由数据可以得出汉语名词作支配词时,语法功能是:

受数量短语修饰、部分名词后可加“们”表复数、一定条件下可受副词修饰带状语、少量带有形容词性质的名词可受否定副词“不”修饰、可以带主语(此时名词作谓语)、可以带定语作其修饰语、带同位语、带并列结构、带助词附着成分、带复句谓语、带句末附加语、带复句连词、带插入语。

5)从统计数据来看,汉语名词支配说明语的比例是99.15%,支配补足语的比例是0.85%。

基于传统的配价理论,通常考虑汉语名词带补足语的情况很多,对带说明语的关注程度不高。

本文的统计数据显示:

汉语名词支配说明语的比例远高于补足语。

这说明我们应当加大对汉语名词支配说明语的考察力度。

汉语名词作从属词时,支配词支配名词所形成的名词从属关系,包括从属关系标记、从属关系出现的频次、每种从属关系占名词作从属词所形成的所有从属关系的比例以及在树库中的例句。

见表2。

表2:

名词为从属词,支配词支配名词所形成的依存关系、依存关系出现的频次、比例和例句

从属关系

频次

比例

例句

宾语obj

5480

33.76%

俄罗斯昨天成功试射了一枚洲际弹道导弹。

主语subj

3516

21.67%

报纸指出,发达国家基本上不发展炼焦了。

定语atr

2526

15.57%

建议制定科索沃问题路线图。

介词宾语pobj

1212

7.47%

新政策对外资银行是个机遇。

“的”字结构补语dec

971

5.98%

机关的耗电量大约是城镇居民的10倍。

方位结构补语fc

736

4.53%

国际上取消了对食用味精量限制的规定。

状语adva

511

3.15%

过去,该地区劳动力出现过短缺现象。

同位语epa

428

2.64%

国务院总理温家宝昨天会见了世界银行行长。

兼语subobj

294

1.81%

我们要带领人民从新的历史起点出发。

话题top

197

1.21%

这件事我没有听说过。

谓语s

179

1.10%

这种方式呢?

并列关系coor

126

0.78%

审议关于加强食品药品安全监管情况的报告。

插入语ina

31

0.19%

本台消息,昨日阿尔及尔市发生爆炸袭击事件。

间接宾语obj2

13

0.08%

政府给这些下岗职工支持和帮助。

小句宾语sentobj

10

0.06%

您看您这么大年纪了,还继续工作呢!

Total

16230

100%

从表2中,可以得到的结论主要有:

1)汉语6种主要的语法功能,即主语、谓语、宾语、定语、状语,补语,除了补语之外,其余的语法功能名词都具备。

其中,名词作宾语的比例最高,占33.76%。

其次是作主语,占21.67%;作定语,占15.57%;作状语,占3.15%;作谓语,占1.10%。

对名词这几种主要语法功能的统计,结果与莫彭龄、单青(1985)一致。

2)除了主要的语法功能之外,汉语名词还可以作介词宾语、“的”字补足语、方位结构补语、同位语、兼语、话题、插入语、间接宾语、小句宾语,以及与其他词形成并列结构。

3)语言学家们提出汉语名词经常充当主语、宾语、定语,能用在介词后边构成介词短语,少数名词可作状语。

我们统计出来的汉语名词可作主语、宾语、定语,可作介词宾语、可作状语,验证了这些结论。

4)由数据得出汉语名词为从属词时,语法功能是:

作宾语、作主语、作定语、作介词宾语、作“的”字补足语、作方位结构补语、作状语、作同位语、作兼语、作话题、作谓语、与其他词形成并列结构、作插入语、作间接宾语、作小句宾语。

2汉语名词的概率配价模式

刘海涛、冯志伟(2007)认为把依存关系和词类联系到一起,可以形成现代汉语词类组合能力的模式,即汉语词类的配价模式。

因为一个词类可支配的依存关系是不均衡的,某个词类可以通过若干依存关系支配其他若干类词,但这些依存关系出现的概率是不一样的,所以可以在词类的句法配价模式中引入量的概念。

在树库中,可以统计词类依存关系的强度和词类结合力的大小。

某种依存关系出现得多强度就大、结合力就大,出现得少强度就小、结合力就小。

他们提出此类配价模式时,因为缺乏精确的统计数据,所以

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1