从语料库中挖掘知识北语1Word文件下载.docx

上传人:b****6 文档编号:20333170 上传时间:2023-01-22 格式:DOCX 页数:27 大小:1.27MB
下载 相关 举报
从语料库中挖掘知识北语1Word文件下载.docx_第1页
第1页 / 共27页
从语料库中挖掘知识北语1Word文件下载.docx_第2页
第2页 / 共27页
从语料库中挖掘知识北语1Word文件下载.docx_第3页
第3页 / 共27页
从语料库中挖掘知识北语1Word文件下载.docx_第4页
第4页 / 共27页
从语料库中挖掘知识北语1Word文件下载.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

从语料库中挖掘知识北语1Word文件下载.docx

《从语料库中挖掘知识北语1Word文件下载.docx》由会员分享,可在线阅读,更多相关《从语料库中挖掘知识北语1Word文件下载.docx(27页珍藏版)》请在冰豆网上搜索。

从语料库中挖掘知识北语1Word文件下载.docx

语料库究竟有什么用处。

中国传媒大学依存树库研究团队(包括硕士生、博士生和部分青年教师)近年来在从语料库中获取语言学知识方面做了一些初步的探索。

这里,我们只举例说明。

如果我们有关于副词“多半”用法如下的例句:

1.游览北京名胜古迹的多半是外地人。

(表示“大部分”)

2.过了立秋,天气多半会变得凉爽起来。

(表示“通常”)

3.他们多半会同意的,你不用着急。

(表示“很有可能”)

仔细观察,发现句子3有歧义。

除了表示“很有可能”之外,还可以表示“他们”中的“大部分”。

也就是说,“多半”的语义指向可以向后指向“同意”,还可以向前指向“他们”。

最近,我的博士生高松带着这样的问题,对北大语料库提供的500条语料进行分析,得出了如下的统计结果:

条目数比例

切分错误224.4%

无歧义32965.8%

有歧义14929.8%

合计500100%

发现如果不分词,会产生如下的切分错误句子:

4.我差不多半年都没去书店了。

其实句子4中根本没有“多半”这个单词。

在有歧义的149条中,歧义格式可以分为两类:

--名词、名词性短语+多半+动词

5.考到外地大学生又多半不想回来。

--人称代词+多半+动词

6.她们多半是妙龄女子。

进一步分析发现,出现歧义的条件是:

句子的主语必须是群体性的名词、名词词组或者人称代词。

句子3之所以有歧义,就是因为主语“他们”是表示群体的人称代词。

这样就解释了句子3出现歧义的原因。

可见,语料库是语言研究的有力工具,值得我们注意。

我们从语料库中获取知识的过程大致如下:

语料库数据带标语料库树库数据挖掘结构化的数据统计分析知识(包括语言学知识和非语言学知识)。

可以看出,树库(tree-bank)在数据挖掘中起着重要的作用。

树库是在词性标注的基础上,对每个句子加注句法关系的语料库。

近年来,树库作为获得句法结构的知识源和评价句法分析结果的工具,受到很多研究者的重视(Abeillé

,2003)。

越来越多的研究发现:

树库资源不仅可以使用在计算语言学的研究中,也可以使用在理论语言学的研究中,它是语言学研究有用的工具(Hinrichsetal.,2005;

Nivre,2005;

Hudson,200)。

树库中含有的大量句法分布信息可为句法研究提供坚实的基础(刘海涛,2009)。

依存树库是一种用依存语法标注的语料库,通过建立词语之间的联系来描述句法的结构,以依存关系为基础。

依存关系是两个词之间一种有向的、非对称的关系。

它具有三个组成部分:

支配词、从属词、依存关系标记。

句子中的每个词都有自己的支配词,即它是受哪个词支配的,它依存于哪个词。

把这种依存关系用符号标记出来,这些符号就是依存关系标记。

有关依存语法理论,可参见冯志伟(1983)、Hudson(2007)、刘海涛(2009)。

图1为汉语句子“这是一本书。

”的依存句法结构图。

图1“这是一本书。

”的依存句法结构图

图1中带箭头的弧的起点为支配词,箭头指向的是从属词,弧上标记为依存关系标记。

动词“是”是句子的谓语,它支配主语“这”和宾语“书”。

“是”是支配词,“这”和“书”是从属词,“s”、“subj”、“obj”是依存关系标记。

数词“一”作量词“本”的量词补足语,“本”是支配词,“一”是从属词,“qc”是依存关系标记。

数量短语“一本”作名词“书”的定语,名词“书”支配量词“本”,“atr”是依存关系标记。

我们在汉语树库中使用的标记集(最新版)如下:

1.词性标记集

ID

标记

中文含义

标记类别

1

np

专有名词

词类标记

2

nt

时间名词

3

ns

处所名词

4

nl

方位名词

5

n

其它名词

6

vu

助动词

7

vd

趋向动词

8

vl

系动词

9

vi

不及物动词

10

vts

小句宾语

11

vtd

双宾动词

12

vtc

兼语动词

13

vt

其它及物动词

14

v

其它动词

15

pba

介词“把”

16

pbei

介词“被”

17

pjiang

介词“将”

18

p

其他介词

19

cc

并列连词

20

cs

从属连词

21

ua

动(时)态助词

22

uc

比况助词

23

ur

替代助词

24

um

语气助词

25

up

介词框架助词

26

uo

其他助词

27

usde

结构助词“的”

28

usdi

结构助词“地”

29

usdf

结构助词“得”

30

m

数词

31

q

量词

32

a

形容词

33

d

副词

34

r

代词

35

e

叹词

36

o

拟声词

37

zdi

字“第”

语素标记

38

zmen

字“们”

39

bnd

句中标点

标点标记

40

bjd

句末标点

2.依存关系标记集

s

谓语

subj

主语

obj

宾语

obj2

间接宾语

subobj

兼语

soc

兼语补语

pobj

介词宾语

fc

方位结构补语

comp

补语

dec

“的”字结构补足语

dic

“地”字结构补足语

dfc

“得”字结构补足语

baobj

“把”字句宾语

plc

名词复数

oc

序数补足语

qc

量词补足语

beis

被字句

sentobj

obja

能愿动词宾语

adva

状语

va

连动句

atr

定语

top

主题

coor

并列关系

epa

同位语

ma

数词结构

ta

时态附加语

esa

句末附加语

ina

插入语

cr

复句关系

csr

连带关系

auxr

助词附着关系

punct

标点符号

树库标注实例:

在这个树库的基础上,中国传媒大学依存树库研究团队进行了一系列的研究。

我们将最主要的一些研究介绍如下。

1.1高松对于汉语名词语法功能的研究

中文信息处理系统在进行现代汉语自动句法分析时,需要量化的研究成果,特别是需要词的各种语法功能的量化描写。

量化的信息也有助于语言的本体研究与对外汉语教学。

名词是现代汉语词类中的重要成员,是三大类实词之一。

语言学家们从定性的角度对名词语法功能进行了研究,得出了一些有共识的结论。

博士生高松通过定量分析,统计出汉语名词的语法功能,可以验证和补充前人的研究结论,有助于对名词语法功能的认识更清晰。

在对外汉语教学中,可以根据名词各语法功能出现频率的高低区分出典型、非典型功能来分阶段教学。

刘海涛、冯志伟(2007)提出了概率配价模式理论(ProbabilisticValencyPatternTheory,简称PVP)。

该理论是对传统配价理论的发展,吸收了配价理论的优点,将配价理论和依存语法很好地结合起来,形成了一种较完整的自然语言分析和理解理论。

他们提出该理论时,给出的汉语词类概率配价模式图是凭借着语感用粗细不同的线条表示词类结合力的大小。

线条粗的,词类的结合力大;

线条细的,词类的结合力小。

我们从真实语料出发,构建汉语依存树库,从树库中提取汉语词类的配价模式,用精确的数据来表示词类结合力的大小,改变了原来凭借语感用线条的粗细表示结合力的大小,这是对概率配价模式理论的进一步发展。

高松利用汉语依存树库,统计出名词作为支配词时,它支配从属词所形成的支配关系和和这种支配关系出现的频次;

以及,名词作为从属词时,支配词支配名词所形成的名词从属关系和这种从属关系出现的频次;

由此总结出汉语名词所具有的句法功能;

将统计结果与前人的研究结果进行对比,验证和补充以前的研究结论;

并按照汉语名词各语法功能出现频率的高低区分出名词的典型功能和非典型功能,以此来为对外汉语教学提供参考。

1959年,法国语言学家泰尼埃的《结构句法基础》一书出版。

此后,他所提出的配价理论与依存语法引起了世界各国语言学界的广泛重视。

在语法研究、语言教学、自然语言处理中,配价理论都得到了广泛的应用。

这体现出配价理论是一种面向实用的语言学理论。

刘海涛、冯志伟(2007)认为:

配价是对词汇的一种静态描述,它是词与其他词结合的潜在能力。

在词典中,词的配价有多种可能。

但当词进入到具体的语境中,它与其他词结合的潜在能力得以实现,多种可能的配价变为一种,这也就形成了依存关系,依存关系是一种实现了的配价。

配价是一个词的结合力,力有大小,我们可以用一个词类支配或被支配的依存关系在数量上的不同来描述力的大小,可以通过依存树库来获得精确的定量描述。

这就是概率配价模式理论。

它就是在描述一个词或词类的配价模式时,不仅用定性的方式来描述它可支配什么样的依存关系,可受什么样的依存关系的支配,还用定量的方式给出这些依存关系的权重或概率分布。

高松的研究以概率配价模式理论为理论基础。

高松研究使用的树库是中国传媒大学依存树库研究团队开发的面向有声媒体语言的汉语依存树库。

选取的语料为2007年电视台和广播电台31档节目的转写文本。

电视节目如“新闻联播”、“实话实说”、“鲁豫有约”、“百家讲坛”等;

广播节目如“新闻和报纸摘要”、“今日论坛”、“海峡时评”、“中国之窗”等。

选取的语料既包含新闻播报类又包含访谈会话类,涉及的范围和内容比较广泛。

语体上,既有书面语体又有口语体。

语料中共有3600个句子,98236个词次,使用软件工具进行了自动分词和词性标注,并采用依存语法对其进行了句法标注。

为确保标注的一致性,对汉语的某些特殊结构,给出了统一的标注方法(高松、赵怿怡、刘海涛,2009)。

所有的标注结果都经过了人工和工具的核对校正。

所用的汉语依存关系句法标注体系见LiuandHuang(2006)。

在依存树库中,高松用excel电子表格统计出“从属词词性”、“支配词词性”与“依存类型”之间的关系,得到汉语名词通过哪些依存关系支配从属词,支配词通过哪些依存关系支配名词。

名词支配从属词形成的依存关系,能得出名词可以带什么成分,受什么词修饰;

支配词支配名词形成的依存关系,能得出名词在句中作什么成分。

分析这两种依存关系能得出汉语名词具有的句法功能分布。

高松实验的结果与分析

1汉语名词的语法功能分布

在依存树库中,高松首先统计了名词为支配词时,它与从属词所形成的支配关系,包括支配关系标记、这种支配关系出现的频次、每种支配关系占名词作支配词所形成的所有支配关系的比例以及在树库中的例句。

见表1。

表1:

名词为支配词,支配从属词所形成的依存关系、依存关系出现的频次、比例和例句

支配关系

频次

比例

例句

定语atr

12018

73.70%

援助巴勒斯坦国际会议昨天在巴黎结束。

标点符号punct

3275

20.09%

如果他当选总统,普京准备出任总理。

同位语epa

331

2.03%

胡锦涛总书记发表了重要讲话。

并列关系coor

127

0.78%

大力推进社会主义民主政治制度化。

状语adva

121

0.74%

他在电视上都谈论很学术的问题。

助词附着关系auxr

111

0.68%

很多老年人都患有心脑血管等多种慢性病。

复句关系cr

108

0.66%

昨天星期天,他想这该好好歇歇了。

主语subj

56

0.34%

王主任家俩屋一厅。

名词复数plc

50

0.31%

向为我国航天事业做出贡献的同志们致敬。

句末附加语esa

0.23%

这是什么原因呢?

量词补足语qc

0.20%

该项工程启动了三年多,成效显著。

连带关系csr

0.19%

那里需要的不是军队,而是行政资源。

插入语ina

0.05%

比方说,你的书的销量。

Total

16306

100%

从表1中,可以得到的结论主要有:

1)汉语名词支配补足语可以形成的依存关系有:

主语、名词复数、量词补足语。

名词带各补足语的比例在名词支配从属词的比例中都很低。

其中,名词带主语的比例在名词带所有补足语的比例中是最高的,占0.34%。

其次是带名词复数,占0.31%。

接下来是带量词补足语,占0.20%。

2)汉语名词支配说明语可以形成的依存关系有:

定语、同位语、并列结构、状语等。

其中,名词带定语的比例在名词带所有说明语的比例中是最高的,占73.70%。

其次是带同位语,占2.03%。

然后是带状语、带助词附着成分、带复句谓语、带句末附加语、带复句连词、带插入语。

3)语言学家们指出汉语名词能受数量短语修饰、特定条件下可受副词修饰、指人的普通名词后边可加“们”表示复数。

我们统计出来的汉语名词可以带量词补足语(如“一个人”)、可以带状语(如“很学术”)、可以带名词复数(如“朋友们”)验证了这些结论。

一些语言学家认为汉语名词不能受否定副词“不”修饰(胡裕树,1995;

邵敬敏,2001),而在我们的树库中有“不中国”、“不男人”、“不青春”、“不学术”等名词受“不”修饰的例子,所以我们认为现在有少量名词可以受“不”修饰,这些名词带有形容词的性质。

4)由数据可以得出汉语名词作支配词时,语法功能是:

受数量短语修饰、部分名词后可加“们”表复数、一定条件下可受副词修饰带状语、少量带有形容词性质的名词可受否定副词“不”修饰、可以带主语(此时名词作谓语)、可以带定语作其修饰语、带同位语、带并列结构、带助词附着成分、带复句谓语、带句末附加语、带复句连词、带插入语。

5)从统计数据来看,汉语名词支配说明语的比例是99.15%,支配补足语的比例是0.85%。

基于传统的配价理论,通常考虑汉语名词带补足语的情况很多,对带说明语的关注程度不高。

本文的统计数据显示:

汉语名词支配说明语的比例远高于补足语。

这说明我们应当加大对汉语名词支配说明语的考察力度。

汉语名词作从属词时,支配词支配名词所形成的名词从属关系,包括从属关系标记、从属关系出现的频次、每种从属关系占名词作从属词所形成的所有从属关系的比例以及在树库中的例句。

见表2。

表2:

名词为从属词,支配词支配名词所形成的依存关系、依存关系出现的频次、比例和例句

从属关系

宾语obj

5480

33.76%

俄罗斯昨天成功试射了一枚洲际弹道导弹。

3516

21.67%

报纸指出,发达国家基本上不发展炼焦了。

2526

15.57%

建议制定科索沃问题路线图。

介词宾语pobj

1212

7.47%

新政策对外资银行是个机遇。

“的”字结构补语dec

971

5.98%

机关的耗电量大约是城镇居民的10倍。

方位结构补语fc

736

4.53%

国际上取消了对食用味精量限制的规定。

511

3.15%

过去,该地区劳动力出现过短缺现象。

428

2.64%

国务院总理温家宝昨天会见了世界银行行长。

兼语subobj

294

1.81%

我们要带领人民从新的历史起点出发。

话题top

197

1.21%

这件事我没有听说过。

谓语s

179

1.10%

这种方式呢?

126

审议关于加强食品药品安全监管情况的报告。

本台消息,昨日阿尔及尔市发生爆炸袭击事件。

间接宾语obj2

0.08%

政府给这些下岗职工支持和帮助。

小句宾语sentobj

0.06%

您看您这么大年纪了,还继续工作呢!

16230

从表2中,可以得到的结论主要有:

1)汉语6种主要的语法功能,即主语、谓语、宾语、定语、状语,补语,除了补语之外,其余的语法功能名词都具备。

其中,名词作宾语的比例最高,占33.76%。

其次是作主语,占21.67%;

作定语,占15.57%;

作状语,占3.15%;

作谓语,占1.10%。

对名词这几种主要语法功能的统计,结果与莫彭龄、单青(1985)一致。

2)除了主要的语法功能之外,汉语名词还可以作介词宾语、“的”字补足语、方位结构补语、同位语、兼语、话题、插入语、间接宾语、小句宾语,以及与其他词形成并列结构。

3)语言学家们提出汉语名词经常充当主语、宾语、定语,能用在介词后边构成介词短语,少数名词可作状语。

我们统计出来的汉语名词可作主语、宾语、定语,可作介词宾语、可作状语,验证了这些结论。

4)由数据得出汉语名词为从属词时,语法功能是:

作宾语、作主语、作定语、作介词宾语、作“的”字补足语、作方位结构补语、作状语、作同位语、作兼语、作话题、作谓语、与其他词形成并列结构、作插入语、作间接宾语、作小句宾语。

2汉语名词的概率配价模式

刘海涛、冯志伟(2007)认为把依存关系和词类联系到一起,可以形成现代汉语词类组合能力的模式,即汉语词类的配价模式。

因为一个词类可支配的依存关系是不均衡的,某个词类可以通过若干依存关系支配其他若干类词,但这些依存关系出现的概率是不一样的,所以可以在词类的句法配价模式中引入量的概念。

在树库中,可以统计词类依存关系的强度和词类结合力的大小。

某种依存关系出现得多强度就大、结合力就大,出现得少强度就小、结合力就小。

他们提出此类配价模式时,因为缺乏精确的统计数据,所以

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 教育学心理学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1