当前字词语量化研究的五个深化方向docWord下载.docx
《当前字词语量化研究的五个深化方向docWord下载.docx》由会员分享,可在线阅读,更多相关《当前字词语量化研究的五个深化方向docWord下载.docx(6页珍藏版)》请在冰豆网上搜索。
这些都导致我们的统计从一个静态的统计点向由多个不同时点的统计构成的变化曲线(又称为词语的“走势图”)深化。
我们需要改变我们过去对于语言变化(特别是词语和语义的变化)的思维定式,把我们对于词语的计量分析从过去的静态突击式、定点式、定量式的统计模式,引向经常性、定时性、监测性的动态统计、观测、分析模式。
下表是一些词语的走势图:
依据对词语变化曲线的分析来观测词语,可能给我们提供新的视点,例如:
我们连续4年来对流行语的观察与提取。
2、从过去的简单统计频度走向在频度的基础上统计使用度、实用度和流通度:
即使是静态的统计分析,过去也主要是简单统计字、词的出现频度,有少数的统计分析注意了词语在文本中的散布系数或时间系数,统计了使用度或者实用度。
而现在我们不仅要从过去只简单统计字、词出现频度,向增加文本的散步系数、时间系数深化,还需要进一步注意现在大众传媒的变化,引入现代大众传媒的某些属性,关注现代大众传媒对语言的强大影响力。
因为一切真正有影响力的语言变化都主要是透过在大众传媒的文本来传播的,特别是现代的主流大众传媒。
现代大众传媒正导致语言的内稳态因素从约定俗成走向“约定速成"
。
因此我们还要增加与现代大众传媒有关的文本的复制系数,以至文本在媒体的传播系数,诸如文本的阅读率、收听率、收视率、点击率、链接率、引用率等等。
引入现代大众传媒的理念,把文本的选择和抽样原则从分布原则进一步推向流通原则,把对语言成分的一般性的统计分析推向对大众语感的推测性统计分析和验证,是当前的词语计量统计分析的另一个深化方向。
我们要改变依靠人工进行大规模前处理或后处理的思维定式,探讨面向大规模真实文本的动态跟踪统计方法与模式,探索自学习、自反馈、自淘汰的语言知识自动更新体系,进而关注现代大众传媒属性的引入,探索使电脑可以逐步获得相似于大众语感并随时增强和调整语感的路径。
根据我们初步的统计分析,流通度对使用度有较大的调整,并更加接近大众的语感。
2005年史中琦对隋岩博士2004年提取的流通度表和使用度表进行了进一步的分析和验证,他对前3000流通度和使用度最高的词语进行了对比分析,发现使用度表中序号位于前3000的词语,在经过流通度的作用后,所有词语的位次都发生了或大或小的变化。
其中有1969个词语到了流通度表中仍旧保留在前3000的位次上;
有1031个本来在使用度表中位于前3000的词语到了流通度表中退出了前3000;
同时,有1031个本来在使用度表中位列3000以后的词语进到了流通度表前3000之列,即有65.63%的词语保留在了前3000以内,34.37%的词语跌出了前3000。
使用度表中不同波段的词语在流通度表前3000位置保留或出列的情况如下:
保留在流通度表前3000的词语数量如下表:
词语在使用度表中的序号
保留数量
保留比例
保留累计
保留累计比例
1-500
499
99.8%
16.63%
500-1000
495
99%
994
33.13%
1000-1500
413
82.6%
1407
46.90%
1500-2000
248
49.6%
1655
55.17%
2000-2500
173
34.6%
1828
60.93%
2500-3000
141
28.2%
1969
65.63%
说明:
1) “保留数量”是指使用度表中的词语留在流通度表前3000的个数;
2) “保留比例”是保留数量与对应波段所有词语(这里为500)的比值;
3) “保留累计比例”是指对应波段的保留累计与3000的比值;
注:
参见史中琦硕士论文,下同。
使用度表前3000被调整到流通度表前3000以外的词语的统计如下:
词语在使用度表中的序号
跌出数量
跌出比例
跌出累计
跌出累计比例
1
0.25%
0.03%
5
1%
6
0.20%
87
17.4%
93
3.10%
252
50.4%
345
11.50%
327
65.4%
672
22.40%
359
71.8%
1031
34.37%
1) “波出数量”指使用度表中的词语波动到流通度表3000以外的个数;
2) “波出比例”是波出数量与对应波段所有词语的比值;
3) “波出累计比例”是指对应波段的波出累计与3000的比值。
他还对前3000词语的变动位次幅度进行了分析:
平均变幅
最小变幅
最大变幅
使用度表前3000全部词语
1203
6702
流通度表前3000全部词语
2495
30789
保留在流通度表前3000的词语
710
2848
跌出流通度前3000的词语
2144
142
进入流通度前3000的词语
5904
96
从这个表中,我们可以清楚地看到:
保留下来的这些词语的变动幅度最小,这一点不难理解,只有变动幅度较小,才可能保留在前3000;
跌出前3000的词语的平均变动幅度则明显增大,是保留下来的词语变动幅度的三倍多;
而进入前3000的词语的平均变动幅度最大,表现出极强的上升态势。
他的论文还对两表的上下词语进行了更详细的分析和统计,同时对上下词语表进行了模拟大众语感的调查验证,都取得很好的实验结果。
我们不再赘述。
'
、3、要从过去简单的“一表制”的统一排序走向“多表制”的分类排序:
过去的统计是一个统一的词汇(准确地说是“词语”)频度表,但是在这个数万数量的词语频度表中,实际上一些词是长期稳定不变并且构词能力很强的基本词汇,一些词语是处于不断变化之中的一般词汇;
一些词语是各个领域通用的词汇,一些词语是两个以上领域的兼用词汇,一些词语是不同领域的专用词汇;
还有一些词语是正在从专用领域进入通用领域的变化中的词汇,一些词语是突然在通用领域或专用领域广为传播的流行词汇,一些词语是由于长期流行而已经被公众认可的新词汇等等。
而我们过去的频度统计是没有进一步区分不同词汇类型的粗放式、鲁棒式的统计,现在需要进一步向更加精细的词汇统计深化。
从依据一般的语感来认定常用与否到有了基于平衡语料统计的频度表作为判断依据是历史性的进步,从静态统计到动态统计也是历史性的进步,从统计频度到统计使用度、实用度、流通度更是历史性的进步。
这些都是统计方法或者统计模式的深化。
就统计对象而言,也需要提出新的深化目标。
“字”的统计有待深化的方面虽然也有,比如分领域的用字、新造字、一些用字的频率的动态升降(例如:
锹、镐、镰、锄的下降与网、屏、键、吧的上升)等,但是与“词”和“语”相比,就小巫见大巫了。
过去除了研究、分析、统计词语的综合频度外,也对词语的语法构成和语义构成进行了一些不同规模的不完善的统计。
比如:
词语的语法属性、语义属性、词语的语法结构、语义结构等等,同时也收集建造了一些分类的电子词典。
但是我们缺乏对词汇构成的宏观统计分析,而没有对现代汉语词汇的宏观的统计分析,就好象没有对人口结构、经济结构进行宏观的普查一样,我们的词语计量分析在一定程度上将会陷入盲目,就无法构建一个结构化的现代汉语词语表。
无论是从总体规模还是从更新速度与数量哪个方面看,“词和语”都是汉字无法比拟的。
进一步进行词汇构成的统计分析,首先要统计什么词语不断动态变化,什么词语相对稳定;
我们要将基本词汇和一般词汇区别开,要先拿出词汇的稳定的内核。
其次要统计什么词语各个领域和地区通用,什么词语在领域和地区专用,通用的词语表和专用的词语表中的大部分也是相对稳定的。
原则上说,现代传媒越是发展,不同地区之间通用的词语表越是不断扩大,不同学科领域的专用术语进入通用领域的可能也不断增强。
第三是统计和检测什么词语在什么空间和时间范围内流行、什么词语已经从流行进入相对稳定成为一般词汇中的新词语,甚至进入了基本词汇集(比如:
网)。
由于词语动态更新在数量和速度方面的变化,对于流行词语、字母词语、网络词语等新词语或旧词新义的分类统计分析就成为词语计量统计分析的又一个深化的方向。
当然,在统计方法方面还有“词语度”和“词语度指数”、“词语成熟度”与“成熟度阈值”的深化研究,还要有分类统计的标准和规范的界定等等。
我们在2000年《信息处理用动态语言知识更新的总体思考》一文中(载《语言文字应用》,2000年第2期),曾经给出一个结构化的词语知识库的构想,现在略做修改补充如下
目前,我们正在统计的基础上,进行词汇的分离技术的研究,不久的将来,可能提供分类的结构化词语统计分析。
4、要从分别对字、词、语进行统计分析走向进一步厘清字、词、语之间的统计关系:
过去字频、词频是分别统计的,也有的词频统计只包括2字以上的词的频度,不管单字词的使用情况,因为各次的统频工作都受当时的统频目的和技术条件的制约。
目前的技术条件下,词语的统计工作的精度主要受制于两方面的影响:
一是“未登录词”,词表中没有的词语就切成已经登录过的词语碎片,如:
“神六”切成“神”“六”、“禽流感”切成“禽”“流感”。
随着现代传媒对语词的更新淘汰的速度和力度的加大,这种对统计精度的影响也日趋扩大。
还有一种是“歧义切分”,分为组合型歧异(如:
中巴)和交集型歧义(如:
美国会)等。
实际上一些机器处理书面语言时遇到的歧义,现实交际中大部分是不存在的,人们依据语音和上下文是可以分别的,但是机器处理还存在