红楼梦的文本分析探索人物之间的关系_精品文档.doc

资源描述

红楼梦的文本分析探索人物之间的关系_精品文档.doc

《红楼梦的文本分析探索人物之间的关系_精品文档.doc》由会员分享，可在线阅读，更多相关《红楼梦的文本分析探索人物之间的关系_精品文档.doc（16页珍藏版）》请在冰豆网上搜索。

红楼梦的文本分析探索人物之间的关系_精品文档.doc

《红楼梦》的文本分析

摘要

《红楼梦》作为中国古代优秀的章回体文言文小说，其中的人物关系错综复杂，所以研究《红楼梦》中的人物关系疏密度具有重要意义。

本文以所选《红楼梦》文段中的人物作为特征项，通过分析人物出现的频率和出现位置的分布，来分析所选文段中人物的主次以及他们之间的关系疏密度。

首先通过Matlab等软件进行编程获取所取的文段样本中的人物以及人物出现的频数和位置分布，再根据人物之间出现位置的绝对值距离与人物之间关系密切性近似成反比的关系来建立能够刻画人物之间关系疏密度的数学模型。

通过我们所建立的数学模型计算出的人物之间关系疏密度的结果能够较好地符合所选文段中人物之间关系疏密度的实际情况，我们所得到的人物之间关系疏密度近似服从幂律分布，与现有的一些研究结论相符合。

关键词

人物关系疏密度数理统计方法绝对值距离幂律分布

一、问题重述

文本分析是对文本信息进行挖掘，信息检索的一个基本问题，由于文本中一般含有大量的信息，如何从大量的文本中挖掘有用的信息，就需要选取合适的分析角度对文本进行分析。

基于数理统计的方法对文本进行分析一直以来是一个热点。

对于《红楼梦》的文本分析，目前已有很多人从不同的角度提出了分析方法。

如运用聚类分析对虚词分析（1987，[1]），运用独立样本检验动词和名词的搭配（2009，[2]）以及运用K-S检验法检验动词，连词的分布等，但现有的分析主要集中在对写作之人写作手法和写作风格上的分析，或是对于情景的关注程度的分析，却没有人对小说三要素之一的人物进行过深入的分析。

本文采用数理统计的方法主要对《红楼梦》里的人物主次和主要人物之间关系疏密度进行分析。

二、问题分析

每个文本里包含了多个人物，每个人名出现的频率存在差异，每个人名可能多次出现，在整个文本里出现的位置也存在差异。

要对人物进行分析就要统计每个人物在文本里出现的频率和出现的位置分布。

可认为人物出现的频率与人物的重要程度是正相关，对于每个人物出现的位置分布，可认为两人物多次出现的位置邻近的越多，则两人物间关系越密切，反之，两人物的名字出现的位置邻近的越少，则两人物间的关系越疏远。

可用绝对值距离来反映两人物的出现的位置的邻近程度，可认为绝对值距离与两人物的邻近程度近似成反比关系。

因此两人之间关系疏密度可看成是两人多次出现的位置相互间的绝对值距离反比的累加。

基于此来建立我们的数学模型。

三、模型假设

1）假设人物名字出现的频数与人物的主次成正相关，出现次数越多，越是主要人物。

2）假设人物A出现的各个位置附近人物B出现的次数较多且距离人物A出现的位置较近时，可认为人物A与人物B的关系较为密切（这里的关系指两人间的关联，而非带有感情色彩的关系）；反之，可认为人物A与人物B的关系较为疏远。

四、符号说明

：

选取的文字去除停用词后的样本；

：

选取的文字去除停用词后的样本1；

：

选取的文字去除停用词后的样本2；

：

选取的文字去除停用词后的样本3；

：

样本的总字数；

：

样本的总字数；

：

样本的总字数；

：

样本的总字数；

：

从样本中提取的人物；

：

从样本中提取的人物1；

：

从样本中提取的人物2；

……

：

从样本中提取的人物n；

：

人物出现位置的相对数值；

：

人物第1次出现的相对位置；

：

人物第2次出现的相对位置；

……

：

人物第m次出现的相对位置；

：

人物与人物关系疏密度；

五、模型建立与求解

1．模型的建立

记从《红楼梦》中选取的某段文字去除停用词后记为样本，所选的三段文字去除停用词后分别记为，对于样本，它的总字数为，三个样本的总字数分别记为，从样本中提取的某人物记为，提取的n个人物分别记为，人物某次出现的相对位置记为，m次出现的相对位置分别记为，的定义为

上式中乘以100的原因是为避免“人物第m次出现的位置值/人物所在样本去除停用词后的总字数”的数值过小，在使用Matlab处理时会出现较大误差。

人物（）m次出现的相对位置组成的一维向量用表示。

定义样本中人物与人物关系疏密度如下：

；

其中，如果,则令；

的定义：

将从样本中提取的所有人物出现的相对位置值从小到大排列，相邻的相对位置值之差（绝对值）的平均值作为。

引入r的意义：

由于可能出现特别小的情况，当特别小时，会特别大，为了避免过大而引起出现较大误差，故引入r，当时,令；r取所有人物出现的相对位置值从小到大排列后，相邻的相对位置值之差（绝对值）的平均值作为，可使上述误差大大降低，而且所得结果与事实符合的较好。

模型的意义：

当人物出现的各个位置附近人物出现的次数较多且距离人物出现的位置较近时，可认为人物与人物的关系较为密切；反之，可认为人物与人物的关系较为疏远。

我们所定义的关系疏密度是一个能够综合反映人物出现的各个位置附近人物出现次数的多少和距离人物出现位置远近的量。

观察，我们可以看到当有多个出现位置在出现位置附近时时，由累加效果可看出会相对较大，当出现的某个位置与出现的某个位置距离较近时，会比较大，同样会相对较大，因此能够反映人物与人物的关系疏密度。

2．样本的选取

我们选取《红楼梦》前四十回里的第二十回去除停用词后作为第一个样本，第四十一回到第八十回中的第六十回去除停用词后作为第二个样本，第八十一回到第一百二十回中的第一百回去除停用词后作为第三个样本。

3．数据的获取

获取方法

1）提取样本中的人物，我们使用中国科学院计算技术研究所的ICTCLAS系统来完成，并经过一定的人工修正。

2）通过程序1（使用Matlab所编），我们可以统计每个人物在样本中出现的频数m和获得人物（）m次出现的相对位置。

3）按上述1、2步骤分别对进行处理。

获取结果

1）表一为从三个样本中提取的人物、人物出现的频数和频率（某人出现的频数比上所有人出现的频数之和）、样本的总字数。

2）表二为从三个样本中获取的人物出现的相对位置向量。

4．数据的处理

1）对表一中三个样本中的人物和对应的频率画出散点分布图，并用曲线拟合，作图结果分别为图一、图二、图三。

2）通过使用excel软件利用表二中的相关数据计算得到三个样本中的r值，计算结果如下表：

三个样本的

数值

0.525

0.874

0.845

3）通过程序2和程序3利用表二中的相关数据分别计算三个样本中的。

计算所得结果记入表三。

4）利用上述步骤3所得的结果，画出主要人物与其他人物之间的关系疏密度的散点分布图，并用曲线拟合，作图结果分别为图四、图五、图六。

图一

上图中其他人物的序列如下表：

宝玉

黛玉

宝钗

贾环

袭人

麝月

莺儿

李嬷嬷

凤姐

晴雯

贾母

赵姨娘

图二

上图中其他人物的序列如下表：

宝玉

赵姨娘

探春

袭人

蕊官

蝉儿

莺儿

藕官

豆官

李纨

晴雯

黛玉

图三

上图中其他人物的序列如下表：

薛蝌

宝玉

宝钗

宝蟾

贾母

袭人

探春

王夫人

黛玉

薛姨妈

薛蟠

凤姐

图四

上图中其他人物的序列如下表：

黛玉

宝钗

袭人

麝月

贾环

晴雯

莺儿

李嬷嬷

贾母

凤姐

赵姨娘

139

81.6

70.5

64.8

41.1

32.8

32.5

26.6

25.3

10.9

图五

上图中其他人物的序列如下表：

赵姨娘

探春

蕊官

袭人

莺儿

蝉儿

藕官

黛玉

李纨

晴雯

豆官

44.8

29.5

23.3

19.4

16.8

9.5

7.1

5.8

5.1

3.4

3.3

图六

上图中其他人物的序列如下表：

宝钗

袭人

探春

黛玉

贾母

王夫人

宝蟾

凤姐

薛姨妈

薛蟠

34.8

31.3

29.8

24.4

17.1

4.3

3.4

1.5

0.8

六、参数估计与模型检验

基于以上所作图的结果，我们可以得出结论：

1）所选《红楼梦》文段中的人物出现频率近似符合幂律分布，三个样本中排前三的主要人物如下表：

宝玉

黛玉

宝钗

宝玉

赵姨娘

探春

薛蝌

宝玉

宝钗

通过阅读所选文段与实际情况符合的较好。

2）三个样本中人物“宝玉”都是主要人物，与《红楼梦》以宝玉为主人公这一事实符合的较好。

3）由图四、五、六，可得《红楼梦》文本中的人物之间关系的疏密程度近似符合幂律分布，且基于样本一，人物“宝玉”与“黛玉”的关系较为密切。

与所选文段实施情况一致。

4）基于样本二，人物“宝玉”与“赵姨娘”的关系较为密切，根据该章回的事实，该结果基本属实；基于样本三，人物“宝玉”与“宝钗”的关系较为密切，根据第一百回的事实情况，该结果基本正确。

根据所取的样本文本中的事实情况，我们所估计的得到的的人物关系与样本中所体现的人物关系基本符合。

七、模型异同点分析

根据所取的样本文本及所绘制的图，可以得出相同点和异同点如下：

相同点：

1）人物“宝玉”出现的频数最多，“宝玉”为样本中的最主要的人物；

2）在所取的样本中人物“宝玉”与人物“黛玉”，“宝钗”，“袭人”的关系较与其他人物相比较更为密切。

不同点：

1）在不同的所取的样本中，主要人物不完全相同，排前三的主要人物如下表：

宝玉

黛玉

宝钗

宝玉

赵姨娘

探春

薛蝌

宝玉

宝钗

2）在不同的所取的样本中，最主要人物“宝玉”关系最为密切的人物也不相同，在三个样本中和“宝玉”关系排前三的如下表：

黛玉

宝钗

袭人

赵姨娘

探春

蕊官

宝钗

袭人

探春

在不同的样本中其他人物与人物“宝玉”的关系程度也不同，在样本W1中“黛玉”的比重为139，而在样本W3中，“黛玉”的比重仅为29.8，可见相同的人物在不同的文本中与“宝玉”的关系也不相同。

八、模型评价

模型优点：

1）对《红楼梦》的人物关系的疏密程度作出了数学上的统计分析，对人物之间的关系非常清晰明白。

2）采用绝对值的反比例函数的方法近似刻画了人物之间的关系的疏密程度，对关系程度的刻画符合幂律分布，比较符合事实。

模型缺点：

1）没有特别好的统计方法去统计不同人物的不同称谓，例如人物“林黛玉”的称谓就有“黛玉”，“林妹妹”，“颦颦”，“颦儿”，“潇湘妃子”等好几种称谓，没有做到完全的人物统计；

2）绝对值的反比例函数取值是否合理，只能模糊估计，不能精确计算。

表一

人物

频数

频率

人物

频数

频率

人物

频数

频率

宝玉

0.32

宝玉

0.24

薛蝌

0.17

黛玉

0.14

赵姨娘

0.22

宝玉

0.13

宝钗

展开阅读全文