文本挖掘主要技术研究Word格式.docx

资源描述

文本挖掘主要技术研究Word格式.docx

《文本挖掘主要技术研究Word格式.docx》由会员分享，可在线阅读，更多相关《文本挖掘主要技术研究Word格式.docx（15页珍藏版）》请在冰豆网上搜索。

文本挖掘主要技术研究Word格式.docx

示文本的向量空间的维数也相当大，可以达到

几万维，因此需要进行维数压缩的工作。

目前对WWW文档特征所采用的特征子集［8］选取算法一般是构造一个评价函数，对特征集中的每一个特征进行独立的评估，这样每个特征都获得一个评估分，然后对所有的特征按照其评估分的大小进行排序，选取预定数目的最佳特征作

为结果的特征子集。

一般用的评估函数［9］有几率比（Oddsratio）、信息增益（InformationGain）、期望交叉熵（ExpectedCrossEntropy）、互信息（MutualInformation）、词频（WordFrequency）等，限于篇幅，本文并不详细介绍。

4、文本分类

分类［10］（CategorizationorClassification）就是按照某种标准给对象贴标签（label）,再根据标签来区分归类。

分类是事先定义好类别，类别数不变。

分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。

本文介绍了常用的分类算法，其中对朴素贝叶斯和KNN算法进行了详细的介绍。

4.1朴素贝叶斯

贝叶斯分类是一种统计学分类方法，它基于贝叶斯定理，公式如下:

4、如果

RykIx）=maxf^|x）,Ry?

Ix）,...,Ry.Ix）}

，则xyk。

卿悔样木

怖有如邮報ft播平

呻曲RW

图1朴素贝叶斯分类流程图

它可以用来预测类成员关系的可能性，给出文本属于某特定类别的概率，分类时根据预测结果将该样本分到概率最高的类别中去即可。

朴素贝叶斯分类模型训练的过程其实就是统计每一个特征在各类中出现规律的过程，从理论上，讲贝叶斯分类的出错率最小，就试验结果来看，朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。

朴素贝叶斯分类的正式定义如下：

1、设x=｛印，a?

am｝为一个待分类

项，而每个a为x的一个特征属性。

2、有类别集合C=｛yi,y?

...,yn｝。

3、计算

P（yiIX）,P（y2|X）,...,P（ynIx）。

朴素贝叶斯分类器（nativeBayes假设特征对于给定类的影响独立于其它特征，即特征独立性假设。

对文本分类来说，它假设各个单词Wi和Wj之间两两独立。

设训练样本集分为k类，记为C=｛C1,C2,…，Ck｝，则每个类Ci的先验概率为P（Ci）,i=1,2,…，k,其值为Ci类的样本数除以训练集总样本数n。

对于新样本d,其属于Ci类的条件概率是P（Ci|d）。

根据贝

叶斯定理，Ci类的后验概率为P（Ci|d）；

P（d|G）RC）

（1）

P（d）对于所有类均为常数，可以忽略，则式

（1）简化为：

RG|d）兰P（d|G）P（C）

（2）

为避免P（Ci）等于0,采用拉普阿斯概率估

计：

RC）=I^h

（3）

式中：

C为训练集中类的数目，DCi为训练集中属于类Ci的文档数，DC为训练集包含的总文档数。

在特殊情况下，训练样本集中各类样本数相等，此时类的先验概率

相等，式

（2）可以简化：

P（G|d）犬P（d|C）（4）

“）=<

Nj2

朴素贝叶斯分类器将未知样本归于类i

的依据如下：

P（C|d）=argmax{P（C]|d）P（Cj）},

j二1,2,.・・,k.

（5）

文档d由其包含的特征词表示，即d

=（w1，…，wj，…，wm）,m是d的特征词个数d,wj是第j个特征词，由特征独立性假设，则得

P（Ci1d）=P（（■1^2,…，■m）1Ci）P（■j1Ci）

j土

（6）

P（・打|C）表示分类器预测单

词wj在类Ci的文档中发生的概率。

因

此式

（2）可转换为

|d|

P（G|d）氏R（C）门只叫|C）

j丄

（7）

为避免式⑺中P（j|Ci）等于0,可以采用拉普拉斯概率估计。

有两种方法计算P（COj|C）,即文档型计算公式和词频型计算公式。

（1）文档型:

不考虑单词在文档中的出现

频次，仅考虑单词在文档中是否出现，0表

示未出现，1表示出现，依式（8）计算：

N（doqwj）|G）为Ci类文本中出现特征wj的文本数。

（2）词频型:

考虑单词在文档中出现的频

次，依式（9）计算：

1+TF（Wj,C）

p（w|G）=『jJ

丨V丨吃TF（wk,Ci）

k—

（9）

V表示特征词表中总单词数，

TF（wj,Ci）表示单词wj在类Ci的所有文

档中出现的频次之和。

[11]

4.2K近邻分类K-nearestneighbor

图2KNN决策过程图

KNN分类算法的主要思想是：

先计算待分类样本与已知类别的训练样本之间的距离或相似度，找到距离或相似度与待分类样本数据最近的K个邻居；

再根据这些邻居所属的类别来判断待分类样本数据的类别。

如果待分类样本数据的K个邻居都属于一个类别，那么待分类样本也属于这个类别。

否

则，对每一个候选类别进行评分，按照某种规则来确定待分类样本数据的类别［12］。

我们采用欧氏距离来确定样本的相似

性。

欧氏距离的计算公式为：

d（x,y）二?

（Xj—yj2

KNN以简单和高鲁棒性而被广泛应用于机器学习和数据挖掘领域，被证实是向量空间模型（VSM）下最好的文本分类方法之一。

然而KNN算法有其固有的缺点，当训练样本集过大或特征过多时，KNN算法的效率会明显下降［13］。

鉴于此，卜凡军等提出了基于向量投影的PKNN算法［14］。

4.3KNN改进算法PKNN

KNN算法的计算量主要花费在分类阶段：

每次对一个待分类样本分类时，都要计算其与所有训练样本的距离，如果对大量高维数据进行分类，那么计算开销将是非常大的。

因此，基于iDistance［15］降维思想和

向量投影理论的改进KNN的PKNN算法，能够快速准确地选取很小的训练样本库，可以大大提高效率。

PKNN算法流程

（1）读入训练样本Yi（i=1,2，…，n）:

由式（3）求出训练样本的中心M。

（2）根据式

（1）计算各训练样本点与中心

点M的欧氏距离，可得距离M的最远点Ymax。

（3）根据文中的方法求出各训练样本点在

MYmax上的投影距离Di（i=1,2,…,n）,（-|MYmax|<

Di<

|MYmax|），并

对Di排序。

（4）读入一个待分类点x，求x在向量max上的投影距离Dx。

（5）采用二分搜索的方法搜索获得训练样本中Di与Dx最近的n1个点。

（6）通过计算这n1个点与x的欧氏距离获得最近的K个点，根据这k个点的类别属性得出x所属的类。

（7）读入下一个待分类点，循环步骤

（4）~（6）。

4.4决策树DecisionTree

决策树（DecisionTree）是用于分类和

预测的主要技术，它着眼于从一组无规则的事例推理出决策树表示形式的分类规则，采

用自顶向下的递归方式，在决策树的内部节

点进行属性值的比较，并根据不同属性判断从该节点向下分支，在决策树的叶节点得到结论。

因此，从根节点到叶节点就对应着一条合理规则，整棵树就对应着一组表达式规则。

基于决策树算法的一个最大的优点是它在学习过程中不需要使用者了解很多背景知识，只要训练事例能够用属性即结论的方式表达出来，就能使用该算法进行学习［16］。

5、文本聚类

5.1聚类概述

聚类是根据数据的不同特征，将其划分为不同的数据类。

它的目的是使得属于同一类别的个体之间的距离尽可能的小，而不同类别上的个体间的距离尽可能的大。

聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法［17］。

聚类流程如下：

^1~

橐类方衆

图3聚类流程图［18］

5.2文本聚类概述

文本聚类主要是依据著名的聚类假设同类的文档相似度较大，而不同类的文档相似度较小。

作为一种无监督的机器学习方法，它在给定的某种相似性度量下把对象集合进行分组，使彼此相近的对象分到同一个组内。

文本聚类根据文档的某种联系或相关性对文档集合进行有效的组织、摘要和导航，方便人们从文档集中发现相关的信息。

文本聚类方法通常先利用向量空间模型把文档转换成高维空间中的向量，然后对这些向量进行聚类。

由于中文文档没有词的边界，所以一般先由分词软件对中文文档进行分词，然后再把文档转换成向量，通过特征抽取后形成样本矩阵，最后再进行聚类，文本聚类的输出一般为文档集合的一个划分。

5.3文本聚类的算法

5.3.1基于层次的方法

一个层次的聚类算法［19］将数据对象组织成一棵聚类的树。

根据层次分解是自底向上还是自顶向下形成，层次的聚类算法可以进一步分为凝聚的（agglomerative）和分裂

的（divisive）层次聚类。

凝聚的层次聚类，首先将每个文本对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者终止条件满足。

分裂的层次聚类，与凝聚的层次聚类相反，它首先将所有对象臵于一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者终止条件满足。

对于给定的文档集合D={d1，?

，di，?

，dn}，层次凝聚法的过程如下：

（1）将D中的每个文本di看作是具有单个成员的类ci={di}，这些类构成了D的一个聚类C={c1，?

，ci，?

，cn};

（2）计算C中每对类（ci，cj）之间的相似度sim（ci，cj）;

（3）选取具有最大相似度的类对，并将ci和cj合并为一个新的类ck，从而构成了D的一个新的聚类C={c1，?

，ci，?

，cn-1};

（4）重复上述步骤，直到C中剩下一个类为止。

5.3.2基于划分的方法（k-means及其改

进算法）

k-means（K-平均）是一种典型的基于划分的方法。

是一种基于质心的聚类技术，其基本原理是首先选择k个文档作为初始的

聚类点，然后根据簇中对象的平均值，将每个文档（重新）赋给最类似的簇，并更新簇的平均值，然后重复这一过程，直到簇的划分不再发生变化［20］。

k-means的算法复杂度为0（kin），其中I为迭代次数，n为文档个数，k为类别个数。

k-means算法描述：

输入：

簇的数目k，包含n个文本的特征向量。

输出：

k个簇，使平方误差准则最小。

步骤：

（1）任意选择k个对象作为初始的簇中心；

（2）repeat;

（3）根据簇中对象的平均值，将每个对象（重新）赋给最类似的簇；

（4）更新簇的平均值；

（5）until不再发生变化。

本文通过C++实现了k-means算法,

划分结果示例截图如下：

图4k-means算法聚类示例图

由上述算法可知，k-means具有高效

率，并有效处理大文本集的优点。

k-means算法本质上是一种贪心算法。

可以保证局部最小，但是很难保证全局最小。

传统的k-means算法对初始聚类中心敏感，不同的初始中心往往对应着不同的聚类结果。

袁方等［21］提出了一种优化初始聚类中心的改进k-means算法。

优化初始聚类中心改进k-means算法

描述如下：

聚类个数k以及包含n个数据对象的数据集；

满足目标函数值最小的k个聚

类。

（1）计算任意两个数据对象间的距离

d（Xi,Xj）；

（2）计算每个数据对象的密度参数，把处于低密度区域的点删除，

得到处于高密度区域的数据对象的集合D；

（3）把处于最高密度区域的数据对象作为第1个中心z1；

（4）把z1距离最远的数据对象作为第2个初始中心z2,z2€D；

（5）令z3为满足

max（min（d（Xj,Zi）,d（Xj,Z2）））

i=1,2,...,n

的数的数据对象Xi,JD；

（6）令z4为满足

max（min（d（Xi,zj,d（Xi,Z2）,d（\,Z3）））

i二1,2,...,n

的数的数据对象Xi,Z4•D；

令

为

满

足

max（min（d（Xi

））

=1,2,..

n；

-1

的数据对象

Xi，

eD；

（8）从这k个聚类中心出发

应用

k-means

聚类算法

，得到聚类结果。

经改进的k-means

算法与原算法准确

率比较结果如下:

L35IDI

扯*1副

3I52K31

urn

脚J孔

5IWi

I3JD53

]5*JI

I-125I-2

51W.

囲冬.

邊

LZJEft5弭玮

M.W

1415%

NJI3

%«

JM邸

M少廉门炉

观」

黑加刖

51氏

训晒

35.1WM

EI.M51Mm

邮豪

51TJ%

MW7I

血器对殊

用加

ilWi

程

】」欣

聃

口削打12鴨

2IJ9T.IS

BU+5

酋铁

3b.3IJ«

中

LLW.IJ4Ji7?

HJ齐

沏」乂L0

闸序

Hun

512ft

耳胳

il辭

HJR.I算RP*

I.4W

WLfi

75热

ipjn

图5k-means算法与改进k-means算法的比较图

可见在多数数据集中，改进算法要比原k-means算法的准确率高。

6、文本挖掘应用

文本挖掘最大的动机是来自于潜藏于电子形式中的大量的文本数据。

利用数据挖掘技术处理公司大量的文本数据，将给企业带来巨大的商业价值。

另外人们对于文本挖掘的感兴趣的原因还在于：

人们有时候并不知道他们到底要找什么，而挖掘能够从数据库中抽取出许多有用的信息。

目前，文本挖掘在搜索引擎、舆情分析、用户推荐等各个领域都有所应用，本文简单介绍下其在舆情分析下［22］的应用。

6.1网络舆情分析

6.1.1对网络舆情进行描述

通过对网络舆情信息的文本挖掘，可以

生成有关网上针对某一社会公共事件存在的不同的民众情绪、态度、观点即网络舆情的总体概括的描述性信息。

如利用文本特征提取可以了解舆情信息涉及的具体社会问题、发现并追踪社会热点和焦点内容、利用文本分类技术可以判断该事件反映哪类社会问题。

6.1.2对网络舆情的关联性进行分析文本挖掘可以从时间与空间分析事件之间的关联性，发现从时空角度关联事件的发展规律及发展趋势。

如通过文本挖掘分析法可以明确舆情信息产生者与舆情信息特征之间的关联性，这样就能通过分析舆情信息的特征来追溯舆情信息的来源。

网络信息的主题检测和追踪技术可以在海量网络信息中，自动发现突发事件的舆情信息流主题。

文本挖掘技术可跟踪突发事件的相关信息，实现

网络舆情热点焦点信息的自动发现，可以有效的辅助发现并预警不良信息，起到辅助决策支持的作用。

6.1.3真实性进行判断分析，意图倾向推论

网上虚假信息和不良信息会引发错误舆情导向，需要通过文本挖掘对其进行判定和掌控。

网络舆情信息在大多数情况下真实地表达出了民众的态度和情绪，如通过网站所发

布的对时政问题的讨论，可以推断其观点和

立场。

事件发生的全貌及产生的影响。

网络还大量存在着歪曲、偏激地反映社会现实、现代社会的价值观念的舆情信息，甚至还有别有用

心的人，在网上散布虚假信息。

在这种情况下，通过文本挖掘分析法，可以比较网络舆情信息与社会现实状况，对虚假信息追根溯

源，及时消除其不良影响。

6.1.5预测和推论网络舆情信息的产生和变化趋势

舆情一经产生，便处在动态变化之中，对网络舆情变动趋势的预测，对于管理决策

者有着重要的意义［23］。

7、结束语

本文对文本挖掘的主要技术进行了详细的介绍和分析，并对相关技术的改进算法进行了探讨。

目前文本挖掘尤其是中文文本挖掘，还是有很大的研究空间。

现有的一些中文文本挖掘对语义理解方面做的还不够多，当然，这与中文的博大精深有一定的关系。

笔者导师的研究方向是Web海量信息处理

和垂直搜索。

目前笔者导师的团队在做垂直搜索引擎的过程中，一直都涉及文本处理、文本挖掘、文本分析等方面，现有的文本挖掘技术虽然比较成熟，但是在特定项目中，还是存在覆盖面不够的情况。

各类Web文本挖掘技术，技术虽然成熟，但大部分成果都是基于统计，很少有基于理论的，笔者希望在今后的研究道路上，能够对相关技术进行进一步的探讨与改进，尤其期盼在基于理论的文本挖掘技术方面能够有一些出彩的成果。

6.1.4对网络舆情的产生原因进行分析文本挖掘技术利用多维分析对舆情信息进行跨时间、跨空间的综合分析，描述起因

参考文献

NearestNeighborSearch[C],In:

ACM

[1]谌志群，张国煊.文本挖掘研究进展J].模式识

TransactionsonDatabaseSystems,Vol.V,No.

别与人工智能，2005:

65-74.

N,Month2001,Pages1-3

展开阅读全文