数据挖掘与知识发现讲稿12文本挖掘Word格式.docx

资源描述

数据挖掘与知识发现讲稿12文本挖掘Word格式.docx

《数据挖掘与知识发现讲稿12文本挖掘Word格式.docx》由会员分享，可在线阅读，更多相关《数据挖掘与知识发现讲稿12文本挖掘Word格式.docx（21页珍藏版）》请在冰豆网上搜索。

数据挖掘与知识发现讲稿12文本挖掘Word格式.docx

两者都处理大量的数据，都有归属到知识管理的知识发现领域中。

差别在于：

许多经典的数据挖掘算法，如数值预测、决策树等都不太适用于文本挖掘，因为它们依赖于结构化的数据。

而像概念关系分析等工作则是文本挖掘所独有的，如表所示。

文本挖掘与数据挖掘的区别

数据挖掘

文本挖掘

研究对象

用数字表示的、结构化的数据

无结构或者半结构化的文本

对象结构

关系数据库

自由开放的文本

目标

抽取知识，预测以后的状态

检索相关信息，提取意义，分类

方法

归纳学习、决策树、神经网络、粗糙集、遗传算法等

标引、概念抽取、语言学、本体

成熟度

从1994年开始得到了广泛应用

从2000年开始得到了应用

1.3文本挖掘与信息检索

信息检索是文本挖掘相关的一个概念，但它与文本挖掘又是不同的两个概念。

信息检索是指从大量的文档集合C中，找到与给定的查询请求q相关的、恰当数目的文档子集S的过程。

区别主要表现在如下几个方面：

（1）方法论不同

信息检索是目标驱动的，用户需要明确提出查询要求；

而文本挖掘结果独立于用户的信息需求，是用户所无法预知的。

（2）着眼点不同

信息检索着重于文档中字与词和链接；

而文本挖掘在于理解文本的内容和结构。

（3）目的不同

信息检索的目的在于帮助用户发现资源，即从大量的文本中找到满足其查询请求的文本子集；

而文本挖掘是为了揭示文本中隐含的知识。

（4）评价方法不同

信息检索用查准率（Precision,检索到的文档中的相关文档占全部检索到的文档的百分比）和查全率（Recall,即被检索出的文档中的相关文档占全部相关文档的百分比）来评价其性能，要求尽可能多的检索出相关文档，同时不相关的文档尽可能少。

而文本挖掘采用收益（Gain）、置信度（Certainty）、简洁性（Simplicity）等来衡量所发现知识的有效性、可用性和可理解性。

（5）使用场合不同

有时信息检索系统返回太多的结果以致用户无法一一浏览，有时用户没有明确的信息需求，有时用户希望发现文档集合中所具有的结构、趋势、含义，在这些场合下，就需要使用挖掘技术。

尽管文本挖掘是比信息检索层次更高的技术，但它并不是用来取代信息检索技术的，二者是相辅相成的。

一方面，这两种技术各有所长，有各自适用的场合；

另一方面，可以利用文本挖掘的研究成果来提高信息检索的精度和效率，改善检索结果的组织，使信息检索系统发展到一个新的水平。

第2节文本特征表示与提取

2.1文本特征的表示

与数据库中的结构化数据相比，文档具有有限的结构，或者根本就没有结构。

即使具有一些结构，也是着重于格式，而非文档内容。

不同类型的文档结构也不一致。

此外，文档的内容是人类所使用的自然语言，计算机很难处理其语义。

文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。

这就需要对文本进行预处理，抽取其特征的元数据。

这些特征可以用结构化的形式保存，作为文档的中间表示形式。

文本的特征指的是关于文本的元数据，分为：

（1）描述性特征，如文本的名称、日期、大小、类型等；

（2）语义性特征，如文本的作者、机构、标题、内容等；

一般，描述性特征易于获得，而语义性特征则较难得到。

W3C（中国万维网联盟）近年来制定的XML（ExtensibleMarkupLanguage,可扩展标记语言）、RDF（ResourceDescriptionFramework,一种用于描述Web资源的标记语言）等规范提供了对文档资源进行描述的语言和框架。

在此基础上，可以从半结构化的文档中抽取作者、机构等特征。

对于内容这个难以表示的特征，首先要找到一种能够被计算机所处理的表示方法。

矢量空间模型（VSM）是近年来应用较多且效果较好的表示文本特征的方法。

在该模型中，文档空间被看作是由一组正交词条矢量所张成的矢量空间，每个文档d表示为其中的一个范化特征矢量：

其中，

为词条项，

为

在

中的权值。

可以是d中出现的所有单词，也可以是d中出现的所有短条，从而提高内容特征表示的准确性。

一般被定义为

在d中出现的频率

的函数，即

。

常用的

有：

（1）布尔函数

（2）平方根函数

（3）对数函数

（4）TFIDF函数

为所有文档的数目，

为含有词条

的文档数目。

2.2文本的特征提取

特征提取主要是识别文本中代表其特征的词项。

提取过程是自动的，提取的特征大部分是文本集中表示的概念。

文本特征分为一般特征和数字特征，其中一般特征主要包括动词和名词短语，如人名、组织名等；

数字特征主要包括日期、时间、货币以及单纯数字信息。

这些特征包含重要的信息，因此特征提取是一种强有力的文本挖掘技术。

通过文本的特征抽取，记录文本的特征，可以更好地组织文本，如文本的存储、检索、过滤、分类和摘要等。

中文姓名识别属于中文信息处理中未登录词处理的范畴，中文姓名在文章中的出现频率虽然不高，但绝非可以忽略，因为中文姓名本身包含着重要的信息，它可能是整个句子甚至整个段落的语义中心，如果不予处理，将影响文本挖掘的性能。

数字特征反映一定的信息，但不能表达文本的中心思想，通常只作为文本挖掘中的参考信息。

姓名特征提取算法所提取的姓名特征，作为文本内容的特征表示。

构成文本的词汇，通常数量很大，因此表示文本的向量空间的维数也相当大，可以达到几万维，需要压缩维数。

为了提高分类精度，对于每一类，应去除那些表现力不强的词汇，筛选出针对该类的特征项集合。

目前，存在多种筛选特征项的算法，如根据词和类别的互信息量判断、根据词熵判断、根据KL距离判断等。

比如，根据词和类别的互信息量进行特征项抽取的判断标准，其算法过程如下：

（1）初始情况下，该特征项集合包含所有该类中出现的词；

（2）对于每个词，计算词和类别的互信息量

；

类中出现的比重；

为该类的训练样本数；

为词W在文本

中的词频；

为总词汇；

为该类所有词的词频和；

为词W在所有训练样本中的比重。

（3）对于该类中的所有词，依据上面计算的互信息量排序；

（4）抽取一定数量的词作为特征项，具体需要抽取多少维的特征项，目前无很好的解决方法。

一般采用先定初始值，然后根据实验测试和统计结果确定最佳值，初始值一般定在几千左右；

（5）将每类中所有的训练样本，根据抽取的特征项，进行向量维数压缩，精简向量表示。

第3节文本挖掘

3.1文本分类

文档分类是一种重要的文本挖掘工作，由于现在存在大量的联机文档，自动对其分类组织以便对文档的检索和分析，是至关重要的。

如何进行文档的自动分类？

一般做法如下：

首先，把一组预先分类过的文档作为训练集；

然后对训练集进行分析以便得出分类模式。

这种分类模式通常需要一定的测试过程，不断地细化。

之后就用这些导出的分类模式对其他联机文档加以分类。

这一处理过程与关系数据的分类相似，但还是存在本质的区别。

因为，关系数据是结构化的，而文档数据库则不是结构化的，它没有“属性，值”对的结构。

因此，对关系数据的分类方法，如决策树分析，并不适用对文档数据库的分类。

对文档分类的有效方法是基于关联的分类，它基于一组关联的、经常出现的文本模式对文档加以分类。

基于关联的分类方法处理过程如下：

（1）通过简单的信息检索技术和关联分析技术，提出关键词和词汇；

（2）使用已经有的词类，或基于专家知识，或使用某些关键字分类方法，生成关键字和词的概念层次，或类层次结构。

（3）词关联挖掘方法用于发现关联词，它可以最大化区分一类文档与另一类文档。

这导致了对每一类文档，有一组关联规则。

这些分类规则可以基于其出现频率加以排序，并用于对新的文档的分类。

基于关联的文档分类方法已经证明是有效的。

文本分类是一种典型的有教师的机器学习问题，一般分为训练和分类两个阶段。

具体过程如下：

（1）训练阶段

①定义类别集合

，这些类别可以是层次式的，也可以是并列式的；

②给出训练文档集合

，每个训练文档

被标上所属的类别标识

③统计S中所有文档的特征矢量

，确定代表C中每个类别的特征矢量

（2）分类阶段

①对于测试文档集合

中的每个待分类文档

，计算其特征矢量

与每个

之间的相似度

②选取相似度最大的一个类别

作为

的类别。

注：

在计算

时，有多种方法可供选择。

最简单的方法是仅考虑两个特征矢量中所包含的词条的重叠程度，即：

是

和

具有相同词条的数目；

具有的所有词条数目。

最常用的方法，是考虑两个特征矢量之间的夹角余弦。

3.2关联分析

关联分析首先要对文本数据进行分析、词根处理、去除非用词等预处理，然后调用关联挖掘算法。

在文档数据库中，每一个文档被视为一个事务，文档中的关键字组可视为事务中的一组事务项。

即数据库可表示为：

{document_id,a_set_of_keywords}

于是，文档数据库中的关键字关联挖掘问题，就变成事务数据库中事务项的关联挖掘问题。

注意：

一组经常连续出现或紧密相关的关键字可形成一个词或词组。

关联挖掘有助于找出复合关联，即领域相关的词或词组。

如，[科技大学，大学]或[总统，布什]，或非复合词关联，如[美元，参股，交易，总额，佣金，赌注，证券]。

基于这些关联的挖掘称为“词级关联挖掘”（相对应的是字级的挖掘）。

词的识别和词级关联在文本分析中有两个优点：

（1）词和词组被自动标记，无需人去标记文档；

（2）挖掘算法的执行时间和无意义的结果将极大减少。

利用这种词和词组的识别，词级挖掘可以用于找出词或关键字间的关联。

一些用户可能喜欢从给定关键字或词组中找出关键字或词对之间的关联，而有些用户可能希望找出一起出现的最大词集。

因此，根据用户挖掘的需要，可以使用关联挖掘或最大模式挖掘算法。

3.3文档聚类

文本聚类是一种典型的无教师的机器学习问题。

目前的文本聚类方法大致可分为：

层次凝聚法和平面划分法两种类型。

1、层次凝聚法

对于给定的文档集合

，层次凝聚法的具体过程如下：

（1）将D中的每个文档

看作是一个具有单成员的簇

，这些簇构成了D的一个聚类

（2）计算C中每对簇（

）之间的相似度

（3）选取具有最大相似度的簇对

，并将

合并为一个新的簇

，从而构成了D的一个新的聚类

（4）重复上述步骤，直至C中剩下一个簇为止。

该过程构造出一棵生成树，其中包含了簇的层次信息，以及所有簇内和簇间的相似度。

层次聚类方法是最为常用的聚类方法，它能够生成层次化的嵌簇，且精确度较高。

但是在每次合并时，需要全局地比较所有簇之间的相似度，并选择出最佳的两个簇，因此运行速度较慢，不适合于大量文档的集合。

2、平面划分法

平面划分法与层次凝聚法的区别在于，它将文档集合水平地分割为若干个簇，而不是生成层次化的嵌套簇。

，平面划分法的具体过程如下：

（1）确定要生成簇的数目

（2）按照某种原则，生成

个聚类中心作为聚类的种子

（3）对D中每个文档

，依次计算它与各个种子

的相似度

（4）选取具有最大相似度的种子

，将

归入以

为聚类中心的簇

，从而得到D的一个聚类

（5）重复步骤

（2）、（3）、（4）若干次，以得到较为稳定的聚类结果。

该方法的运行速度较快，但是必须事先确定

的取值，且种子选取的好坏对聚类结果有较大影响。

第4节Web挖掘

万维网目前是一个巨大的、分布广泛和全球性的信息服务中心，它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。

Web还包含了丰富和动态的超链接信息，以及Web页面的访问和使用信息，这为数据挖掘提供了丰富的资源。

所以，随着Internet的飞速发展，网上的数据资源空前的丰富。

但是数据资源中蕴涵的知识却至今未能得到充分的挖掘和利用，数据丰富但知识贫乏的问题非常严重。

在日益激烈的电子商务买方市场竞争中，任何与消费者行为有关的信息对商家来说都非常重要。

目前，大多数的用户从Web上获取信息的途径主要是通过搜索引擎或者通过浏览Web页面，搜索引擎虽然部分的解决了资源发现的问题，但其精确度不高，不能为用户提供结构化的信息，也不能提供文档分类、过滤等功能；

而浏览Web页面在用户需要查找、查全大量的资料时，基本不能提供资源发现的功能，显然，这两种信息检索手段都不能满足用户的基本要求。

数据库领域采用了数据挖掘技术，以从大量数据的集合中发现有用的信息，但数据挖掘绝大部分工作所涉及的是结构化数据库，很少有处理Web上的异质、非结构化信息的工作。

因此怎样从Web上大量的信息中有效的、快速的找出用户感兴趣的信息就成为一项重要而迫切的课题，人们也迫切需要这样一种能快速、有效地发现资源和知识的工具。

近年来兴起的数据挖掘（DataMining）技术在Web上的应用即Web数据挖掘技术为解决这个问题带来了一线曙光。

从广义上讲，Web信息也是一类特别的文本信息，因此文本挖掘的各种技术也适合于Web挖掘，但是由于Web信息自身的特点，文本挖掘和Web挖掘应该区别对待。

4.1什么是Web数据挖掘

Web数据挖掘是从大量的Web文件的集合中发现有用的信息和模式。

Web数据挖掘是一门综合技术，涉及领域非常广泛，如：

数据挖掘、信息学、计算机语言学、人工智能等领域。

Web挖掘从数据挖掘而来，但由于Web上的信息的特点使得它又不同于传统的数据挖掘，它所面临的挑战更大。

此外，Web挖掘技术也不同于信息检索（IR）。

Web数据挖掘具有以下特点：

1、Web信息特别庞大

Web的数据量目前以几百G字节计算，而且仍在迅速地增长。

许多机构和社团都在把各自大量的可访问信息置于网上。

怎样对这些数据进行复杂的应用是数据挖掘技术的研究热点。

2、Web信息非常复杂

Web文件是半结构化或无结构的。

每一站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性，没有特定的模型描述。

需要研究统一的语义模型，并解决半结构化或无结构数据的抽取技术。

所以，Web页面缺乏统一的结构，它包含了远比任何一组书籍或其他文本文档多得多的风格和内容。

Web可以看作是一个巨大的数字图书馆；

然而，这一图书馆中的大量文档并不根据任何有关排列次序加以组织。

它没有分类索引，更没有按标题、作者、封面页、目录等的索引。

对在这样一个图书馆中搜索希望得到的信息是极具挑战性的。

3、Web信息是动态的

Web是一个动态性极强的信息源。

Web不仅以极快的速度增长，而且其信息还在不断地发生着更新。

新闻、股票、股票市场、公司广告和Web服务中心都在不断地更新着各自的页面。

链接信息和访问记录也在频繁地更新之中。

4、Web信息使用者复杂

相对于一般的数据库应用系统，Web面对的是一个广泛的、形形色色的用户群体。

目前的Internet上连接有约五千多万台工作站，其用户群仍在不断扩展中。

各个用户可以有不同的背景、兴趣和使用目的。

大部分用户并不了解信息网络结构，不清楚搜索的高昂代价，极容易在“黑暗”的网络中迷失方向，也极容易在“跳跃式”访问中烦乱不已和在等待一段信息中失去耐心。

5、Web信息中“垃圾”非常多

Web信息只有很小的一部分是相关的或有用的。

据说99%的Web信息对于99%的用户是无用的。

虽然这看起来不是很明显，但一个人只是关心Web上很小很小一部分信息确是事实，Web所包含的其余信息对用户来说是不感兴趣的，而且会淹没所希望得到的搜索结果。

6、异构的数据环境

Web页面的复杂性远比任何传统的文本文档复杂得多。

Web上的每一个站点就是一个数据源，每个数据源都是异构的，各自的信息和组织不一样，构成了一个巨大的异构数据环境。

如果想要利用这些数据进行数据挖掘，必须要解决站点之间异构数据的集成问题。

4.2自适应网站技术

为了更好地满足人性化访问地要求，必须做进一步基于网站自身的挖掘。

因而提出了基于Web日志的数据挖掘的自适应网站技术。

所谓自适应网站是指：

对于特定的网站和特定的用户，通过学习访问者或用户的访问模式自动改善其组织和信息描述方式的网站。

由于挖掘是基于用户的浏览行为而不是用户输入的数据，从而消除了描述的差异，适用于个性化服务。

其优点是适用范围广，不需要用户参与，不涉及隐私，数据真实。

其缺点是数据的杂质特性，在区分使用者、会话、识别会话的终结点方面存在着许多困难。

自适应网站建立的主要目的是消除网站设计者假设的用户兴趣和网站使用者兴趣的差别。

网站设计者在设计时总是基于某些用户为什么及怎样访问网站的假设，并据此规划网站，然而使用者的需要往往与设计者假设的用户需要并不相同。

此时设计者与使用者之间就存在着一条“兴趣沟”，而自适应Web数据挖掘可以很好的消除这条“沟”。

自适应的周期要经历4个阶段，数据准备、数据挖掘、数据分析、网站改进。

整个过程是不断循环不断完善的。

在以上的自适应Web数据挖掘中有一个重要的基础就是数据的准确性；

必须有准确的数据才能每次都正确地反映使用者的意图，从而可以使分析沿着正确的方向进行。

由于日志记录和HTTP协议的自身原因，日志数据是杂乱的，还原的信息可能包含错误信息，因此对日志信息进行准确的预处理是非常关键的。

4.3Web数据挖掘的研究热点

当前,数据挖掘研究正方兴未艾,尤其是对基于Web的数据挖掘的研究,研究热点可能会集中到以下几个方面:

（1）研究专门的数据挖掘语言,使其像SQL语言一样走向形式化和标准化。

（2）寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现过程中能够方便地进行人－机交互。

（3）研究在网络环境下的数据挖掘技术,特别是在Internet上与数据库服务器配合,实现数据挖掘。

（4）加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

但是,无论怎样,需求牵引和市场驱动是永恒的,数据挖掘技术（尤其是基于Web的数据挖掘技术）将首先满足信息时代用户的急需,大量基于数据挖掘的决策支持软件工具产品不久将会问世。

4.4Web挖掘分类

一般将Web挖掘定义为：

从WWW的资源和行为中抽取感兴趣的、有用的模式和隐含的信息。

一般地，Web挖掘可分为3类：

Web内容挖掘（WebContentMining）、Web结构挖掘（WebStructureMining）和Web使用记录挖掘（WebUsageMining）。

下图是Web挖掘的分类图：

1、Web内容挖掘

Web内容挖掘是从文档内容或文档描述中抽取知识的过程。

Web文档内容的挖掘，基于概念索引的资源发现，以及基于代理的技术都属于这一类。

Web内容挖掘有两种策略：

（1）直接挖掘文档的内容；

（2）在工具搜索的基础上进行改进。

采用第1种策略的有：

针对Web的查询语言Weblog、WebOQL等，利用启发式规则来寻找个人主页信息的Ahoy等等。

采用第2种策略的方法，主要是对搜索引擎的查询结果进行进一步的处理，得到更为精确和有用的信息。

属于该类的有WebSQL，及对搜索引擎的返回结果进行聚类的技术等。

2、Web结构挖掘

Web结构挖掘是从WWW的组织结构和链接关系中挖掘知识。

由于文档之间的互连，WWW能够提供除文档内容之外的有用信息。

利用这些信息，可以对页面进行排序，发现重要的页面。

这方面工作的代表有PageRank和CLEVER。

此外，在多层次Web数据仓库中，也利用了页面的链接结构。

3、Web使用记录挖掘

Web使用记录挖掘的主要目标则是从Web的访问记录中抽取感兴趣的模式。

WWW中的每个服务器都保留了访问日志（Webaccesslog），记录了关于用户访问和交互的信息。

分析这些数据可以帮助理解用户的行为，从而改进站点的结构，或为用户提供个性化的服务。

这方面的研究主要有两个方向：

一般访问模式的追踪和个性化使用记录的追踪。

一般访问模式的追踪通过分析使用记录来了解用户的访问模式和倾向，以改进站点的组织结构；

而个性化使用记录的追踪则倾向于分析单个用户的偏好，其目的是根据不同用户的访问模式，为每个用户提供定制的站点。

4.6Web数据挖掘的用途

到一个站点的所有访问者都会留下浏览的踪迹，这些信息自动存储在Web服务器的日志文件中。

Web分析工具通过分析和处理Web服务器的日志文件来生成有意义的信息。

例如有多少人访问了该页面，他们从哪来，哪些页面最受欢迎等。

当前经济模式的变化，从传统实体的商店到Internet上的电子交易，同时也改变了销售商和顾客的关系。

现在网上顾客的流动性很大，他们关注的主要因素是商品的价值，而不像以前注意品牌和地理因素。

因此，电子销售商一个主要挑战是，如何确定顾客的爱好、兴趣和价值取向，以保证在电子时代的竞争力。

数据挖掘是用来发现不明显的、有潜在价值的数据。

Web上数据挖掘的潜力

展开阅读全文