基于Web的文本分类挖掘的研究.docx

资源描述

基于Web的文本分类挖掘的研究.docx

《基于Web的文本分类挖掘的研究.docx》由会员分享，可在线阅读，更多相关《基于Web的文本分类挖掘的研究.docx（28页珍藏版）》请在冰豆网上搜索。

基于Web的文本分类挖掘的研究.docx

基于Web的文本分类挖掘的研究

论文编码：

TP181

首都师范大学学士学位论文

基于Web的文本分类挖掘的研究

院系信息工程学院

专业计算机科学与技术系（师范）

年级2001

学号**********

指导老师刘丽珍

论文作者徐颖

完成日期2005年6月6日

中文提要

互联网现在已经成为一个巨大的信息源，如何让互联网信息更好地为人类服务，如何快速、准确获取所需信息，是我们面临的一个重要课题。

因此，基于Web的网络信息处理成了当前的研究热点，其中，Web上的文本分类方法的研究是网络数据挖掘的研究重点之一。

本文介绍了数据挖掘，Web挖掘和文本分类的理论，对Web数据的特点作了分析，比较了HTML与传统数据的区别，分析了文本分类的几种算法，重点研究了朴素贝叶斯分类算法和算法改进的具体过程。

尝试利用HTML标记权重来改善朴素贝叶斯算法的条件独立假设的不足。

简述了现有的对网页的标记过滤的知识，并利用标记中的有用信息结合文本分类算法进行文本分类。

最后，针对改进的分类器的在精确率上不太理想的特点，对本课题下一步要研究的内容进行了总结，并提出了自己的一些看法。

关键词

Web挖掘朴素贝叶斯数据挖掘文本分类网页标记

ResearchofTextClassificationMiningbasedonWEB

ABSTRACT

Internethas　becomeagreatinformationsource.ItisanimportantissuesforustoconfrontthathowtomaketheInternetinformationservepeoplebetterandhowtoobtaintheinformationquicklyandaccurately.NowadaystheResearchofinformationprocessingbasedonwebisahotspot.Thetextcategorizationofwebhasbecamemoreimportantthantheotherresearchofwebmining.

Thetheoreticaldevelopmentofdatamining,Webminingandtextclassificationareintroduced,analyzesthefeatureofWebdata,compareswiththeotherdatanaivebayesclassifier.Analyzessomearithmeticsoftextcategorizationandtheconcreteprocessoftheimprovementofarithmeticinnaivebayesclassifier　areputemphasison.ThisthesistriestomakeuseofHTMLtagstoimprovethearithmeticofnaivebayesclassifierwhosebugisitshypothesis.Inthepracticeoftheclassifier,thethesissummarizesthemethodwhichcanleachHTMLtags,thentriestousetheinformationfromthetagsandthetextcategorizationarithmetictoclassifythetext.

Finally,theprecisionoftheclassifierwhichhasbeenimprovedisnotideal,sothenextcontentsofthissubjectaresummarizedandsomeone'sownviewsarealsopresented.

XuYing

DirectedbyLiuLi-zhen

Keyword

WebMiningNaïveBayesDataMiningTextcategorizationHTMLtags

引言

Web文本分类挖掘作为数据挖掘的一个重要研究方向，有着潜在广阔的应用环境。

因此，Web文本分类挖掘是很值得研究的内容。

特别是文本的特征提取和文本分类的算法，对提高分类器的效率和实用性都有一定的帮助。

本文在研究了现有的文本分类方法和文本分类系统的基础上，尝试改进朴素贝叶斯分类的假设。

第一章绪论

1．1选题背景及意义

当今世界计算机的广泛发展，数据库技术的成熟，使得人类积累的数据量越来越庞大，形成了数据丰富但知识匮乏的问题。

各个领域的人们都期待有一种方法能高效率地从大量的数据中发现有用信息，即知识。

在这种情况下，知识发现和数据挖掘的研究成为热点，尝试解决以上问题。

数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程，这些模型和关系可以用来做出预测。

数据挖掘涉及数据库、人工智能、机器学习和统计分析等多个领域的理论和技术。

数据挖掘技术能从大型数据库或数据仓库中自动分析数据，进行归纳性推理，从中发掘出潜在的模式；或者产生联想，建立新的业务模型，帮助决策者调整市场策略，做出正确的决策。

伴随计算能力的增长，算法及大规模数据存储技术的成熟，数据挖掘逐渐走出实验室，在生产领域发挥着积极的作用。

20世纪90年代以来，互联网迅速地发展。

海量信息的管理和利用问题，向传统的数据挖掘提出了新的技术要求：

如何从这些众多的信息资源中快速的发现自己所需要的知识。

因此，迫切需要一种高效快速的信息资源分析工具，帮助用户快速浏览网络，并能从这些大量的信息中找出隐含的知识，减少用户的负担。

面对这种需求，Web挖掘成为近几年来新兴的研究领域。

它从数据挖掘发展而来，又面临很多前所未有的问题：

比如：

数据量不断膨胀，处在动态变化中难以控制，数据安全难以保证，数据形式不一致难以统一处理等。

由于Web在当今社会扮演越来越重要的角色，有关Web内容挖掘、Web日志挖掘和与Web有关的数据挖掘服务，成为数据挖掘中一个重要和逐渐繁荣的领域。

为了能够准确、快速、合理的利用Web上不断增长的信息，Web挖掘的研究显得更加重要了。

利用Web的特性，应用和改进原有的一些数据挖掘技术和原理在Web文档中发现和分析有用信息逐渐成为知识发现研究的重要方向。

1．2数据挖掘

数据挖掘的任务主要是从大量的、不完全的、有噪声的、模糊的、随机的数据中发现隐含的、潜在的、可能的数据模式、内在联系、规律、发展趋势等有用的信息，而这些数据经常是以结构化的静态数据库（数据仓库）的形式存储的，还包括一些其他形式的数据集合。

数据挖掘是知识发现过程中的一个基本步骤。

它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

相近的术语有数据融合、数据分析、决策支持、KDD、知识挖掘、知识提取等。

鉴于数据、数据挖掘任务和数据挖掘方法的多样性，数据挖掘要面对许多挑战性的新课题。

数据挖掘语言的设计，高效而有用的数据挖掘方法和系统的开发，交互和集成的数据挖掘环境的建立，以及应用数据挖掘技术解决大型实际应用问题，都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要问题[1]。

数据挖掘研究的对象很广泛，包括数据库、文本、Web上的信息、图象、视频等。

以Web信息为研究对象的数据挖掘，称为Web数据挖掘，简称Web挖掘。

Web数据资源的大量、异质、分布等特点导致传统数据挖掘算法的效率、有效性受到了影响，Web数据挖掘的研究尝试弥补这种影响。

1．3Web挖掘

Web挖掘是一项综合技术，是根据面向Internet的分布式信息资源的特点的一种模式抽取过程，它不仅能查找到分布式信息资源中已存在的信息，还能识别出大量存在于数据中的隐含的、有效的规律。

1.3.1Web挖掘的概念、对象及特点

从一般的角度出发，为Web挖掘下了定义[3]：

Web挖掘是指从大量Web文档的集合C中发现隐含的模式Þ，如果将C看作输入，将Þ看作输出,那么Web挖掘的过程就是从输入到输出的一个映射ξ：

C→Þ。

Web挖掘就是Web上的知识发现，即Web挖掘的对象是Web文档。

而以Web作为中间件的挖掘，比如通过Web对数据库进行挖掘，对Web服务器上的日志、用户信息等相关数据的挖掘，都属于传统的数据挖掘的范畴[1]，而非Web挖掘。

Web挖掘是从数据挖掘发展而来，但是它同传统的数据挖掘相比又有许多独特之处。

比如，Web挖掘的研究对象Web文档就有以下特点：

首先，Web文档的数据量庞大。

计算Web文档的数据量早就以几百兆兆字节计算，并且它时刻有可能增长，一些研究者致力于存储Web上的数据的研究[2]，因为传统的数据仓库不能满足这样不断膨胀的巨大的数据量的存储。

其次，Web文档十分复杂，具体表现在数据的异构，信息来源动态更新。

Web文档上数据的最大特点是就是半结构化或无结构：

数据没有严格的结构模式、含有不同格式的数据（文本数据、音频数据、视频数据、图形图像数据等各种非结构化的数据，）、面向显示的HTML文本无法区分数据类型等。

而传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据。

显然，面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。

Web上每一站点的数据都各自独立设计，并且数据本身具有自述性，数据来源具有动态可变性。

Web上的每一个站点就是一个数据源，每个数据源都是异构的，因而每一站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。

这些庞大的数据源分布在不同的站点，并且时刻可能增加新的信息。

这就面临对数据如何有效的存储等困难，并且无法进一步对数据进行分析、集成、处理。

再次，Web在逻辑上是一个由文档集合超链接构成的图，因此，Web文本挖掘所得到的模式可能是关于Web内容的，也可能是关于Web结构的。

由于Web文本是一个半结构化或无结构化的，且缺乏机器所能理解的语义，从而使有些数据挖掘技术并不适用于Web挖掘。

因而，开发新的Web挖掘技术以及对Web文本进行预处理，以提取该文本的特征，便成为Web挖掘研究的重点[1]。

还有就是由于互联网的接入廉价而普及，Web文档的分布很广泛，用户群多样，需求的信息多样而模糊。

基于Web的数据挖掘用户往往只对要挖掘的主题有一个粗浅的认识，提不出很明确的目标来，经常得不到期望的知识，或者由于付出的时间太长而放弃等待有用的知识被挖掘出来。

这就需要数据挖掘系统具有一定的智能性和学习机制，不断地跟踪用户的兴趣，清晰明白地阐述挖掘结果。

Web上的信息只有很小的一部分是相关的或有用的。

据统计，99%的Web信息对于99%的用户是无用的，这些无用的信息会淹没用户所希望得到的结果。

1.3.2Web挖掘的分类

Web挖掘一般分为三类，如图1-1：

图1-1Web挖掘的分类

Web挖掘对象包含三方面的内容：

Web上的文档内容，Web结构数据，用户浏览Web页面的记录数据；对应地，根据对Web挖掘对象的感兴趣程度不同，Web挖掘一般可以分为三类：

Web内容挖掘（WebContentMining）、Web结构挖掘（WebStructureMining）、Web使用挖掘（WebUsageMining）。

（1）Web内容挖掘（WebContentMini

展开阅读全文