自动网页主题聚类与分类自动网页主题分类方法研究毕业设计论文.docx

资源描述

自动网页主题聚类与分类自动网页主题分类方法研究毕业设计论文.docx

《自动网页主题聚类与分类自动网页主题分类方法研究毕业设计论文.docx》由会员分享，可在线阅读，更多相关《自动网页主题聚类与分类自动网页主题分类方法研究毕业设计论文.docx（22页珍藏版）》请在冰豆网上搜索。

自动网页主题聚类与分类自动网页主题分类方法研究毕业设计论文.docx

自动网页主题聚类与分类自动网页主题分类方法研究毕业设计论文

本科毕业设计

题目：

自动网页主题聚类与分类

——自动网页主题分类方法研究

自动网页主题分类方法研究

摘要

随着科技的发展，Internet上传播的信息越来越多。

Internet的飞速发展使得Web信息呈爆炸式增长。

文本分类技术面对Internet爆炸式增长的信息处理需求带来了巨大的挑战。

对与大规模数据的分类任务，算法的扩展性及Web页分类等问题是当前自动文档分类研究的热点问题。

本文研究了自动网页主题分类方法。

本文先介绍了当前主流的文本分类的相关技术，分析各个步骤中各种方法的优点和缺点。

因为当前没有统一的语料库，本文构建了IT领域语料库。

主要的工作有新闻稿的提取，训练集的选择，特性权重的计算等，并分析IT领域文本分类模型的特点。

针对当前主流的文本分类技术各有优劣，根据IT领域语料库的特点，结合各个步骤中各种方法的优点和缺点与IT领域文本分类模型的特点进行分析，提出了一种新的方法，构建了朴素贝叶斯和支持向量机的组合分类器。

并对该算法进行了验证。

关键字：

自动网页主题文本分类IT领域语料库组合分类器

StudyonAutomaticWebpagetopicclassificationmethod

Abstract

Withthedevelopmentofscienceandtechnology,moreandmoreinformationontheInternetpropagation.TherapiddevelopmentofInternetmakesWebinformationexplosivegrowth.TextclassificationtechnologyoffaceinformationprocessingrequirementsofInternetexplosivegrowthhasbroughtgreatchallenges.Fortheclassificationtaskwithmassdata,scalabilityofalgorithmsandWebpageclassificationproblemisahotprobleminautomaticdocumentclassificationresearch.

Thispaperstudiestheautomaticwebpagetopicclassificationmethod.Firstintroducestherelatedtechnologyoftextcategorizationisthecurrentmainstream,variousmethodsfortheanalysisoftheadvantagesanddisadvantagesofeachstep.Becausethereiscurrentlynounifiedcorpus,thispaperconstructstheITdomaincorpus.Themainworkistoextractthepressrelease,thetrainingsetselection,featureweightcalculation,andanalyzethecharacteristicsofITdomaintextclassificationmodel.Accordingtothecurrenttextcategorizationtechnologymainstreamhavetheirprosandcons,accordingtothecharacteristicsofITdomaincorpus,analysisofthecharacteristicsofacombinationofvariousmethodsineachstepoftheadvantagesanddisadvantagesofITdomaintextclassificationmodel,anewmethodisproposedtoconstructasimple,Biasandsupportvectormachineclassifiercombination.Andthealgorithmisverified.

Keywords:

AutomaticwebpagetopicTextclassification

ThefieldofITcorpusCombinationclassifier

摘要2

Abstract3

第一章：

引言5

1.1研究背景和意义5

1.2国内外发展现状5

1.3本文的研究内容6

第二章：

文本分类相关技术7

2.1文本分类的一般过程7

2.2文本表示8

2.2.1文本预处理8

2.2.2文本表示模型8

2.3常用文本分类算法9

2.3.1朴素贝叶斯算法（NaiveBayes算法）9

2.3.2支持向量机（SVM）10

2.3.3K近邻分类器（KNN）11

第三章：

IT领域文本分类模型12

3.1IT领域文本分类模型12

3.2IT语料库的设计12

3.3特征权重的确定15

3.4朴素贝叶斯与支持向量机的组合分类器16

第四章：

文本分类系统实验及结果分析18

4.1系统共分为四个模块18

4.2分类过程是：

4.3检验SVM与NB方法对IT语料库的分类效果实验结果19

4.4组合分类器实验结果20

第五章：

总结与展望23

5.1总结23

5.2展望23

致谢24

参考文献25

第一章：

引言

1.1研究背景和意义

随着科技的发展，Internet上传播的信息越来越多。

Internet的飞速发展使得Web信息呈爆炸式增长。

数据分析、数据仓库、数据挖掘等相关技术的发展也越来越快。

文本分类技术面对Internet爆炸式增长的信息处理需求带来了巨大的挑战。

对与大规模数据的分类任务，算法的扩展性及Web页分类等问题是当前自动文档分类研究的热点问题。

人类如今已进入了信息爆炸的大数据时代。

数据分析、数据仓库、数据挖掘等等的研究与应用极大地刺激了当前的需求。

Web挖掘如今得到了极力推广，正是因为赶上了互联网高速发展的时代。

它能够从海量网络文档资源中提取有用信息，进行分类、聚类、分析，从而准确预则未来发展趋势。

若现今的技术发展跟不上信息爆炸的速度，我们便无法对海量数据进行分析应用，制约社会的发展。

但一个突出的难题是，一般网络上的文档都是html格式，要把这些文档转换成在计算机中易于保存与操作的内容。

目前流行使用文档特征向量，但这种模型的缺陷是维数过大，不易处理，必须对其进行维数约简处理，即提取最有值价的特征。

如今，人们所研究的文本分类技术，是基于机器学习、基于语言学的文本分类。

本文着重介绍了基于机器学习文本分类技术，基于机器学习文本分类的主要方法有朴素贝叶斯（NaiveBayes）、支持向量机（SVM）、K-NN、关联规则及决策树等方法。

文本分类技术的主要应用有：

l、信息组织和管理；2、文档组织；3、文本、信息过滤；4、语义辨析。

除了以上几个方法的应用之外，文本分类技术还在社会上其他领域中有许多应用，包括Web页面分类、电子商务等。

1.2国内外发展现状

近几年来，利用机器学习的常用分类技术出现了NaiveBayes、SVM、k-NN、决策树等方法。

1998年，Joachims第一次在文本分类中应用Vapnik提出的SVM；Yang等人提出了一种基于决策树算法的文本分类方法。

随着文本分类技术的发展，各个组织机构取得了不少成果。

2005年，Hirsch等人提出了一种基于遗传算法的文本分类方法；2006年，Arunasalam等将关联分析方法应用在文本分类中。

2007年，Suzuki等将词频比率累计应用在文本分类中。

2008年，Sharma等将文档类别频率应用于文本分类；Suzuki将最大频率比引入到文本分类中。

2009年，Yi等人首次在医学文本分类中使用了基于隐马尔科夫模型的文本分类方法。

到目前为止，国外在文本分类方面的研究有了空前的发展，在各个领域中都有许多应用，例如Web页面分类、电子商务、电子图书馆、搜索引擎等。

然而，相对国外来说，我国在自动文本分类这方面的研究是一个稚嫩的阶段，文本分类技术的开始，源于上世纪80年代侯汉清教授曾对文本分类技术做出相关的介绍，直到20世纪90年代后期，我国才逐步开始中文文本分类研究，这也就有了后来陆续研究出来的一批计算机辅助分类系统和自动分类系统。

随着中文信息处理技术特别是中文自动分词技术的日渐成熟，以此为基础的中文文本分类技术的研究得到了快速发展，中文自动文本分类依然是我们研究人员面临的难题，也正是因为现在仍然很难找到效果极佳的方法去解决这个难题，我们必须作更大的努力去提升自己水平[1]。

1.3本文的研究内容

本课题的基本内容主要包括了以下三个方面：

（1）对中文文本的相关技术进行了深入的研究。

分析各个步骤中各种方法的优点和缺点。

（2）构建了IT领域文本分类模型，包括新闻稿的提取，特性权重的计算等。

分析IT领域文本分类模型的特点。

（3）构建了朴素贝叶斯和支持向量机的组合分类器。

结合各个步骤中各种方法的优点和缺点与IT领域文本分类模型的特点进行分析，提出了一种新的方法，构建了朴素贝叶斯和支持向量机的组合分类器。

并对该算法进行了验证。

第二章：

文本分类相关技术

2.1文本分类的一般过程

通常情况下，文本分类系统包括文本预处理、文档的表示、维数约简、分类器的学习、分类器的测试以及性能评价。

文本分类系统流程图如下图所示。

以下几个方面是文本分类系统中必不可少的步骤：

1、文档预处理

去除禁用词与稀有词，对单词的词干化，是对英文的一般操作；中文和英文除了去掉停用词和稀有词等操作有些相同外，最大的区别就是分词。

目前，中文的预处理难点和重点是中文分词。

2、文档特征的表示

本质上文档是字符串的集合。

使用最普遍的文档表示方式是向量空间模型。

向量空间模型具有下列优点：

（l）对大规模文本数据集的处理速度较快，把文本表示为特征向量，向量间的各种计算能够实现文本间的操作。

（2）没有规定特征权重具体的计算方法，可结合实际情况使用最合适的权重表示方法，能够灵活使用模型。

3、维数约简

通俗来讲，也就是通过确定特征单位以及按一定的描述模型的方法来达到对文档进行特征表示的要求。

维数约简，它有将文档的内容通过计算机能够理解的格式用特征描述出来的作用，使、使得机器具有文档处理和运算能力。

它是文本分类系统的核心。

4、学习训练

这文本分类系统核心在于学习训练，具体有：

创建训练集、创建文本分类器、确定分类器相关参数以及学习操作训练集。

5、测试和评价

用分类器对文本分类，输出分类结果。

根据之前指定的评价指标评估分类器的性能。

假如分类性能不达到指定要求，必须返回到上一步骤，重新操作。

2.2文本表示

2.2.1文本预处理

1、处理文本标记。

本文的研究采用的数据集主要是网页形式的数据集，在预处理模块只提取标题和正文，其他的包括tag标记，以及其他媒体信息等与具体文本内容无关的部分都过滤掉，然后保存为统一格式的txt文本文件，以便分类的进行。

本文的实验中根据“title”标签获取标题，根据ID值“endText”获取内容HTML代码，保存为统一格式的txt文本文件。

2、中文分词。

因为欧洲国家中大部分的语音不需要分词，也因此造成了分词在中日两国等亚洲语音处理上难以解决的局面。

一般来讲，英文信息智能化处理应该包含两个方面：

一是清晰的英文单词分隔，二是严格的语法规范。

但是中文是连续的汉字串，词与词之间不但没有分隔标记，而且不同位置的分隔方法还会产生歧义。

显然，想要达到中文信息能够处理各项任务的要求，关键是要解决如何通过自动识别词边界，使得汉字串能够准确划分为无误的汉语分词词串。

对连续的汉字串准确地区分出词边界，根据词边界区分出不同的词成为中文分词的首要解决问题。

但毕竟中文词汇语义复杂，汉字繁多，导致这方面的分词算法还存在很多不足，国内很多专门从事分词研究的机构正着力开发下一代性能优异的中文分词系统。

3、去除停用词

文档预处理操作中，需要去除一些无意义的、去文档贡献程度不大的词。

这些词的特点是它们在文档中出现的次数非常多但是没有实际意义，不把它们去除掉的话会严重干扰分类结果。

在中文里这类词大多数为虚词或一些语气助词，比如“啊”“吗”“哦”“呢”“地”“的”等。

我们必须清除掉这些词，然后把其它贡献度高的词进行处理。

2.2.2文本表示模型

文本表示是指将实际的文本内容变成机器内部表示结构。

定义：

文本表示是指以一定特征项来代表文档，在文本挖掘时只需对这些特征项进行处理，从而实现对非结构化的文本的处理[2]。

现在文本表示方法大多数是从信息检索领域借鉴过来的，常用的有布尔逻辑模型、向量空间模型等，其中最为著名的就是向量空间模型。

1.布尔逻辑模型

文本文档被当成是由一组词条向量

构成。

如果文本中出现了某个词，则这个词用1表示，对于没出现过的词则用0表示。

布尔检索模型主要的特点是基本思想通俗易懂，检索迅捷。

布尔检索模型还存在一些缺陷：

缺乏对文本相关性排序，无法判断检索结果的重要性。

2.向量空间模型

向量空间模型，又称词袋表示法，由Salton等人提出的。

向量空间模型是现在最常用的文本表示模型。

下面介绍向量空间模型中的相关知识。

在这个模型中，把本文d看做为有二元特征组的特征向量：

公式1

其中ti为d中的特征项，wi为ti对应的权重，

为特征空间的大小。

公式1可以简化为

公式2

上式又可成为特征权重向量。

此时计算这两个特征权重向量的距离，便可以计算这两个文本dl，d2的相似度Sim（d1，d2），下面介绍常用的相似度计算公式：

（l）向量内积。

内积越大，相似度越高。

公式3

（2）夹角余弦值。

夹角越小，文本的相似度越高。

公式4

向量空间模型具有下列优点：

（l）对大规模文本数据集的处理速度较快，把文本表示为特征向量，向量间的各种计算能够实现文本间的操作。

（2）没有规定特征权重具体的计算方法，可结合实际情况使用最合适的权重表示方法，能够灵活使用模型。

2.3常用文本分类算法

在分类系统中，文本分类器是系统中的核心部分。

现已提出了许多文本分类算法，常用的有：

朴素贝叶斯（NaiveBayes）、支持向量机（SVM）、K近邻（KNN）、神经网络、最大熵模型、Rocchio分类器、关联规则和组合分类器等。

下面简单介绍一些常见的文本分类器。

2.3.1朴素贝叶斯算法（NaiveBayes算法）

朴素贝叶斯算法是一个统计算法，它们能够计算类别所属的概率，如：

一个数据对象属于某个类别的概率。

朴素贝叶斯算法假设一个指定类别中各属性的取值是相互独立的，这以假设也被称为：

类别条件独立，它可以帮助有效减少在构造朴素贝叶斯分类器时所需要进行的计算量[3]。

设样本有n个属性

，每个样本可看作是n维空间的一个点

，有k个不同的类别

。

di是一个任意样本，将它归到类cj，根据朴素贝叶斯分类法有

公式5

通过上述公式计算在di条件下每个类别的后验概率，选择后验概率最大的类别为di所属的类别，即

公式6

从以上俩个公式可知，如果给定的一个分类条件，使用NB分类方法最重要的就是计算

和

，那么计算

和

的过程就是学习的过程，即建立分类模型的过程。

2.3.2支持向量机（SVM）

哪个男人不希望自己啪啪的时间长一点，器大一点？

可就有，就是很多男性朋友存在这个问题！

有人问我，我啪啪就三分钟你如何让我一个小时，我告诉你，只要你信我！

一个小时绝对没问题！

硬不起来时间太短羞于尺寸这些问题，我都可以解决，不必牺牲自己和爱人的性福，无须苦苦煎熬联系我们，我会为您提供专业、贴心、私密的售前售后服务指导为了您的健康和幸福，我们一直都在，我们愿意成为您的私人健康顾问薇|亻言：

msdf003

支持向量机是由Vapnik和他的合作者共同提出的一种算法，用于解决二分类模式识别问题。

由于它优异的性能，被许多领域所认可和使用。

支持向量机的基本思想是：

对于一个给定的具有有限数量训练样本的学习任务，如何在准确性（对于给定训练集）和机器容量（机器可无错误地学习任意训练集的能力）进行折中，以得到最佳的推广性能[4]。

在线性可分的情况下，假设线性分类面的形成为

公式7

将判别函数归一化后，使得两类所有样本都满足

，即为

公式8

其中xi是相应的样本；样本的类别标记是

。

最优分类超平面问题：

使得样本的分类间隔等于

，这样样本就离H面最近

，然后最小化分类间隔。

那么可以定义Lagrange函数：

公式9

其中

为Lagrange乘数。

其对偶最优化问题：

在约束条件

公式10

下对ai求解下列函数的最大值：

公式11

如果

为最优解，那么

公式12

2.3.3K近邻分类器（KNN）

KNN分类模型的基本思想是：

给定待分类文本，在训练样本集中找到与待分类文本最相近的K个文本，这K个文本中多数文本所属的类别便为带分类文本的类别[5]。

其中，可以使用欧氏距离等算法判定文档相似值。

在这种分类方法中，一个主要的部分是参数k的选取，每次要选择多少个最近邻来参与判断待分类样本的类别影响着KNN算法分类的精度。

特征向量权重的计算公式为。

公式13

其中，S函数是向量之间的相似度；

是训练集中和x相似度最大的k个文档向量。

而当xj属于类别cj时为1，否则为0。

第三章：

IT领域文本分类模型

3.1IT领域文本分类模型

本文构建了一个IT领域的文本分类模型。

首先为该模型设计了一个IT领域语料库。

然后确定文本特征权重。

根据IT领域文本分类模型的特点，构建了朴素贝叶斯和支持向量机的组合分类器，经过组合分类器进行分类后，得到了分类结果。

完成分类后，根据之前指定的评价指标评估分类器的性能，分析模型的分类效果。

3.2IT语料库的设计

关于语料库的三点基本认识：

语料库中存放的是在语言的实际使用中真实出现过的语言材料，语料库是以电子计算机为载体承载语言知识的基础资源，真实语料需要经过加工（分析和处理），才能成为有用的资源[6]。

刘依璐在《基于机器学习的中文文本分类方法研究》中提到“现代的语料库是指按照一定的语言学原则收集的具有一定容量的大型电子原始语料文本库或者经过加工后带有语言学信息标注的语料文本[7]。

”

本文的研究主要针对IT领域的文本进行分类实验研究。

在进行文本分类之前，我们小组自行从网易新闻门户网站中收集了五个大类的两千篇文档作为样本集，并对这两千篇文档实现了预处理，即消除了原来的html格式，转换为纯正文文本的txt格式。

我们小组所用的分类算法所使用的语料库均来源于这两千篇预处理后的txt文档。

本次搜集使用到的文本集有产品、互联网、通信、产业和培训等五个大类，分别代表各自类别的文章。

在语料库中，各个大类里面还可以细分很多小类。

例如将产品类细分为手机、相机、电脑、家电、软件、硬件设备等六小类。

为了使分类方法有较好的分类效果，本次搜集到的文本集各个类别的数量都不同，最终获得的文本集共有1120篇，其中互联网200篇，通信200篇，产业200篇，培训120篇，产品共400篇，其中手机80篇，相机40篇，电脑80篇，家电40篇，软件80篇，硬件设备80篇。

类别

互联网

通信

产业

培训

手机

相机

电脑

家电

软件

硬件设备

训练集

200

120

在预处理模块只提取标题和正文，其他的包括tag标记，以及其他媒体信息等与具体文本内容无关的部分都过滤掉，然后保存为统一格式的txt文本文件，以便分类的进行。

根据"title"标签获取标题：

根据ID值"endText"获取内容HTML代码：

保存为统一格式的txt文本文件：

3.3特征权重的确定

赋予特征项权重时，应该使文本中特征项越重要，它的权重就越大。

经典的特征处理方法各有特点，各有利弊。

只是单一的使用传统的特征处理方法，会导致文本分类时具有一定的片面性。

因此，本文设计了一种新的特征处理方法，它把多种传统的特征处理方法有机地结合起来，使得文本分类的结果更准确。

首先判断特征词是否是专业词，如果是，则赋予较高的权重，否则，使用非专业词计算方法计算权重；再判断特征词是否在标题位置，如果是，则赋予更高的权重，否则，判断特征词是否在首末段位置，如果是，则赋予较高的权重，否则，权重不变。

权重确定具体算法如图：

3.4朴素贝叶斯与支持向量机的组合分类器

朴素贝叶斯法的优点是分类效率高分类速度快，支持向量机的长处是它良好的性能和稳定的表现。

应该根据IT领域语料库的特点，结合各个步骤中各种方法的优点和缺点与IT领域文本分类模型的特点进行分析，构造出一种结合了这两种分类算法优点的组合分类器。

先用NB和SVM对IT语料库中的部分训练集文本进行分类，比较分类结果，分析IT语料库的特点。

（实验结果在4.3）

通过实验对比可得，在互联网、通信、产业和培训四个大类上SVM的查全率效果要比NB的查全率效果好；从查准率表中可以看出，在手机、相机、电脑、家电、软件、硬件设备六个小类上NB的查准率效果要比SVM的查准率效果好；SVM算法的分类效果对五大类文本较好，查准率和查全率都要高于NB算法；而NB算法的分类效果对六个小类文本较好。

针对IT领域文本的分类效果，结合各个步骤中各种方法的优点和缺点与IT领域文本分类模型的特点进行分析，提出了一种新的方法，构建了朴素贝叶斯和支持向量机的组合分类器。

并对该算法进行了验证。

首先通过SVM分类器进行分类，判断分类结果是否有小类，如有则使用NB分类器进行分类，输出结果[8]；如无则直接输出分类结果。

第四章：

文本分类系统实验及结果分析

4.1系统共分为四个模块

IT领域文本语料库模块、预处理模块、特征处理模块和组合分类器模块。

各个模块又有具体的步骤。

IT领域文本语料库模块的主要功能是提取html文件，建立训练集，训练训练集文本，构建IT领域文本语料库。

预处理模块的主要功能是训练文本进行中文分词和去停用词操作，得到初始的特征项集合。

在这个操作中，只提取标题和正文，其他的包括tag标记，以及其他媒体信息等与具体文本内容无关的部分都过滤掉，然后保存为统一格式的txt文本文件，以便分类的进行。

根据“title”标签获取标题，根据ID值“endText”获取内容HTML代码，保存为统一格式的txt文本文件。

还需要去除一些无意义的、去文档贡献程度不大的词。

这些词的特点是它们在文档中出现的次数非常多但是没有实际意义，不把它们去除掉的话会严重干扰分类结果。

在中文里这类词大多数为虚词或一些语气助词，比如“吗”“哦”“呢”“地”等。

我们必须清除掉这些词，然后把其它贡献度高的词进行处理。

特征处理模块的主要功能是对特征项进行特征处理，得到特征权重。

使用本文提到

展开阅读全文