毕业设计论文基于贝叶斯的文本自动分类的研究和实现Word文档下载推荐.docx

资源描述

毕业设计论文基于贝叶斯的文本自动分类的研究和实现Word文档下载推荐.docx

《毕业设计论文基于贝叶斯的文本自动分类的研究和实现Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《毕业设计论文基于贝叶斯的文本自动分类的研究和实现Word文档下载推荐.docx（12页珍藏版）》请在冰豆网上搜索。

毕业设计论文基于贝叶斯的文本自动分类的研究和实现Word文档下载推荐.docx

专业负责人签章：

年月日

摘要

随着计算机技术和通讯技术的飞速发展，人们可以获得越来越多的数字化信息，但同时也需要投入更多的时间对信息进行组织和管理。

为了减轻这种负担，人们开始研究使用计算机对文本进行自动分类。

文本自动分类就是在给定的分类体系下，让计算机根据文本的内容确定与它相关联的类别。

自动文本分类是人工智能技术和信息获取技术相结合的研究领域。

随着网络的发展，大量的文档数据涌现在网上，用于处理海量数据的自动文本分类技术变得越来越重要，已逐渐成为处理和组织大量文档数据的关键技术。

通过分析kNN（kNearestNeighbor）、朴素贝叶斯（NaiveBayes）、SVM（SupportVectorMachine）三种文本分类方法的优点和缺点，发现朴素贝叶斯分类器速度极快，具有最小的出错率，可在线化实现等优点，并对该分类方法进行了理论分析和实验对比，实验结果表明这种文本分类模型是高效的可行的。

本文首先介绍了基于贝叶斯的文本自动分类的研究和实现的背景,并且叙述了相关问题的概念知识，包括文本分类和中文分词等；

其次，对相关的理论知识做了讲解，包括先验概率、条件概率、贝叶斯理论、贝叶斯算法等；

第三，对如何实现文本分类进行了概述以及整体讲解，通过给出流程图，可以更直观的了解实现的过程；

第四，详细介绍了实现本课题所用到的重要工具，包括JBuilder2007开发工具和全文检索引擎Lucene以及Java平台；

第五，在前期工作基础上，给出了详细的实现过程，包括单文本分类和多文本分类以及相关具体操作；

最后，通过多次大量重复试验，得出了实验数据，在此通过表格的形式，直观的给出了实验结果。

本课题研究基于贝叶斯的文本分类系统，根据所讨论的算法构造了贝叶斯文本自动分离器，并做出详尽的训练测试，从最终的试验结果可以看出，贝叶斯算法简单、性能优越，即使在不考虑贝叶斯假设的前提下，仍然取得良好的分类性能。

关键字：

文本自动分类，贝叶斯分类，分类文本语料库。

Abstract

Withthecomputertechnologyandtherapiddevelopmentofcommunicationtechnology,peoplecangetmoreandmoredigitalinformation,butitalsoneedstodevotemoretimetoorganizeandmanageinformation.Inordertoalleviatethatburden,peoplebegantostudytheuseofcomputersforautomaticclassificationoftext.Automatictextcategorizationistheclassificationofagivensystem,thecomputerdeterminedinaccordancewiththecontentsofthetextassociatedwithitscategory.Automatictextclassificationistheartificialintelligencetechnologyandaccesstoinformationtechnologyresearchfield.Withthedevelopmentofnetwork,dataontheemergenceofalargenumberofdocumentsonline,todealwithmassivedatatechnologyofautomatictextclassificationisbecomingincreasinglyimportant,hasbecomeanincreasinglylargenumberofdocumentprocessingandorganizationofthekeytechnologiesofdata.

ByanalyzingthekNearestNeighbor、NaiveBayes、SupportVectorMachinemethodoftextclassificationinthreestrengthsandweaknessesfoundinNaiveBayesianclassifierspeed,withthesmallesterrorrate,canachievetheadvantagesofonlinetechnology,andtheclassificationofthetheoreticalanalysisandexperimentalcomparison,experimentalresultsshowthatthetextcategorizationmodelisfeasibleandefficient.

ThispaperfirstintroducestheBayesian-basedtextcategorizationoftheresearchandrealizationofthebackgroundanddescribestheissuesrelatedtotheconceptofknowledge,includingtextclassificationandChinesewordsegmentation.

Second,therelevanttheoreticalknowledgetodotheexplaining,includingaprioriprobability,conditionalprobability,Bayesiantheory,theBayesianalgorithm.

Third,onhowtoachievetheoutlinedtextclassificationaswellasonthewhole,throughthegivenflowchart,youcanachieveamoreintuitiveunderstandingoftheprocess.

Fourth,indetailonachievingthisimportanttaskbyuseoftools,includingdevelopmenttoolsandJBuilder2007full-textsearchengineLuceneandJavaplatform.

Fifth,priortotheadoptionoftheworkdetailedinthispapertherealizationoftheprocess,includingsingle-andmulti-textclassificationtextcategorizationandrelatedspecificoperations;

Finally,alargenumberofrepeattestsmanytimes,theexperimentaldataobtainedinthisformthroughtheform,intuitiveexperimentalresultsaregiven.

TheresearchbasedonBayesiantextclassificationsystem,accordingtothealgorithmdiscussedinthetextautomaticallyconstructedBayesianseparatorandtrainingtomakeadetailedtestresultsfromthefinalwecanseethattheBayesianalgorithmissimple,superiorperformance,evenwithouttakingintoaccounttheassumptionthatthepremiseofBayesianstillachievegoodclassificationperformance.

Keywords:

AutomaticTextCategorization,BayesianClassifier,

Classificationoftextcorpora.

1.绪论

我们正处在一个信息急剧丰富的时代，据1998年的统计结果显示，全世界每年出版大约15600种期刊，而且这一数字以每年12000种的速度递增,同期，仅美国国内就有近140万种图书在付印，这一数据还以平均每年6万种的速度在增加。

1998年美国国会图书馆藏书约1700万种，而平均每天接收到的新书就多达7000种。

另一个增长惊人的信息渠道是Internet，1999年的统计结果表明，I（HyperTextMarkupLanguage超文本标记语言）页面，每天增加将近100万。

这些页面大部分是以文本文档的形式存在，而我们日常所接触的信息，也绝大部分是文本的形式，它们或以印刷品的方式存在，或以电子文档的形式出现。

尤其是近十年来，随着网络的飞速发展，数字图书馆的出现，越来越多的文本信息以电子文档的形式存在。

面对如此庞大而又急剧膨胀的信息海洋，如何有效地组织和管理这些信息，并能快速、准确、全面地从中找到用户所需要的信息是当前信息科学与技术领域所面临的一大挑战。

文本分类作为处理和组织大量文本数据的关键技术，可以在较大程度上解决信息的纷繁杂乱问题，方便用户快度、准确地定位所需要的信息。

因此，自动文本分类已作为一项具有较大实用价值的关键技术，得到了广泛关注，取得了很大进展。

1.2文本分类的研究现状

国外文本数据分类的研究始于20世纪50年代末，Luhn在这一领域进行了开创性的研究，其后许多学者在这一领域进行了卓有成效的研究。

国外文本数据分类研究大体上可以分为三个阶段:

第一阶段是20世纪80年代前。

在这一时期，模式识别和信息检索相继发展成一门学科。

这一阶段主要是集中在对分类理论的研究，应用方面则主要是用于信息检索。

第二阶段是20世纪80年代到90年代。

这一阶段主要是采用传统的知识工程技术，在这一时期，信息检索技术逐渐成熟应用，为文本分类提供了许多技术支持。

第三阶段是20世纪90年代以后。

互连网技术的发展，文本数据量急剧增加，这种耗时、灵活性差、应用难度大的知识工程方法越来越不能满足实际应用的需要，于是逐渐被机器学习的方法取而代之。

基于机器学习的文本分类方法克服了以前手工建立分类器的缺点，使得文本分类具有了真正的实用价值。

这一时期分类器的特点:

一是分类知识来源于机器对训练集的自动学习，不再依赖于专家；

二是学习和分类过程不需要人工干预，分类效率和准确率都有很大提高。

所谓机器学习是指由计算机代替人来学习关于认识世界、改造世界的知识。

国内文本数据分类研究起步较晚，始于20世纪80年代初期。

我国文本分类的研究大体上经历了可行性探讨、辅助分类、自动分类系统三个发展阶段。

早期对中文文本的分类研究较少，采用的技术也主要是把英文文本分类的技术应用到中文文本分类当中。

自上世纪90年代后期才开始着重于对中文文本分类的研究，结合中文文本的特点，形成中文文本数据分类研究体系。

文本分类方面的文献也非常丰富，常见于信息检索、机器学习、知识挖掘与发现、模式识别、人工智能、计算机科学与应用等各种国际会议及相关的期刊或杂志。

1.3分类的含义

广义的分类（classification或者categorization）有两种含义：

一种含义是有指导的学习（supervisedlearning）过程，另一种是无指导的学习（unsupervisedlearning）过程。

通常前者称为分类，后者称为聚类（clustering），后文中提到的分类是指有指导的学习过程。

给定分类体系，将文本集中的每个文本分到某个或者某几个类别中，这个过程称为文本分类（textcategorization）。

1.4文本分类的含义

文本分类过程可以分为手工分类和自动分类。

前者最著名的实例是yahoo的网页分类体系，是由专家定义了分类体系，然后人工将网页分类。

这种方法需要大量人力，现实中已经采用的很少了。

自动文本分类（automatictextcategorization）算法大致可以分为两类：

知识工程（knowledgeengineering）方法和机器学习（machinelearning）方法。

知识工程方法指的是由专家为每个类别定义一些规则，这些规则代表了这个类别的特征，自动把符合规则的文档划分到相应的类别中。

这方面最著名的系统是CONSTRUE。

上个世纪90年代之后，机器学习方法成为主导。

机器学习方法与知识工程方法相比，能够达到相似的精确度，但是减少了大量的人工参与。

下面主要介绍基于机器学习方法的文本分类。

1.5自动分类

基于内容、不需人工干预的文本自动分类技术。

系统提供分类训练工具，允许用户自行根据自己的分类需求和数据特点设定分类结构，自动生成特征模板，进行分类训练。

TRS自动分类支持反馈学习机制，可以根据用户的反馈自动对分类模板进行完善，从而逐步增加分类的准确率。

是利用模式识别技术实现对遥感影像内容的自动标志识别和分类，即计算机辅助判读。

通常采用特征空间识别方法。

是建立在概率论和数理统计基础上，立足于寻找能反映影像特点的一些特征，经过信息压缩、特征抽取、特征选择和决策规划来识别地物的计算机自动分类方法。

1.6中文分词

什么是中文分词?

中文分词与其他的分词又有什么不同呢？

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段可以通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，但是在词这一层上，中文比之英文要复杂的多、困难的多。

1.7中文分词的意义和作用

要想说清楚中文分词的意义和作用，就要提到智能计算技术。

智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。

简单的说，智能计算就是让机器“能看会想，能听会讲”。

要想实现这样的一个目标，首先就要让机器理解人类的语言，只有机器理解了人类的语言文字，才使得人与机器的交流成为可能。

再反观我们人类的语言中，“词是最小的能够独立活动的有意义的语言成分”，所以对于中文来讲，将词确定下来是理解自然语言的第一步，只有跨越了这一步，中文才能像英文那样过渡到短语划分、概念抽取以及主题分析，以至于自然语言理解，最终达到智能计算的最高境界，实现人类的梦想。

从现阶段的实际情况来看，英文已经跨越了分词这一步，也就是说在词的利用上已经先我们一步，并且已经展现了良好的应用前景，无论是信息检索还是主题分析的研究都要强于中文，究其根本原因就是中文要通过分词这道难关，只有攻破了这道难关，我们才有希望赶上并超过英文在信息领域的发展，所以中文分词对我们来说意义重大，可以说直接影响到使用中文的每一个人的方方面面。

1.8中文分词的应用

中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。

下面就以信息检索为例来说明中文分词的应用。

通过近几年的发展，互联网已经离我们不再遥远。

互联网上的信息也在急剧膨胀，在这海量的信息中，各类信息混杂在一起，要想充分利用这些信息资源就要对它们进行整理，如果由人来做这项工作，已经是不可能的，而如果面对中文信息不采用分词技术，那么整理的结果就过于粗糙，而导致资源的不可用，例如：

“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”，而被当作同一类来处理，结果是检索“和服”的相关信息，会将他们都检索到，在信息量少的情况下，似乎还能够忍受，如果是海量信息，这样的结果就会令人讨厌了。

通过引入分词技术，就可以使机器对海量信息的整理更准确更合理，在“制造业和服务业是两个不同的行业”中“和服”不会被当作一个词来处理，那么检索“和服”当然不会将它检索到，使得检索结果更准确，效率也会大幅度的提高。

所以中文分词的应用会改善我们的生活，使人们真正体会到科技为我所用。

2.条件概率

2.1条件概率定义

定义设A,B是两个事件，且P（A）>

0称P（B∣A）=P（AB）/P（A）为在条件A下发生的条件事件B发生的条件概率。

乘法公式设P（A）>

0则有P（AB）=P（B∣A）P（A）

全概率公式和贝叶斯公式

定义设S为试验E的样本空间，B1,B2,…Bn为E的一组事件，若BiBj=Ф,i≠j,

（i,j=1,2,…,n）；

B1∪B2∪…∪Bn=S则称B1,B2,…,Bn为样本空间的一个划分。

定理设试验E的样本空间为S，A为E的事件，B1,B2,…,Bn为的一个划分，且P（Bi）>

（i=1,2,…n），则P（A）=P（A∣B1）P（B1）+P（A∣B2）P（B2）+…+P（A∣Bn）P（Bn）称为全概率公式。

定理设试验E的样本空间为S，A为E的事件，B1,B2,…,Bn为的一个划分，则

P（Bi∣A）=P（A∣Bi）P（Bi）/∑P（B｜Aj）P（Aj）=P（B｜Ai）P（Ai）/P（B）称为贝叶斯公式。

下面我再举个简单的例子来说明下。

考虑一个医疗诊断问题，有两种可能的假设：

（1）病人有癌症。

（2）病人无癌症。

样本数据来自某化验测试，它也有两种可能的结果：

阳性和阴性。

假设已经有先验知识：

在所有人口中只有的人患病。

此外，化验测试对有病的患者有98%的可能返回阳性结果，对无病患者有97%的可能返回阴性结果。

上面的数据可以用以下概率式子表示：

P（cancer）=0.008,P（无

P（阳性|cancer）=0.98,P（阴性

P（阳性|无，P（阴性|无

假设现在有一个新病人，化验测试返回阳性，是否将病人断定为有癌症呢？

可以计算极大后验假设：

P（阳性

P（阳性|无cancer）*p（无

因此，应该判断为无癌症。

贝叶斯学习理论

贝叶斯是一种基于概率的学习算法，能够用来计算显式的假设概率，它基于假设的先验概率，给定假设下观察到不同数据的概率以及观察到的数据本身。

本课题用P（h）表示没有训练样本数据前假设h拥有的初始概率，也就称为h的先验概率，它反映了我们所拥有的关于h是一个正确假设的机会的背景知识。

当然如果没有这个先验知识的话，在实际处理中，可以简单地将每一种假设都赋给一个相同的概率。

类似，P（D）代表将要观察的训练样本数据D的先验概率（也就是说，在没有确定某一个假设成立时D的概率）。

然后是P（D/h），它表示假设h成立时观察到数据D的概率。

在机器学习中，所感兴趣的是P（h/D）,也就是给定了一个训练样本数据D,判断假设h成立的概率，这也称之为后验概率，它反映了在看到训练样本数据D后假设h成立的置信度。

（注：

后验概率p（h/D）反映了训练数据D的影响，而先验概率p（h）是独立于D的）。

　＝

　　　　（）

注意，在最后一步去掉了P（D），因为它是不依赖于h的常量。

在某些情况下，可假定H中每个假设有相同的先验概率（即对H中任意hi和hj,P（hi）=P（hj））。

这时可把等式（）进一步简化，只需考虑P（D|h）来寻找极大可能假设。

P（D|h）常被称为给定h时数据D的似然度，而使P（D|h）最大的假设被称为极大似然（maximumlikelihood，ML）假设hML

P（h|D）=P（D|h）P（h）/p（D）（2.2）

从贝叶斯公式可以看出，后验概率p（h/D）取决于P（D|h）P（h）这个乘积，这就是贝叶斯分类算法的核心思想。

要做的就是要考虑候选假设集合H，并在其中寻找当给定训练数据D时可能性最大的假设h（h属于H）。

简单点说，就是给定了一个训练样本数据（样本数据已经人工分类好了），应该如何从这个样本数据集去学习，从而当碰到新的数据时，可以将新数据分类到某一个类别中去。

那可以看到，上面的贝叶斯理论和这个任务是吻合的。

朴素贝叶斯分类

可使用贝叶斯公式将此表达式重写为：

　　（）

　现在要做的是基于训练数据估计式（）中两个数据项的值。

估计每个P（vj）很容易，只要计算每个目标值vj出现在训练数据中的频率就可以。

然而，除非有一个非常大的训练数据的集合。

否则用这种方法估计不同的P（a1,a2,an|vj）项不大可行。

问题在于这些项的数量等于可能实例的数量乘以可能目标值的数量。

因此为获得合理的估计，实例空间中每个实例必须出现多次。

朴素贝叶斯分类器基于一个简单的假定：

再给定目标值时属性值之间相互条件独立。

换言之，该假定说明在给定实例目标值情况下，观察到联合的a1,a2,…an的概率等于每个单独属性的概率乘积：

（2.4）

将其带入（2.3）中，可得朴素贝叶斯分类器所使用的方法：

（2.5）

其中vNB是朴素贝叶斯分类器输出的目标值。

注意，在朴素贝叶斯分类器中，需从训练数据中估计的不同P（ai|vj）项的数量只是不同的属性值数量乘以不同目标值数量——这比要估计P（a1,a2,…an|vj）P（a1,a2,…an|vj）所需要的量要小的多。

举个简单的例子，让大家对这个算法的原理有个快速的认识。

假设给定了训练样本数据，学习的目标是根据给定的天气状况判断你对PlayTennis这

展开阅读全文