基于朴素贝叶斯的文本分类算法.docx-资源下载

基于朴素贝叶斯的文本分类算法.docx

1、基于朴素贝叶斯的文本分类算法基于朴素贝叶斯的文本分类算法摘要：常用的文本分类方法有支持向量机、K-近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现，运行速度快的特点，被广泛使用。本文详细介绍了朴素贝叶斯的基本原理，讨论了两种常见模型：多项式模型（MM）和伯努利模型（BM），实现了可运行的代码，并进行了一些数据测试。关键字：朴素贝叶斯；文本分类Text Classification Algorithm Based on Naive BayesAuthor: soulmachineEmail：*Blog：Abstract:Usually there are three methods for te

2、xt classification: SVM、KNN and Nave Bayes. Nave Bayes is easy to implement and fast, so it is widely used. This article introduced the theory of Nave Bayes and discussed two popular models: multinomial model(MM) and Bernoulli model(BM) in details, implemented runnable code and performed some data te

3、sts.Keywords: nave bayes; text classification第1章贝叶斯原理1.1 贝叶斯公式设A、B是两个事件，且P(A)0，称为在事件A发生的条件下事件B发生的条件概率。乘法公式P(XYZ)=P(Z|XY)P(Y|X)P(X)全概率公式P(X)=P(X|Y1)+ P(X|Y2)+ P(X|Yn)贝叶斯公式在此处，贝叶斯公式，我们要用到的是以上公式，请读者参考概率论与数理统计（第五版）的1.4节“条件概率”（这里将原书中的A换成了X，B换成了Y），获得更深的理解。1.2贝叶斯定理在分类中的应用在分类（classification）问题中，常常需要把一个事物分到

4、某个类别。一个事物具有很多属性，把它的众多属性看做一个向量，即x=(x1,x2,x3,xn)，用x这个向量来代表这个事物。类别也是有很多种，用集合Y=y1,y2,ym表示。如果x属于y1类别，就可以给x打上y1标签，意思是说x属于y1类别。这就是所谓的分类(Classification)。x的集合记为X，称为属性集。一般X和Y的关系是不确定的，你只能在某种程度上说x有多大可能性属于类y1，比如说x有80%的可能性属于类y1，这时可以把X和Y看做是随机变量，P(Y|X)称为Y的后验概率（posterior probability），与之相对的，P(Y)称为Y的先验概率（prior probabi

5、lity）2。在训练阶段，我们要根据从训练数据中收集的信息，对X和Y的每一种组合学习后验概率P(Y|X)。分类时，来了一个实例x，在刚才训练得到的一堆后验概率中找出所有的P(Y|x)，其中最大的那个y，即为x所属分类。根据贝叶斯公式，后验概率为在比较不同Y值的后验概率时，分母P(X)总是常数，因此可以忽略。先验概率P(Y)可以通过计算训练集中属于每一个类的训练样本所占的比例容易地估计。我们来举个简单的例子，让读者对上述思路有个形象的认识3。考虑一个医疗诊断问题，有两种可能的假设：（1）病人有癌症。（2）病人无癌症。样本数据来自某化验测试，它也有两种可能的结果：阳性和阴性。假设我们已经有先验知

6、识：在所有人口中只有0.008的人患病。此外，化验测试对有病的患者有98%的可能返回阳性结果，对无病患者有97%的可能返回阴性结果。上面的数据可以用以下概率式子表示：P(cancer)=0.008,P(无cancer)=0.992P(阳性|cancer)=0.98,P(阴性|cancer)=0.02P(阳性|无cancer)=0.03，P(阴性|无cancer)=0.97假设现在有一个新病人，化验测试返回阳性，是否将病人断定为有癌症呢？在这里，Y=cancer，无cancer，共两个类别，这个新病人是一个样本，他有一个属性阳性，可以令x=(阳性)。我们可以来计算各个类别的后验概率：P(canc

8、：其中每个训练样本可用一个属性向量X=(x1,x2,x3,xn)表示，各个属性之间条件独立。比如，对于一篇文章，Good good study,Day day up.可以用一个文本特征向量来表示，x=(Good, good, study, Day, day , up)。一般各个词语之间肯定不是相互独立的，有一定的上下文联系。但在朴素贝叶斯文本分类时，我们假设个单词之间没有联系，可以用一个文本特征向量来表示这篇文章，这就是“朴素”的来历。2、朴素贝叶斯如何工作有了条件独立假设，就不必计算X和Y的每一种组合的类条件概率，只需对给定的Y，计算每个xi的条件概率。后一种方法更实用，因为它不需要很大的训

9、练集就能获得较好的概率估计。3、估计分类属性的条件概率P(xi|Y=y)怎么计算呢？它一般根据类别y下包含属性xi的实例的比例来估计。以文本分类为例，xi表示一个单词，P(xi|Y=y)=包含该类别下包含单词的xi的文章总数/ 该类别下的文章总数。4、贝叶斯分类器举例假设给定了如下训练样本数据，我们学习的目标是根据给定的天气状况判断你对PlayTennis这个请求的回答是Yes还是No。DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWea

10、kYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo可以看到这里样本数据集提供了14个训练样本，我们将

11、使用此表的数据，并结合朴素贝叶斯分类器来分类下面的新实例：x = (Outlook = Sunny,Temprature = Cool,Humidity = High,Wind = Strong)在这个例子中，属性向量X=(Outlook, Temperature, Humidity, Wind)，类集合Y=Yes, No。我们需要利用训练数据计算后验概率P(Yes|x)和P(No|x)，如果P(Yes|x)P(No|x)，那么新实例分类为Yes，否则为No。为了计算后验概率，我们需要计算先验概率P(Yes)和P(No)和类条件概率P(xi|Y)。因为有9个样本属于Yes，5个样本属于No，所

14、来了一个新样本 x1= (Outlook = Cloudy,Temprature = Cool,Humidity = High,Wind = Strong)，要求对其分类。我们来开始计算，P(Outlook = Cloudy|Yes)=0/9=0 P(Outlook = Cloudy |No)=0/5=0计算到这里，大家就会意识到，这里出现了一个新的属性值，在训练样本中所没有的。如果有一个属性的类条件概率为0，则整个类的后验概率就等于0，我们可以直接得到后验概率P(Yes | x1)= P(No | x1)=0，这时二者相等，无法分类。当训练样本不能覆盖那么多的属性值时，都会出现上述的窘境。简

15、单的使用样本比例来估计类条件概率的方法太脆弱了，尤其是当训练样本少而属性数目又很大时。解决方法是使用m估计(m-estimate)方法来估计条件概率：n是类yj中的样本总数，nc是类yj中取值xi的样本数，m是称为等价样本大小的参数，而p是用户指定的参数。如果没有训练集（即n=0），则P(xi|yj)=p, 因此p可以看作是在类yj的样本中观察属性值xi的先验概率。等价样本大小决定先验概率和观测概率nc/n之间的平衡2。第2章朴素贝叶斯文本分类算法现在开始进入本文的主旨部分：如何将贝叶斯分类器应用到文本分类上来。2.1文本分类问题在文本分类中，假设我们有一个文档dX，X是文档向量空间(doc

16、ument space)，和一个固定的类集合C=c1,c2,cj，类别又称为标签。显然，文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合作为训练样本，XC。例如：=Beijing joins the World Trade Organization, China对于这个只有一句话的文档，我们把它归类到 China，即打上china标签。我们期望用某种训练算法，训练出一个函数，能够将文档映射到某一个类别：:XC这种类型的学习方法叫做有监督学习，因为事先有一个监督者（我们事先给出了一堆打好标签的文档）像个老师一样监督着整个学习过程。朴素贝叶斯分类器是一种有监督学习，常见有两种模型，多项式

17、模型(multinomial model)和伯努利模型(Bernoulli model)。2.2多项式模型1、基本原理在多项式模型中，设某文档d=(t1,t2,tk)，tk是该文档中出现过的单词，允许重复，则先验概率P(c)= 类c下单词总数/整个训练样本的单词总数类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)V是训练样本的单词表（即抽取单词，单词出现多次，只算一个），|V|则表示训练样本包含多少种单词。在这里，m=|V|, p=1/|V|。P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据，而P(c)则可以认为是类别

18、c在整体上占多大比例(有多大可能性)。2、伪代码/C，类别集合，D，用于训练的文本文件集合TrainMultiNomialNB(C,D) / 单词出现多次，只算一个VExtractVocabulary(D)/ 单词可重复计算NCountTokens(D)for each cC/ 计算类别c下的单词总数/ N和Nc的计算方法和Introduction to Information Retrieval上的不同，个人认为/该书是错误的，先验概率和类条件概率的计算方法应当保持一致NcCountTokensInClass(D,c)priorcNc/N/ 将类别c下的文档连接成一个大字符串textcCon

19、catenateTextOfAllDocsInClass(D,c)for each tV/ 计算类c下单词t的出现次数TctCountTokensOfTerm(textc,t)for each tV/计算P(t|c)condprobtcreturn V,prior,condprobApplyMultiNomialNB(C,V,prior,condprob,d) / 将文档d中的单词抽取出来，允许重复，如果单词是全新的，在全局单词表V中都/ 没出现过，则忽略掉WExtractTokensFromDoc(V,d)for each cCscorecpriorcfor each tWif tVdsco

20、rec *= condprobtcreturn max(scorec)3、举例给定一组分类好了的文本训练数据，如下：docIddoc类别In c=China?1Chinese Beijing Chineseyes2Chinese Chinese Shanghaiyes3Chinese Macaoyes4Tokyo Japan Chineseno给定一个新样本Chinese Chinese Chinese Tokyo Japan，对其进行分类。该文本用属性向量表示为d=(Chinese, Chinese, Chinese, Tokyo, Japan)，类别集合为Y=yes, no。类yes下总共

21、有8个单词，类no下总共有3个单词，训练样本单词总数为11，因此P(yes)=8/11, P(no)=3/11。类条件概率计算如下：P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14P(Chinese|no)=(1+1)/(3+6)=2/9P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9分母中的8，是指yes类别下textc的长度，也即训练样本的单词总数，6是指训练样本有Chinese,Beijing,Shanghai, Macao, Toky

22、o, Japan 共6个单词，3是指no类下共有3个单词。有了以上类条件概率，开始计算后验概率，P(yes | d)=(3/7)31/141/148/11=108/1848770.00058417P(no | d)= (2/9)32/92/93/11=32/2165130.00014780因此，这个文档属于类别china。2.3伯努利模型1、基本原理P(c)= 类c下文件总数/整个训练样本的文件总数P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)在这里，m=2, p=1/2。后验概率的计算，也有点变化，见下面的伪代码。2、伪代码/C，类别集合，D，用于训练的文本文件集

23、合TrainBernoulliNB(C, D) / 单词出现多次，只算一个VExtractVocabulary(D)/ 计算文件总数NCountDocs(D)for each cC/ 计算类别c下的文件总数NcCountDocsInClass(D,c)priorcNc/Nfor each tV/ 计算类c下包含单词t的文件数NctCountDocsInClassContainingTerm(D,c,t)/计算P(t|c)condprobtc(Nct+1)/(Nct+2)return V,prior,condprobApplyBernoulliNB(C,V,prior,condprob,d) /

24、将文档d中单词表抽取出来，如果单词是全新的，在全局单词表V中都没出现过，/ 则舍弃VdExtractTermsFromDoc(V,d)for each cCscorecpriorcfor each tVif tVdscorec *= condprobtcelsescorec *= (1-condprobtc)return max(scorec)3、举例还是使用前面例子中的数据，不过模型换成了使用伯努利模型。类yes下总共有3个文件，类no下有1个文件，训练样本文件总数为11，因此P(yes)=3/4, P(Chinese | yes)=(3+1)/(3+2)=4/5P(Japan | yes

26、yes)(1-P(Beijing|yes) (1-P(Shanghai|yes)(1-P(Macao|yes)=3/44/51/51/5(1-2/5) (1-2/5)(1-2/5)=81/156250.005P(no | d)= 1/42/32/32/3(1-1/3)(1-1/3)(1-1/3)=16/7290.022因此，这个文档不属于类别china。2.4两个模型的区别二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。计算后验概率时，对于一个文档d，多项式模型中，只有在d中出现过的单词，才会参与后验概率计算，伯努利模型中，

27、没有在d中出现，但是在全局单词表中出现的单词，也会参与计算，不过是作为“反方”参与的。第3章代码详解本文附带了一个eclipse工程，有完整的源代码，以及一个微型文本训练库。ChineseSpliter用于中文分词，StopWordsHandler用于判断一个单词是否是停止词，ClassifyResult用于保存结果，IntermediateData用于预处理文本语料库，TrainnedModel用于保存训练后得到的数据，NaiveBayesClassifier是基础类，包含了贝叶斯分类器的主要代码，MultiNomialNB是多项式模型，类似的，BernoulliNB是伯努利模型，二者都继

28、承自NaiveBayesClassifier，都只重写了父类的计算先验概率，类条件概率和后验概率这3个函数。3.1中文分词中文分词不是本文的重点，这里我们直接使用第三方工具，本源码使用的是极易中文分词组件，你还可以使用MMSEG，中科院的ICTCLAS等等。/* 对给定的文本进行中文分词.*paramtext* 给定的文本*paramsplitToken* 用于分割的标记,如”|”*return分词完毕的文本*/publicString split(finalString text,finalString splitToken) String result =null;tryresult =

29、analyzer.segment(text, splitToken);catch(IOException e) e.printStackTrace();returnresult;3.2停止词处理停止词(Stop Word)是指那些无意义的字或词，如“的”、“在”等。去掉文档中的停止词也是必须的一项工作,这里简单的定义了一些常见的停止词，并根据这些常用停止词在分词时进行判断。/* 常用停用词. */privatestaticStringstopWordsList= / 来自 c:WindowsSystem32NOISE.CHS“的”, “一”, “不”, “在”, “人”, “有”, “是”,

30、“为”, “以”, “于”, “上”, “他”, “而”,“后”, “之”, “来”, “及”, “了”, “因”, “下”, “可”, “到”, “由”, “这”, “与”, “也”,“此”, “但”, “并”, “个”, “其”, “已”, “无”, “小”, “我”, “们”, “起”, “最”, “再”,“今”, “去”, “好”, “只”, “又”, “或”, “很”, “亦”, “某”, “把”, “那”, “你”, “乃”,“它”,/ 来自网络“要”, “将”, “应”, “位”, “新”, “两”, “中”, “更”, “我们”, “自己”, “没有”, “”, “”,“，”, “（”, “）”, “” ;/*

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？