基于机器学习的Web文本自动分类.docx

资源描述

基于机器学习的Web文本自动分类.docx

《基于机器学习的Web文本自动分类.docx》由会员分享，可在线阅读，更多相关《基于机器学习的Web文本自动分类.docx（5页珍藏版）》请在冰豆网上搜索。

基于机器学习的Web文本自动分类.docx

基于机器学习的Web文本自动分类

摘要：

提出了一种基于机器学习的Web文本自动分类的架构，提出了中文Web文档自动分类的主要技术问题。

介绍了中文Web文档自动分类工具的总体设计，它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。

最后对中文Web文档自动分类器进行了实验。

　　关键词：

Web信息检索；文本分类；机器学习

　　Web已经发展成为拥有巨大信息资源的分布式信息空间，包含有巨量的各种类型的Web文档。

搜索引擎很难满足不同用户对检索结果精化的要求。

本文研究的Web文本自动分类系统,通过学习用户感兴趣的样本文本自动建立用于Web文本分类的特征词库，通过特征词条匹配自动实现Web文本分类，有效提高检索的精度，给出符合用户要求的定制检索结果，可以大大降低人工二次浏览筛选的工作量。

　　1Web文本自动分类系统总体框图

　　1.1网络蜘蛛

　　网络蜘蛛有两种策略来遍历Web空间：

广度优先和深度优先。

采用广度优先策略，有利于提高网络蜘蛛的抓取速度。

　　图1Web文本自动分类系统总体框图

　　要正确提取HTML文档中所需的链接和文本信息，首要的问题是对HTML进行解析，将HTML字符流变为由HTML标签系列组成的结构化文档。

按照Robots协议，网络蜘蛛进入一个网站时应首先访问一个特殊的文本文件Robots.txt，这个文件通常置于网站服务器的根目录下，网站管理员可以通过Robots.txt来定义哪些目录不能被网络蜘蛛访问，或者哪些目录对于某些特定的网络蜘蛛不能被访问。

网站管理员建立将链接信息写入sitemap.htm中，那么，网络蜘蛛可以把sitemap.htm文件作为网站Web文档抓取的入口。

　　1.2HTML结构化解析

　　网络蜘蛛抓取的Web文档中包括多种格式的信息，如HTML档、图片、DOC文档、PDF文档、多媒体信息及其它格式的信息基于Web文本内容的分类对其中的图片和声像信息并不感兴趣，应将其剔除。

静态Web文档是HTML格式文档，动态Web文档是由脚本来动态生成的HTML格式文档。

因此，从客户端的角度来看，静态Web文档和动态Web文档并无不同。

网络蜘蛛在获得了HTML格式的文档后，将提取其中的链接信息来跟踪子链接,提取其中的文本信息供文档分类使用。

　　1.3Web文本预处理

　　Web文本预处理包括文本内容过滤和中文分词。

文本内容过滤是从网络蜘蛛输出的Web文本中提取用于分类的文本内容，中文分词把中文文本内容切分成中文词条。

　　网络蜘蛛输出的Web文本仅包括HTML标记、文本和脚本。

由Web文本过滤模块对脚本和HTML标记进行过滤，提取所需的用于文档分类的文本内容。

由于中文文本没有显式的词条分隔标志，中文分词的任务是将中文词条自动分隔开来获得中文文本使用的中文词条集。

由Web文本过滤模块对脚本和HTML标记进行过滤，提取所需的用于文档分类的文本内容。

而中文词典的存储结构采取词库按词条的长度分为4个子库，分别容纳四字词、三字词、双字词和单字词。

词库的存储结构为哈希表，因此构建4个哈希表分别存储四字词、三字词、双字词和单字词。

词条按长度分别被存入到对应的哈希表中。

词条在哈希表中的存放位置由词条的哈希码决定。

对于中文文本切分经过综合比较分析，采用最大匹配法（MM）既简便易行，又能保证分类的质量。

　　1.4特征选取与文本分类

　　文本分类是按预先定义的类别，确定待分类文本的类属，文本分类的依据是词条（term）在文本中的使用。

通常，一个文本的词条很多,不可能将这些词条都作为分类的特征，这就需要从文本被切分后获得的词条集中挑选出若干具有分类意义的特征词条组成用于分类的特征词条集。

　　基于机器学习的自动方式主要是通过对若干不同类别文本的学习，自动建立特征词库。

而且，当供学习的样本文本更新后，通过重新学习就可自动更新特征词库，以适应对新的文本类别的分类识别。

　　在对一系列的特征选取算法进行了比较分析后，采用了称之为文本频度与词条频度综合法，简称为DFTF（DocumentFrequencyandTermFrequency）方法来实现特征选取。

任何一个待分类的文本经过“中文词条切分”处理后，得到该文本的词条集，在特征词库的支持下，由“文本分类器”得出该文本的所属类别。

文本分类器把文本词条集中的词条逐一与特征词库中的特征词匹配，然后采用贝叶斯分类算法得出该文本所属类别。

　　采用改进了的贝叶斯文本分类算法，其算法如下：

　　1、从词条集Tx中依序逐一取出词条与特征词库中的特征词进行匹配，若txk与ti（cj）匹配，则将类别cj赋予txk，记为txk（cj）；若txk与所有特征词匹配失败，则取下一个词条。

直到Tx为空集，得到分类后的词条集为{txk（cj）}。

（k=1,2….n;j=1,2….mx）

　　2、逐一计算词条的类条件概率P（txk｜cj）=nhj+mpnxj+m式中，nkj、nxj与前面定义的相同；m是一个常量，称为等效样本大小；p是将要确定的概率的先验估计，在缺少p的先验概率的知识背景的情况下，一种典型的方法是假定遵循均匀的先验概率，也就是说，如果有M个分类，可取P=1/M。

　　3、计算文本x的类条件概率P（tx|cj）=P（tx1|cj）×P（tx2|cj）×…×P（txn|cj）=

　　∏nk-1P（txk|cj）4、计算文本x属于某个类别cj的概率P（cj|Tx）=P（cj）P（Tx|cj）P（Tx）其中，P（Tx）=∑mj-1P（cj）P（Tx|cj）

　　5、取max{P（c1|Tx）,P（c2|Tx），…，=P（cmx|Tx）}的文本类别为文本x的类别。

　　2实验与测试结果分析

　　为了测试研制的Web文本自动分类系统的性能，这里选择了30个样本文本，并对系统中待定参数选取了3种不同的值，自动生成三个不同的特征词条库，然后分别用于对随机选取的10个Web文本进行自动分类，讨论测试结果并予以分析。

　　2.1特征选取的测试结果与分析

　　首先从因特网上下载了30篇Web文档作为样本文本。

经过人工判读文本内容，其中10篇文本的类别确定为“反动言论类（c1）”，10篇文本的类别为“利用互联网贩黄赌博诈骗类（c2）”，另外10篇文本的类别为“社会新闻类（c3）”。

这三类样本文本的标题及字数分别为表1、表2、表3所示：

　　表1反动言论类（c1）的样本文本序号标题字数1.1汉族是万恶的劣等民族12601.2战争带来了我们生活的提高9281.3无耻的中华民族论者12101.4中国人是劣等野蛮部落8121.5妓女万岁16301.6没人权的人民18401.7没有共和的共和国2601.8充满了自我违宪1451.9981.10民法上的基础就是私有制140表2互联网贩黄赌博诈骗类（c2）的样本文本序号标题字数2.1我国色情第一案17502.2九九情色论坛23102.3互联网上的卖淫嫖娼6802.4为了网恋我付出了沉痛的代价13602.5如何利用网络募捐蒙骗网友8402.6手机短信性骚扰愈演愈烈9202.7网络陷阱18402.8警方破获武汉市首例利用互联网赌球案件12802.9北京警方侦破盈特大赌球案9602.10六合彩捆住了大批农民1350表3社会新闻类（c3）序号标题字数3.1自编自演绑架闹剧16323.2警民合力围赌擒凶12583.3监控录像锁住盗车贼11803.4汉宜高速公路发生重大交通事故17643.5征地应给予合理补偿12263.6禽流感继续在东南亚蔓延14713.7千手观音享誉海外11193.8酒吧卖假酒利润惊人6903.9为讨工钱民工猝死8103.10不雅行为让游人扫兴1080表4样本文本词条切分的结果类别文本总字数切分后的词条数删除重复词条词条平均c110974331425395.82c21013290474611404.26c31012230531715733.38合计30352631320532524.06对上述三类30篇样本文本经中文分词后得到的词条集中的各类词条数如表4中所示。

采用文本频度与词条频度综合方法对该词条集进行特征词条选取，对三类词条子集删除各自重复词条后的词条数分别如表4中所示。

在DFTF选取方法中，取文本频度系数α=0.4，词条频度权系数β=0.6。

为了比较DFTF方法中，不同过滤阈值对提取特征词条的影响，分别设定λ=0.4、λ=0.6和λ=0.8进行测试，不同阈值对获取的特征词库的影响如表5所示。

　　表5阈值（λ）对特征词库的影响类别提取的特征词条数λ=0.4λ=0.6λ=0.8c1468343283c2845672424c31267941564合计258019561271由表4和5中的数据可见，若取阈值λ=0.4,则将样本文本切分后的13205个词条过滤至2580个特词条；若取阈值λ=0.6，则过滤至1956个特征词条，且对三类词条的降维程度大致相当；若取阈值λ=0.8，则过滤至1271个特征词条，其中对c3类词条的降维程度大大超过c1类和c2类词条。

事实上，c3类是“社会新闻”类，该类文本内容用词的广泛程度远超过“国内外足球比赛”类（c1类）和“利用互联网贩黄赌博诈骗类”（c2类）的文本，因此c3类词条的综合频度将低于c1类和c2类词条。

当取较高的阈值对词条过滤时，会将较多的c3类词条过滤掉，将对c3类Web文本的分类识别产生不利影响。

　　2.2文本分类的测试结果与分析

　　根据Web文本的标题随机下载了10篇Web文本，分别在上述3个特征词库的支持下进行文本自动分类。

自动分类的结果和人工阅读文本内容后给出的分类结果如表6所示。

　　表6文本自动分类与人工分类的比较序号标题自动分类特征词

　　库1特征词

　　库2特征词

　　库3[4]人工

　　分类1效治台湾现在的模式c1c1c1c12黄色的诱惑c2c2c2c23改革开放重中之重c3c3c3c34千里导网友少女遭奸污c3c2c2c35广东警方重拳打击地下六合彩c2c2c2c26没有人权的人民c1c1c1c17奋斗的历程光辉的榜样c3c3c3c48失地农民的出路何在c3c3c3c39轻松订票快乐出行c3c3c2c410政府工程不准拖欠民工工资c3c3c3c3分类正确率0.80.70.7表6中，序号7的文本内容是介绍一位著名科学家的生平与业绩，序号9的文本内容是讨论基于网络平台的分布式订票系统的构建技术，这2个文本人工分类为c4类，即不属于c1～c3类。

　　由于贝叶斯分类器不具备拒识功能，只能将这2个文本分类为c1～c3类中的某一类，因此，自动分类结果与人工分类结果不一致。

另外，序号4的文本在特征词条数较多的特征词库1的支

　　持下，自动分类结果正确；在特征词条较少，尤其是c3类特征词条较少的特征词库2或特征词库3的支持下，自动分类结果错误。

对上述10篇Web文本自动分类的正确率分别是0.8、0.7和0.7。

　　根据测试结果，可以得出以下结论：

①分类的类别数应足够多，应能覆盖人工分类的类别；②各类的样本文本数应较多，从中提取一批覆盖面宽、代表性强的特征词条；③特征词库的规模越大，分类正确率越高，但是，将导致自动分类的时空开销越大，因此，阈值的选取十分重要；④本文给出的贝叶斯分类算法不具备拒识功能，从而增大了误识率。

可以对本文给出的贝叶斯分类算法的第5步予以修正：

对文本类别概率P（cj|Tx）设一个阈值λ，若对所有的类别都有P（cj|Tx）＜λ，则对文本Tx拒识；否则，取max{P（c1|Tx）,P（c2|Tx）,…，P（cmx|Tx）}的文本类别为文本x的类别。

　　3结束语

　　本文提出了一种基于机器学习的Web文本自动分类系统的实现方案，并详细分析了各功能模块实现的方法、算法和技术。

有以下几点反映出我的研究成果：

①中文词典的存储结构采用多个哈希表；②采用机器学习的特征词条选取方法来自动建立特征词库，从而可通过重新学习来自动更新特征词库，以适应对新的文本类别的分类识别。

给出了一个简便易行、时空开销相对较小的特征词库选取算法文本词条频度法；③对贝叶斯文本分类算法进行了修正，用m-估计计算代替词条的类条件概率的计算，从而避免了出现概率较低的词条对计算文本分类概率值过于强势的影响。

　　参考文献：

　　[1]尹朝庆，尹皓.人工智能与专家系统[M].北京：

中国水利水电出版社，2001.

　　[2]FREITAGD.InformationexteactionfromHTML：

ApplicationofaGeneralMachineLearningApproach[A].AAAI’98[C]，1998.

　　[3]李晓黎.网上信息检索与分类中的数据采掘研究[D].中国科学院计算技术研究所，2001.

　　[4]黄萱菁，吴立德，王文欣，等.具有机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能，1996（9）.

　　[5]何克抗.书面汉语自动分词专家系统设计原理[J].中文信息学报，1991

（2）.

　　[6]陈振南.特征选取与权重分配于中文新闻分类之比较[D].国际资讯管理学术研讨会，2002.

　　[7]郑海，林鸿飞.给予段落匹配的文本分类机制[J].计算机工程与应用，2004

（2）.

　　[8]尹峰，林亚平.汉语自动分词技术的现状及发展趋势[J].软件世界，1996（12）.

展开阅读全文