中文文本分类算法设计及其实现.docx
《中文文本分类算法设计及其实现.docx》由会员分享,可在线阅读,更多相关《中文文本分类算法设计及其实现.docx(53页珍藏版)》请在冰豆网上搜索。
毕业设计(论文)
目
中文文本分类算法的设计及其实现
题
电信 学院
计算机
系
84
班
学生姓名
丰成平
号
2008055089
学
指导教师
相明
设计所在单位
西安交通大学计算机系
2013 年 6 月
系(所)计算机科学与技术系(所)主任
批准日期
毕业设计(论文)任务书
电信学
院
计算机
系 84
班
学生
丰成平
毕业设计(论文)工作自2013年2 月21日起至2013 年 6 月 20 日止
毕业设计(论文)进行地点:
西安交通大学
课题的背景、意义及培养目标
随着文本文件的增多,对其自动进行分门别类尤为重要。
文本分类是指采用计算机程序对
文本集按照一定的分类体系进行自动分类标记。
文本分类器的设计通常包括文本的特征向量表
示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。
本毕设论文研究文本分类
器的设计与实现。
通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并
通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。
设计(论文)的原始数据与资料
1、文本语料库(分为训练集与测试集语料库)。
2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。
3、中科院文本分词工具(nlpir)。
4、文本分类中需要用到的各种分类方法的资料描述。
课题的主要任务
完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等)
1.学习文本特征向量的构建方法及常用的降维方法。
2.学习各种分类器的基本原理及其训练与测试方法。
3.设计并编程实现文本分类器。
4、对试验结果进行分析,得出各种结论。
5、撰写毕业论文。
6、翻译一篇关于文本分类的英文文献。
课题的基本要求(工程设计类题应有技术经济分析要求)
1、程序可演示。
2、对源代码进行注释。
3、给出完整的设计文档及测试文档。
1、提交毕业论文
2、提交设计和实现的系统软件源程序及有关数据
3、提交外文资料翻译的中文和原文资料
主要参考文献:
自然语言处理与信息检索共享平台:
?
action-viewnews-itemid-103
Svm(支持向量机)算法:
基于神经网络的中文文本分析(赵中原):
TF-IDF的线性图解:
东南大学向量降维文献:
指导教师
相明
接受设计(论文)任务日期 2013-02-21~2013-06-20
学生签名:
西
安
交
通
大
学
毕业设计(论文)考核评议书
院 系(专业) 班级
指导教师对学生 所完成的课题为
的毕业设计(论文)进行的情况,完成的质量及评分的意见:
指导教师
年 月 日
毕业设计(
论文)
评审意见书
评审意见:
评阅人 职称
年 月 日
毕业设计(论文)答辩结果
院
系(专业)
毕业设计(论文)答辩组对学生
所完成的课题为
的毕业设计(论文)经过答辩,其意见为
并确定成绩为
毕业设计(论文)答辩组负责人
答辩组成员
年 月 日
论文题目:
中文文本分类算法的设计及其实现
学生姓名:
丰成平
指导教师:
相明
摘要
随着当今社会,计算机的普遍使用,出现了连绵不断的文本文件,如何对这些
毫无逻辑、毫无层次的文件进行分门别类的整理,做到井井有条,层次鲜明呢?
文本自动分类就是针对上述情况,采用机器,通过一定的约束条件和一些分类
算法,自动的对这些文件进行遍历,从而实现分门别类。
这样用机器代替人来“阅读”文章,用机器代替人来“整理”文章,不仅减轻了工作人员的负担,而且大大节省了时间,工作人员可以去做更多有意义的事情。
文本分类主要有以下三个方面:
第一、文本的空间向量表示:
由于计算机并不能识别真正的文本,本质上只懂
得0,1,因此若要对文本进行分类,首先要让计算机能够“读懂”每篇文章,引入
来实现分门别类。
文本空间向量表示,将文章里面的特征词形成空间向量,通过计算向量之间的差距,
第二、文本特征的降维:
由于中文词汇成千上万,那么形成的文本向量肯定也
很长,计算起来会很麻烦,因此要对向量进行处理。
第三、文本分类器的设计:
文本分类方法例如:
KNN、朴素贝叶斯、SVM、决策树,BP神经网络,运用这些算法设计分类器,从而处理文本向量之间的关系,实现对文本的分门别类。
最后,将文本分类运用于众多领域,例如:
信息过滤、文档管理、网络安全、
电子图书整理、网络图书馆,搜索引擎,这样则不是通过关键字过滤,而是基于文
本内容的过滤或者是搜索,能大大提高过滤的可靠性以及搜索的准确性,无疑使文
本领域的一项重大的突破
关
键
词:
文本向量;特征降维;分类算法;分类器设计。
Title:
ThedesignandimplementationofChinesetextclassificationalgorithm
Name:
FengChengpingSupervisor:
XiangMing
ABSTRACT
Withtoday'ssociety,thewidespreaduseofcomputers,thecontinuousofthetextfile,
howaboutthesenologic,nolevelofsort,classifyfilesondoinperfectorder,hierarchyandbright?
Textautomaticclassificationisaccordingtotheabovesituation,usingthemachine,througha
certainconstraintconditionandsomeclassificationalgorithm,automatictotraversethesefiles,soastorealizeclassify.Sousingmachinesinsteadofpeopleto"read",to"finish",replacingworkerswith
machinesnotonlyreducetheburdenofthestaf,andgreatlysavestimeandstaftodomoremeaningfulthings.
Textclassificationismainlyhasthefolowingthreeaspects:
First,Textspacevectorsaid:
becauseofthecomputerandcan'tidentifytherealtext,essentialyunderstandonly0,1,soifyouwanttocategorizetext,firstofal,alowthecomputerto"read"eacharticle,introductionoftextvectorspace,saidthearticleintheformationofkeyspacevector,vectorbycalculation,thegapbetweentoclassify.
Second,Textfeaturedimensionreduction:
duetothehundredsofthousandsofChinesevocabulary,thenformthetextvectorisalsoverylong,calculateitwilbeverytrouble,sowanttodeal
withvector.
Third,Textclassifierdesign:
textclassificationmethodforexample:
KNN,naivebayes,theSVMandthedecisiontree,BPneuralnetwork,usingthesedesignclassifieralgorithm,toprocessthetextvector,therelationshipbetweentheimplementationoftextcategorization.
Finaly,thetextclassificationusedinmanyfields,suchas:
informationfiltering,documentmanagement,networksecurity,electronicbooksandnetworklibrary,searchengine,itisnotbykeywordfiltering,butbasedontextcontentfilterorsearch,cangreatlyimprovetheaccuracyofthereliabilityofthefilterandsearch,nodoubtmakeasignificantbreakthroughinthefieldoftext
Keywords:
textvector;Characteristicswilbe;Classificationalgorithms;Classifierdesign.
Keywords:
textvector;featurereduction;Classificationalgorithms;Classifierdesign.
目录
第一章
绪论 6
1.1、文本分类背景和意义 6
1.2、文本分类的应用领域 6
1.2.1、Internet上面应用 6
1.2.2、网络图书馆方面的应用 7
1.2.3、网络安全方面 7
1.2.4、电子邮件方面 7
1.3、目前国内外研究现状 7
1.4、文本分类的发展趋势展望 8
1.5、本章小结 8
第二章
文本分类主要过程 9
2.1、文本分类的过程图 9
2.2、关于语料库 10
2.2.1、文本分类语料库介绍 10
2.2.2、文本