人工智能论文--基于内容的垃圾短信识别与处理.docx

上传人:b****1 文档编号:143816 上传时间:2022-10-04 格式:DOCX 页数:23 大小:2.34MB
下载 相关 举报
人工智能论文--基于内容的垃圾短信识别与处理.docx_第1页
第1页 / 共23页
人工智能论文--基于内容的垃圾短信识别与处理.docx_第2页
第2页 / 共23页
人工智能论文--基于内容的垃圾短信识别与处理.docx_第3页
第3页 / 共23页
人工智能论文--基于内容的垃圾短信识别与处理.docx_第4页
第4页 / 共23页
人工智能论文--基于内容的垃圾短信识别与处理.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

人工智能论文--基于内容的垃圾短信识别与处理.docx

《人工智能论文--基于内容的垃圾短信识别与处理.docx》由会员分享,可在线阅读,更多相关《人工智能论文--基于内容的垃圾短信识别与处理.docx(23页珍藏版)》请在冰豆网上搜索。

人工智能论文--基于内容的垃圾短信识别与处理.docx

人工智能论文

选题:

基于内容的垃圾短信识别与处理

院系:

理工学院信科系

班级:

姓名:

学号:

指导教师:

2016年6月5号

目录

摘要 3

第一章绪论 4

第二章垃圾短信及其过滤方法 5

2.1垃圾短信及特征分析 5

2.1.1短信的格式 5

2.1.2垃圾短信的特征分析 5

2.2垃圾短信过滤端口 6

2.2.1短信工作原理 6

2.2.2垃圾短信过滤机制 7

2.3基于内容的垃圾短信过滤方法 8

第三章设计的主体内容 9

3.1项目分工 10

3.1.1、项目模块设计 10

3.1.2类图 11

3.1.3流程图 11

3.2预处理 11

3.2.1过程简介 12

3.2.2运行环境 12

3.2.3过程说明 12

3.2.4关键代码 14

第四章结果分析与讨论 19

4.1结果分析 19

4.2正确率分析 19

4.3准确率及召回率的计算 20

4.4结果讨论 20

第五章问题互评 21

5.1其他小组对我们的问题 21

5.2、我们对其他小组的问题 21

第六章项目展望 22

参考文献 23

摘要

对垃圾短信识别和过滤具有十分重要的研究价值和社会意义.随着新形式和内容的垃圾短信出现,传统的关键字匹配和发送速度频率过滤方法无法有效地处理这一问题.基于内容的垃圾短信识别与处理通过对语料的短信分词、向量转化、特征提取和聚类分析,利用了随机森林算法构造决策树。

从而实现高效、准确的识别垃圾短信,同时能够更多的垃圾短信识别处理训练产生更高的短信识别准确度。

关键词 基于内容,向量转化,特征提取,随机森林

Abstract

Therecognitionandfilteringspammessageshaveveryimportantresearchvalueandsocialsignificance.Withthenewformandcontentofspammessagesappear,thetraditionalkeywordmatchingandspeedofsendingfrequencyfilteringmethodscannoteffectivelydealwiththisproblem.Basedonthecontentofthespamrecognitionandprocessingbasedoncorpusoftextparticiple,vectortransformation,featureextractionandclusteranalysis,usingtherandomforestalgorithmtoconstructthedecisiontree.Spammessagessoastorealizehighefficientandaccuraterecognition,atthesametimebeabletodealwiththetrainingmorespamrecognitionSMSforhigherrecognitionaccuracy.

第一章绪论

手机短信这种先进的通信手段给人们带来了很多便利,但与此同时,垃圾短信也开始泛滥,给我们的生活带来了很多负面影响,成了社会一大公害.统计数据表明,数目庞大的发送短信总量中,30%以上是垃圾短信.垃圾短信中的绝大部分都是属于恶意欠费,给运营商造成了极大的经济损失;同时垃圾短信中存在着大量的谣言、诽谤和诈骗等影响社会安定团结的不良信息,因而如何有效地过滤掉这些垃圾短信不仅仅是经济问题,还是当前的一个重大社会问题.为了解决垃圾短信泛滥问题出现了一系列的应对方法,如黑白名单过滤技术(即通过发送方手机号码作为判别目标)和发送速度频率过滤法(通过短信发送速度频率来识别垃圾短信发送用户)等,但是使用效果都不明显.从图论角度看短信发送网络在网络结构上与邮件发送网络具有许多的相同点.目前在国际上已经出现了一些利随机森林构造决策树的技术来实现垃圾邮件的发现和过滤的工作,并且取得了一系列成功的应用.。

因而可从中借鉴,利用短信预处理、向量化方法和理论来研究垃圾短信识别与处理,并提出相应的过滤方法.文章接下来的内容首先给出垃圾短信定义和描述以及详细介绍一下项目采用的垃圾短信识别与处理方法。

然后针对具体的处理步骤:

语料预处理,向量转化,特征提取,以及构造决策树分析做出详细说明。

最后文章将分析基于此方法识别垃圾短信的正确率。

第二章垃圾短信及其过滤方法

2.1垃圾短信及特征分析

2.1.1短信的格式

短信息是通过移动通讯网络传输的简讯,其内容主要包括文字,图片,声音等。

主要分为文本格式和多媒体格式。

目前,绝大多数的垃圾短信都是属于文本格式短信,因此,我们研究的对象都是文本短信,而所说的短信都统指文本短信。

通常情况下文本信息主要由字词,数字,字母组成。

最多可140个字节(8-bi编码),70个字符长度。

每条短信都由发送号码,短信内容(本信息),发送时间,接受号码组成。

下面是一个短信的例子:

From:

13569270800

Content:

房屋出售/滨河西路翰林苑七栋16楼南户,三室两厅,139平米,精装修,价格面议。

To:

13849704829Time:

14:

07:

26 2010-11-26

2.1.2垃圾短信的特征分析

所谓的垃圾短信,本文认为是在主观上违背短信接收方意愿,并且客观上对短信接收方正常生活造成侵害或干扰的,以批量形式发送或点对点发送的违规违法短信。

我们在研究中发现,大多数垃圾短信都具有某种程度上的相似性,其特征主要包括以下几个方面:

(1)垃圾短信的内容相对于正常短信较长,通过情况下垃圾短信字符长度要超过45个字符,而正常短信的内容往往要低得多;

(2)大多数垃圾短信的内容都存在类似电话号码,增值业务信息台号码等关键性信息,这类信息对于垃圾短信的判别具有重要价值。

(3)垃圾短信的内容往往以宣传产品为目的,如:

“租卖”,“办证”,“彩铃”,“服务”,“调查”,“低价”等等。

(4)垃圾短信的发送往往以批量发送形式出现,以商业广告,业务宣传为目的的短信,由于发送数量巨大,垃圾短信发送者通常使用短信群发器进行垃圾短信的大量发送,通常情况下,这种短信发送方式的频率要远远大于普通短信发送的频率。

上述的垃圾短信特征,对于垃圾短信的识别具有关键性意义。

而传统的垃圾短信过滤方法,并没有重视这些关键性信息对于识别的影响,这就造成了关键特征的丢失。

因此,在垃圾短信分类识别过程,考虑关键特征对垃圾短信识别的影响,具有重要的意义。

2.2垃圾短信过滤端口

2.2.1短信工作原理

短信息服务(Shortmessageservice,SMS)是一种无线信息服务,它主要是利用无线网络进行信息的传输,采用信息存储转发的模式,通过电信运营商的短信服务平台进行传输。

短信息服务中心(Shortmessageservicecenter,SMSC)是实现短信息传输的关键,SMSC具有转发,保存等功能;如图2-1所示,发送方先将短信息发送给SMSC,SMSC将接收到的短信息存储起来,然后再将短信息转发给接收方。

如果短信息无法传递至接收方,SMSC将该信息存储,直到接收方具备接收条件,再进行传递。

这种服务机制有效地克服了短信传输过程中占线,接收方无网络等问题。

图2-1 短信的工作原理

Fig.2-1 SMSofworks

根据短信的工作原理,短信息传输方式主要分为以下两种情况:

(1)外部设备—手机。

出于短信服务发展的考虑,相关部门及通信运营商允许SP商,个人电脑等网络终端接入无线通信网络,发送短信息。

利用互联网实现对无线通信网络的接入,进行短信息的传送。

随着3G网络的普及,此类传输模式会日益频繁。

(2)手机—手机。

利用手机进行短信传递是短信息传送的主流模式。

只要明确目标号码,任何人都可以利用手机进行短信息传送。

此类模式主要用来完成日常个人行为信息的交流。

2.2.2垃圾短信过滤机制

结合短信的工作原理,现有的垃圾短信过滤方法是在短信传输的过程中,对短信进行识别判定,进而完成对垃圾短信拦截。

因此,对短信进行识别过滤的位置尤为重要。

目前主要短信过滤方法均是基于两个平台端口来实现的,即运营商短信服务中心和手机客户端。

(1)短信服务中心

所有短信都是发送至短信服务中心后,再由短信服务中心进行转发至接收方。

因此,短信服务中心是进行垃圾短信过滤的合适位置。

短信服务中心过滤(如图2-2所示)是在运营商的短信服务中心设置过滤模块,对所有经过短息服务中心的短信实施对短信的判别监控。

若判断短信属于正常短信,予以放行,反之,予以拦截。

图2-2 SMSC垃圾短信过滤流程图

Fig.2-2 SpamfilteringflowofSMSC

在短信服务中心进行垃圾短信的过滤主要是由移动运营商来完成,过滤进行在移动短信服务器端,此类的过滤方法可以批量地对垃圾短信进行处理,能综合应用各种垃圾短信过滤机制。

(2)手机客户端

手机客户终端端口是在用户的手机终端嵌入过滤功能(如图2.3所示),当用户手机

2.3基于内容的垃圾短信过滤方法

传统垃圾短信过滤方法在分类标准动态化等方面的缺陷,使短信过滤转向基于内容过滤的研究。

同时,二十世纪九十年代以来,各种统计理论和机器学习方法开始应用于文本分类技术,依据文本内容进行类别判断的文本自动分类技术得到迅速发展。

在信息检索,邮件分类过滤等领域已经得到广泛的应用。

文本分类方法研究的深入为基于内容的短信过滤方法提供了实现的基础。

文本分类技术是通过对训练文本进行学习,获取分类规则,构造分类模型(即分类器),从而完成对未知文本的分类。

而基于短信内容的过滤方法事实上也可以看作文本的两分类问题,即判断短信是否属于垃圾短信。

由于在机制原理上相似,将文本分类方法应用到短信过滤技术具备可行性。

SP

MS

Email

垃圾短信

SM

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 党团建设

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1