ImageVerifierCode 换一换
格式:DOCX , 页数:23 ,大小:2.34MB ,
资源ID:143816      下载积分:15 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/143816.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(人工智能论文--基于内容的垃圾短信识别与处理.docx)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

人工智能论文--基于内容的垃圾短信识别与处理.docx

1、 人工智能论文 选题: 基于内容的垃圾短信识别与处理 院系: 理工学院信科系 班级: 姓名: 学号: 指导教师: 2016年6月5号 目录摘要3第一章 绪论4第二章 垃圾短信及其过滤方法52.1 垃圾短信及特征分析52.1.1 短信的格式52.1.2 垃圾短信的特征分析52.2 垃圾短信过滤端口62.2.1 短信工作原理62.2.2 垃圾短信过滤机制72.3 基于内容的垃圾短信过滤方法8第三章 设计的主体内容93.1项目分工103.1.1、项目模块设计103.1.2类图113.1.3流程图113.2 预处理113.2.1 过程简介123.2.2 运行环境123.2.3 过程说明123.2.4

2、关键代码14第四章 结果分析与讨论194.1 结果分析194.2正确率分析194.3准确率及召回率的计算204.4 结果讨论20第五章 问题互评215.1其他小组对我们的问题215.2、我们对其他小组的问题21第六章 项目展望22参考文献23 摘要 对垃圾短信识别和过滤具有十分重要的研究价值和社会意义. 随着新形式和内容的垃圾短信出现, 传统的关键字匹配和发送速度频率过滤方法无法有效地处理这一问题. 基于内容的垃圾短信识别与处理通过对语料的短信分词、向量转化、特征提取和聚类分析, 利用了随机森林算法构造决策树。从而实现高效、准确的识别垃圾短信,同时能够更多的垃圾短信识别处理训练产生更高的短信识

3、别准确度。 关键词基于内容,向量转化,特征提取,随机森林 Abstract The recognition and filtering spam messages have very important research value and social significance. With the new form and content of spam messages appear, the traditional keyword matching and speed of sending frequency filtering methods can not effectively d

4、eal with this problem. Based on the content of the spam recognition and processing based on corpus of text participle, vector transformation, feature extraction and cluster analysis, using the random forest algorithm to construct the decision tree. Spam messages so as to realize high efficient and a

5、ccurate recognition, at the same time be able to deal with the training more spam recognition SMS for higher recognition accuracy. 第一章 绪论 手机短信这种先进的通信手段给人们带来了很多便利, 但与此同时, 垃圾短信也开始泛滥, 给我们的生活带来了很多负面影响, 成了社会一大公害. 统计数据表明, 数目庞大的发送短信总量中, 30 % 以上是垃圾短信. 垃圾短信中的绝大部分都是属于恶意欠费, 给运营商造成了极大的经济损失; 同时垃圾短信中存在着大量的谣言、诽谤和诈

6、骗等影响社会安定团结的不良信息, 因而如何有效地过滤掉这些垃圾短信不仅仅是经济问题, 还是当前的一个重大社会问题. 为了解决垃圾短信泛滥问题出现了一系列的应对方法, 如黑白名单过滤技术 (即通过发送方手机号码作为判别目标) 和发送速度频率过滤法 (通过短信发送速度频率来识别垃圾短信发送用户) 等, 但是使用效果都不明显. 从图论角度看短信发送网络在网络结构上与邮件发送网络具有许多的相同点. 目前在国际上已经出现了一些利随机森林构造决策树的技术来实现垃圾邮件的发现和过滤的工作, 并且取得了一系列成功的应用.。因而可从中借鉴, 利用短信预处理、向量化方法和理论来研究垃圾短信识别与处理, 并提出相应

7、的过滤方法. 文章接下来的内容首先给出垃圾短信定义和描述以及详细介绍一下项目采用的垃圾短信识别与处理方法。然后针对具体的处理步骤:语料预处理,向量转化,特征提取,以及构造决策树分析做出详细说明。最后文章将分析基于此方法识别垃圾短信的正确率。 第二章 垃圾短信及其过滤方法2.1 垃圾短信及特征分析2.1.1 短信的格式短信息是通过移动通讯网络传输的简讯,其内容主要包括文字,图片,声音等。主要分为文本格式和多媒体格式。目前,绝大多数的垃圾短信都是属于文本格式短信,因此,我们研究的对象都是文本短信,而所说的短信都统指文本短信。通常情况下文本信息主要由字词,数字,字母组成。最多可 140 个字节(8-

8、bi编码),70 个字符长度。每条短信都由发送号码,短信内容(本信息),发送时间,接受号码组成。下面是一个短信的例子:From:13569270800Content: 房屋出售/滨河西路翰林苑七栋 16 楼南户,三室两厅,139 平米,精装修,价格面议。To:13849704829Time:14:07:262010-11-262.1.2 垃圾短信的特征分析所谓的垃圾短信,本文认为是在主观上违背短信接收方意愿,并且客观上对短信接收方正常生活造成侵害或干扰的,以批量形式发送或点对点发送的违规违法短信。 我们在研究中发现,大多数垃圾短信都具有某种程度上的相似性,其特征主要包括以下几个方面:(1)垃圾

9、短信的内容相对于正常短信较长,通过情况下垃圾短信字符长度要超过45 个字符,而正常短信的内容往往要低得多;(2)大多数垃圾短信的内容都存在类似电话号码,增值业务信息台号码等关键性信息,这类信息对于垃圾短信的判别具有重要价值。(3) 垃圾短信的内容往往以宣传产品为目的,如:“租卖”,“办证”,“彩铃”, “服务”,“调查”,“低价”等等。(4)垃圾短信的发送往往以批量发送形式出现,以商业广告,业务宣传为目的的短信,由于发送数量巨大,垃圾短信发送者通常使用短信群发器进行垃圾短信的大量发送,通常情况下,这种短信发送方式的频率要远远大于普通短信发送的频率。上述的垃圾短信特征,对于垃圾短信的识别具有关键

10、性意义。而传统的垃圾短信过滤方法,并没有重视这些关键性信息对于识别的影响,这就造成了关键特征的丢失。因此,在垃圾短信分类识别过程,考虑关键特征对垃圾短信识别的影响,具有重要的意义。2.2 垃圾短信过滤端口2.2.1 短信工作原理短信息服务(Short message service, SMS)是一种无线信息服务,它主要是利用无线网络进行信息的传输,采用信息存储转发的模式,通过电信运营商的短信服务平台进行传输。短信息服务中心(Short message service center,SMSC)是实现短信息传输的关键,SMSC 具有转发,保存等功能;如图 2-1 所示,发送方先将短信息发送给 SM

11、SC, SMSC 将接收到的短信息存储起来,然后再将短信息转发给接收方。如果短信息无法传递至接收方,SMSC 将该信息存储,直到接收方具备接收条件,再进行传递。这种服务机制有效地克服了短信传输过程中占线,接收方无网络等问题。图 2-1短信的工作原理Fig.2-1SMS of works根据短信的工作原理,短信息传输方式主要分为以下两种情况:(1)外部设备手机。出于短信服务发展的考虑,相关部门及通信运营商允许 SP商,个人电脑等网络终端接入无线通信网络,发送短信息。利用互联网实现对无线通信网络的接入,进行短信息的传送。随着 3G 网络的普及,此类传输模式会日益频繁。(2)手机手机。利用手机进行短

12、信传递是短信息传送的主流模式。只要明确目标号码,任何人都可以利用手机进行短信息传送。此类模式主要用来完成日常个人行为信息的交流。2.2.2 垃圾短信过滤机制结合短信的工作原理,现有的垃圾短信过滤方法是在短信传输的过程中,对短信进行识别判定,进而完成对垃圾短信拦截。因此,对短信进行识别过滤的位置尤为重要。目前主要短信过滤方法均是基于两个平台端口来实现的,即运营商短信服务中心和手机客户端。(1)短信服务中心所有短信都是发送至短信服务中心后,再由短信服务中心进行转发至接收方。因此,短信服务中心是进行垃圾短信过滤的合适位置。短信服务中心过滤(如图 2-2 所示)是在运营商的短信服务中心设置过滤模块,对

13、所有经过短息服务中心的短信实施对短信的判别监控。若判断短信属于正常短信,予以放行,反之,予以拦截。图 2-2SMSC 垃圾短信过滤流程图Fig.2-2Spam filtering flow of SMSC在短信服务中心进行垃圾短信的过滤主要是由移动运营商来完成,过滤进行在移动短信服务器端,此类的过滤方法可以批量地对垃圾短信进行处理,能综合应用各种垃圾短信过滤机制。(2)手机客户端手机客户终端端口是在用户的手机终端嵌入过滤功能(如图 2.3 所示),当用户手机2.3 基于内容的垃圾短信过滤方法 传统垃圾短信过滤方法在分类标准动态化等方面的缺陷,使短信过滤转向基于内容过滤的研究。同时,二十世纪九十年代以来,各种统计理论和机器学习方法开始应用于文本分类技术,依据文本内容进行类别判断的文本自动分类技术得到迅速发展。在信息检索,邮件分类过滤等领域已经得到广泛的应用。文本分类方法研究的深入为基于内容的短信过滤方法提供了实现的基础。文本分类技术是通过对训练文本进行学习,获取分类规则,构造分类模型(即分类器),从而完成对未知文本的分类。而基于短信内容的过滤方法事实上也可以看作文本的两分类问题,即判断短信是否属于垃圾短信。由于在机制原理上相似,将文本分类方法应用到短信过滤技术具备可行性。SPMSEmail垃圾短信SM

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1