ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:20.42KB ,
资源ID:9102755      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9102755.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于决策树和内容识别的短信过滤的方法的研究.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基于决策树和内容识别的短信过滤的方法的研究.docx

1、基于决策树和内容识别的短信过滤的方法的研究基于决策树和内容识别的短信过滤的方法的研究摘 要:随着移动通讯的快速发展,手机短信已经成 为了人们日常生活中重要的信息传递方式之一。但是,随之 而来的问题是大量的垃圾短信肆意泛滥,人们因为垃圾短信 而造成的经济损失的事件也屡见不鲜,这已经严重影响了社 会的正常秩序。因此,如何有效识别过滤垃圾短信,遏制其 传播,已经成为了迫在眉睫的实际问题。本文将根据短信拦 截的需求和短信的特性,在有限的资源条件下,运用决策树 预测模型,设计并实现一个基于手机联网的短信应用,其主 要功能包括收发短信、黑白名单拦截和基于内容识别实现的 垃圾短信识别过滤。关键词:垃圾短信;

2、过滤;拦截;内容识别;决策树 基金项目:西南科技大学大学生创新基金项目资助 编 号:CX15-024引言移动通讯的高速发展,使得手机短信成为人民生活不可 或缺的一部分,但大量的涉黄、违法、反社会的垃圾短信严 重打扰了人们的正常生活和工作,同时也浪费了运营商的通 讯资源和网络资源。垃圾短信是指未经用户同意向用户发送的用户不愿意 收到的短信息,或用户不能根据自己的意愿拒绝接收的短信 息。其主要包含以下属性: (一)未经用户同意向用户发送 的商业类、广告类等短信息; (二)其他违反行业自律性规 范的短信息。依据中华人民共和国电信条例第五十六条 规定的九种任何组织或者个人不得利用电信网络制作、复制、

3、发布、传播含有下列内容的信息,均可视为垃圾短信。 1 腾讯移动安全实验室的数据统计: “ 2015 年上半年,腾 讯手机管家用户举报垃圾短信达 3.08 亿,同比增长 12.36%。 如果将用户举报的垃圾短信用五号字串起来,长度可以从北 京到广州往返 29 次。垃圾短信类别主要分为广告类、诈骗 类、违法类与其他类 4大类。 2015 年上半年,广告类垃圾短 信占垃圾短信总比例达 84.04%,诈骗短信占比 11.98%,违 法类占比 1.92%,其他类占比 2.06%。在垃圾短信当中,对 用户危害最大的是诈骗短信。 2015 年上半年用户举报诈骗短 信 3692 万,占垃圾短信举报总比的 11

4、.98%,诈骗短信依然 在持续增长”。2 由这份安全报告可以看出,现在垃圾短信的问题越来越 严重,已经给人们的正常工作和生活造成了巨大的干扰。针对垃圾短信,通讯运营商传统的拦截策略有控制发送 频率、关键词屏蔽、手机实名制等。在手机应用端拦截垃圾 短信,主要是在短信应用里内置识别拦截垃圾短信的功能, 其包含的主要识别分类方法有:黑名单、白名单、关键词检 测和基于短信内容的检测等。通过手机端主动屏蔽带有欺诈 性质的短信,一方面可以分担运营商的压力,另一方面也让 使用手机的客户群最大程度免受垃圾信息的骚扰。本文将结合内容识别和文本分类算法,设计并实现在手 机端快速有效地拦截垃圾短信的一款手机软件,该

5、软件可以 有效屏蔽和过滤垃圾短信,改善用户体验,防止用户经济受 损。现有识别过滤手段分析运营商的拦截手段: 31)控制发送频率:拦截发送短信频率很高的不正常号 码。根据工业和信息化部提供的最低标准: “非节假日每个 号码可以发送的短信条数每小时不得超过 200 条,每天总量 不超过 1000 条;而在节假日期间,每小时不超过 500 条, 每天总量不超过 2000 条”。2)关键词屏蔽:运营商可以通过检测短信内容来实现 点对点垃圾短信的拦截,尽管这种做法缺乏行业的统一标准, 但是这是最常用的过滤方式。3)手机实名制:手机号码捆绑身份证,运营商和公安 部门合作,快速且精确打击垃圾短信的源头。对于

6、运营商这些拦截手段,垃圾短信传播的方式也有相 当的变化:大量购买 SIM 低频发送、复制卡发送、使用特殊 表达方式(同音字、异型字、近体字、多音字) ,敏感内容 用特殊字符分隔开等, 导致手段 1 和手段 2 的效果并不理想; 手段 3 确实是可行的方案,但是在偏僻的地方,由于运营商 监管不足,仍存在出售黑卡的现象,因此垃圾短信并不能被 杜绝和消灭。手机应用软件拦截手段: 41)设置黑名单和白名单:在服务器端或手机端建立数 据库存储手机号码和被标注的状态。若短信号码是黑名单的 号码,直接拦截;若短信号码是白名单号码,直接放过。这 种方式明显要比运营商的号码拦截更具有针对性。2)关键词的检测:方

7、法与运营商的关键词的检测大致 相同,不过由于需要处理的短信数量比运营商的要少,而且 和现在手机的性能有很大的提升,所以识别效率更高,漏判 率更低,对垃圾短信的针对性更强。3)基于短信内容的检测: 目前常用的文本分类算法有朴素贝叶斯(NativeBayes),贝叶斯网络(BayesNet),决策 树(C45或者CART),随机森林(RandomForest),神经网络 (BP),支持向量机(SVM)等等。优点:准确率高,模型易 维护;缺点:成本开销相对大,需要大量计算和预处理训练 集。 5对于手机软件端的拦截,手段 1 是目前手机短信应用必 备的手动拦截垃圾短信功能;手段 2 相较于手段 3,虽

8、然成 本开销低,识别速度快,但是有较高的误判漏判率;鉴于目 前计算机计算性能过剩的现状,只需要一台高性能的计算机便能轻松完成十分复杂的计算,因此手段 3 的成本开销并不昂贵,而且其准确率比其他的手段要高,十分适合对垃圾短 信进行快速并且准确地过滤和拦截。在有限的资源条件下,我们需要一种文本分类算法,它 应具有的特点是:训练周期短、系统开销小、预测分类速度 快且准确率较高。决策树算法相较于其他分类算法如随机森 林,支持向量机, 神经网络等, 它具有的以上提及到的特点。 除此之外, 决策树模型可读性优秀, 有助于人工的数据分析; 决策树模型能够一次构建多次使用,预测分类的最大计算次 数小鱼或等于决

9、策树的深度。因此决策树分类算法很适合在 有限资源条件下,实现快速识别且准确率高的垃圾短信过滤 拦截功能。关键技术的研究1.决策树模型( Decision Tree) 决策树是一种应用相当广泛的分类算法,它是一种弱学习的独立变量选择算 法,经常使用于监督学习。决策树的模型是根据数据的属性 采用树状结构建立的决策模型,它表示的是对象的属性与对 象的类别的一种映射,树的每个子节点表示的是对象的类别 的判断条件,树的叶子节点表示树的对象的类别的预测结果。 6-7特征的选择:选择一个确定度较高的特征作为判断的节 点,可以快速的分类、减少决策树的深度。特征的确定度是 指通过特征能区分出来的集合中的类别的纯

10、度,如带翅膀的 动物大部分会飞(特征确定度比较高) 。ID3 算法的信息增益:信息熵表示的是不确定度,用来 描述在数据集中类别的确定程度。信息增益可表示为分类前 后的信息熵的差值,它用来描述某个特征对分类结果的影响 大小。假设在训练集 D 中,混有 n 种类别的数据, 表示类别i 样本数量占所有样本的比例,其计算公式如下: 分类前的信息熵计算公式: 分类后的数据集 D 被分为 k 个部分,分类后的信息熵计 算公式:该特征对应的信息增益计算公式:C45算法的信息增益率:它是对 ID3算法的信息增益的 改进,它克服了信息增益的两个严重的缺陷: 1. 偏向拥有大 量值的属性,如自变量; 2. 使用离

11、散化弥补了 ID3 算法对连 续属性支持的不足。对信息熵分类前计算公式进行改进: 信息增益率的计算公式:CART算法里的基尼系数:基尼系数是另外一种描述数据集的不纯度的度量标准,相对于信息熵更为常用。当数据集 中数据混合的程度越高,基尼指数也就越高。假设数据集中类别有 m 个类别的数据,表示类别 i 样 本数量占所有样本的比例,其计算公式:分类前的基尼系数计算公式:分类后的数据集被分为 k 个部分,分类后的基尼系数计 算公式:该特征对应的基尼系数的差值计算公式: 决策树通过不断重复求解当前特征集合中确定度最高 的特征,将其作为决策树的节点,直到决策树的构建完成。 从根节点到叶子结点的一条遍历路

12、径就对应着一条合取规 则,整个决策树就对应着一组析取表达式规则。决策树的预 测是从根节点开始,顺着某条合取规则,得到最终的对象的 类别的预测结果。1.2.内容分类方法 内容识别分类的方法是指通过处理短信内容,达到识别 来及短信的目的,步骤分析:1 )根据短信S,提取出其内容,用一定的特征提取方式将文本内的特征值提取出来,若特征存在,则特征值为正( true ),相反则特征值为负( falSe)2) 根据步骤 1 所由该短信提取出来的特征集合构造出 多维的特征向量:3) 训练步骤 2 所得到的训练集的特征向量集合,放入 决策树模型中进行训练,得到训练模型 model4) 对照步骤3所得的训练模型

13、 model,对每条新短信通 过步骤 2 后得到的待预测的特征向量,从根节点开始遍历, 按照模型的子节点顺序进行树的遍历,直至到达树的叶子节 点,得到预测的结果特征选取和等级划分:1)在垃圾短信训练集中找出大量的明显的特征2)在所选的特征中,统计在正常短信训练集和垃圾短 信训练集的短信中分别进行一个匹配,比如正常短信训练集 中出现 a 次,垃圾短信训练集中出现 b 次,得到比例3)对特征集合进行降维和优化,我们可以对步骤 2 得到结果集合,划分取值区间,它来描述特征重要程度,然后 依据步骤 2 所得的特征 c 值和其相关属性(如动词、名词、 固定搭配)进行筛选和合并,形成最终的特征集合后面的表

14、格 1 为选取的特征描述以及对应的提取的方式。 其中等级用来描述特征的重要性:等级 1等级 2等级 3等级 4 ,其中等级的划分由在负集(垃圾短信集合)中出现的 次数除以正集(正常短信集合)出现的次数之比 C,具体如下:1/2 c 为等级 1, 1/3 c 1/2 为等级 2, 1/5 c 1/3 为等级3,c 1/5为等级4。以下为从实际项目中抽取的部 分重要程度为等级 1 的特征:5.实验结果分析:由表格 2 和表格 3 我们可以看出决策树模型相较于其他 模型,具有准确率高, 训练模型周期短, 训练开销小等优点, 能够在有限条件资源下实现快速、准确且可自学习的垃圾短 信拦截功能,CART的

15、训练周期要比 C45长,且准确率要比 C45低,因此不推荐使用。由表格 4 我们可以看出,决策树在拥有大量训练集的条 件下,与实验 1 的随机森林相比较, 准确率与随机森林相近, 而且训练周期不足 20 分钟,远比随机森林的时间和内存开 销小得多,能在较小开销获得较好的预测效果。如果拥有高 性能的分布式框架提供分布式计算,决策树模型训练速度将 会得到大大提高,这能让我们的模型以最小的开销得到最好 的效果 8。结语 本文设计和实现了一个基于文本挖掘的基于在线识别 判断垃圾短信的短信应用,它成本开销小,拦截垃圾短信速 度快效果好,十分适合在有限资源条件下达到短信过滤的目 的,同时通过不断地优化合并

16、特征,使特征维数降低,避免 了维灾难,并且规则也更便于理解,可扩展性和灵活性得到 大大提高,可面对更加庞大的训练集,产生更准确的训练模 型。参考文献1中华人民共和国电信条例 S.2000 年 9 月 20 日 .2腾讯移动安全实验室 2015 年上半年手机安全报告R.2016 年.3赵英刚,龚磊 - 基于行为识别和 SVM 的短信过滤方 法研究J.微计算机信息.2011年28卷第1期.4杨明极,宋艳艳 - 支持向量机在垃圾短信拦截系统中的实现J.通信技术.2012年01期4钱升华,5武优西, 柴欣,陈冀川 ?C 文本分类综述及手机垃圾短信过滤方法 J. 河北工业大学学报 .2007年 2月.第 36卷第 1 期.6刘庆瑜 - 基于决策树分类的手机垃圾短信过滤器的 设计与实现 J.2011 年.7胡新海 ?C 一种决策树算法对微博垃圾评论的检测J.内江师范学院学报.30卷第6期.8朱杰 - 云计算在基于贝叶斯的垃圾短信过滤中的研究与应用D电子科技大学硕士论文.2010.

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1