ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:279.16KB ,
资源ID:16543194      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/16543194.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(某电信经营分析与决策支持系统数据挖掘分析学习资料Word文件下载.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

某电信经营分析与决策支持系统数据挖掘分析学习资料Word文件下载.docx

1、本挖掘分析的目标确定为:针对目前在网的后付费小灵通数据进行离网概率的预测。该目标涉及后付费小灵通用户和离网两个概念。其中,后付费小灵通在业务系统中已有标识;离网的用户定义为主动及被动拆机用户。2.2数据理解数据理解的任务是对原始数据进行收集和熟悉,检查数据质量,对数据进行初步探索,并发现可能存在的、有分析价值的数据特征,以形成对隐藏信息的假设。2.1.1 研究对象选取以全省2007年1月离网的后付费小灵通用户为研究对象,同时选取同期在网的后付费小灵通用户作为对照研究对象。确定离网时间点为2007年1月,因此对后付费小灵通用户从2006年7月至12月共6个月的相关变量进行研究。离网用户的选取:选

2、取2006年7月前入网,2007年1月内拆机的用户,共选出满足条件的用户31862名。在网客户的选取:2006年7月前入网,2007年1月31日状态为正常的后付费小灵通用户共1805006名。同时,为避免一些偏差数据的影响,在用户的选择中屏蔽了公免后付费小灵通用户。2.1.2 变量选取基本假设:后付费小灵通用户的行为在年度上不存在强的季节性,即后付费小灵通用户的行为特征和离网影响变量不会因为处于一年中的不同月份(季度)而发生较大变化。根据对业务的理解,选定以下3方面的变量进行数据理解:1. 后付费小灵通用户产品订购数据:主要反映用户与服务商关系的数据,如产品类型、在网时长、订购增值业务信息、是

3、否加入套餐等。2. 用户消费行为特征数据:主要通过用户每月帐务数据反映,且这类数据可以从平均水平和变动情况2个方面来反映。本挖掘分析采用离网时间前6个月,用户的帐务数据变化情况来反映用户消费行为的变动。主要数据包括:用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费,以及用户平均月租费占总费用的比例、6个月总收入波动率(最大收入-最小收入)/平均收入)等3. 用户其他行为特征数据:如欠费时长、累计欠费金额等。2.2 数据准备数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应的处理。 首先按照选取的数据范围和变量生成数据,如下图结构:在Clemen

4、tine中对数据进行实例化分析,数据结果如下所示此部分数据来自于97系统用户资料,经检测,除入网时长外,这些数据准确度较高,无缺失值和偏差值。从上图可看出,入网时长取值范围为6个月到24071个月,很明显,存在错误数据。故将超过入网时长在180个月(15年)以上的用户(共3314个),定义为入网时长180个月。因总数据量大,此操作直接在数据库中进行。主要包括:用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费,以及用户平均月租费占总费用的比例、6个月总收入波动率(最大收入-最小收入)/平均收入)等。经数据质量核查,发现有部分用户6个月收入都为0。这些数据(共88322条记录)中,绝大

5、部分是由于97、计费系统资料不统一造成,少量是由于用户长期欠费,造成停机,不产生费用。这些数据由于特征值相同,对模型会造成偏差影响,故直接删除这些数据。如欠费时长、累计欠费金额等,经核查,数据较准确,不进行任何处理。进行上述处理后,数据质量报告如下:2.3 建立模型在建立模型过程中,将根据实际模型的效果对变量做进一步的筛选和处理,既保证模型准确率,又尽量减少最终模型输入的变量,便于业务解释。离网预测模型的准确率,在技术上主要包含预测命中率和预测覆盖率2个指标。其中,预测命中率表示在被预测出离网的客户当中,实际离网所占的比率,它是描述模型精确性的指标;预测覆盖率表示在实际离网客户中,被预测出为离

6、网的客户所占的比率,它是描述模型普适性的指标。从业务的角度来说,对离网用户的预测是尽可能地将存在离网倾向的后付费小灵通用户预测出来,以便能及时采取措施进行挽留。因此,要求在控制预测命中率的前提下尽量提高模型的预测覆盖率。2.3.1 变量筛选首先选择除主体产品实例标识、业务接入号、本地网代码、拆机标志外的所有字段作为模型的输入变量,拆机标志作为输出变量,类型节点定义如图:分别生成神经元网络、C5.0、Logistic回归模型,如图: 对生成的模型进行实际值和预测值比较,得出结果如下(图中纵坐标表示实际离网情况,横坐标表示预测离网情况):以上三个模型,命中率和覆盖率分别是:神经元网络模型:命中率:

7、79.01%,覆盖率:74.36%;C5.0模型:90.25%,覆盖率:84.02%;Logistic回归模型:79.36%,覆盖率:72.61%。从以上分析可以看出,这3种模型均达到较理想的状态,尤其是C5.0模型,命中率超过90%。但是模型中用到了所有的变量,不利于业务理解和解释,对这三种模型进行详细分析,进行变量筛选: 神经元网络变量关联度图: Logistic回归关联图:C5.0模型树: 对三种模型中,变量关联度与重要性进行筛选,最终确定以下变量作为最终模型变量:“碧芝”隶属于加拿大的公司。这家公司原先从事首饰加工业,自助首饰的风行也自西方,随着人工饰品的欣欣向荣,自制饰品越来越受到了

8、人们的认同。年碧芝自制饰品店在迪美购物中心开张,这里地理位置十分优越,交通四八达,由于是市中心,汇集了来自各地的游客和时尚人群,不用担心客流量问题。迪美有多家商铺,不包括柜台,现在这个商铺的位置还是比较合适的,位于中心地带,左边出口的自动扶梯直接通向地面,从正对着的旋转式楼拾阶而上就是人民广场中央,周边、条地下通道都交汇于此,从自家店铺门口经过的的顾客会因为好奇而进看一下。入网时长、定购增值业务个数、是否加入套餐、平均月租费、平均月租费占比、平均市话费、平均长话费、平均IP长话费、总收入波动率。2.3.2 建立模型和模型参数调整过程以筛选后的变量作为输入,分别建立神经网络模型、C50模型和Lo

9、gistic回归模型。类型节点定义如下:(二)大学生对DIY手工艺品消费态度分析神经网络模型评估:关于DIY手工艺制品的消费调查命中率:70.62%;覆盖率:80.19%C5.0模型评估:86.33%;84.60%据上述部分的分析可见,我校学生就达4000多人。附近还有两所学校,和一些居民楼。随着生活水平的逐渐提高,家长给孩子的零用钱也越来越多,人们对美的要求也越来越高,特别是大学生。他们总希望自己的无论是衣服还是首饰都希望与众不同,能穿出自己的个性。但在我们美丽的校园里缺少自己的个性和琳琅满目的饰品,所以我们的小饰品店存在的竞争力主要是南桥或是市区的。这给我们小组的创业项目提供了一个很好的市

10、场机会。Logistic回归模型评估:70.18%;87.02%1 www。cer。net/artide/2004021313098897。shtml。从以上建立模型的过程中发现,不同的模型达到的准确率(命中率和覆盖率)都比较高,能够达到业务上的要求。实际应用中,可以根据具体需要选择使用不同的模型。2.4 2.5 图1-1大学生月生活费分布模型评估加拿大公司就是根据年轻女性要充分展现自己个性的需求,将世界各地的珠类饰品汇集于“碧芝自制饰品店”内,由消费者自选、自组、自制,这样就能在每个消费者亲手制作、充分发挥她们的艺术想像力的基础上,创作出作品,达到展现个性的效果。从技术角度来看,建立的神经网

11、络模型、C50模型和Logistic回归模型中,C5.0模型的综合准确率最高,但是与其它模型的准确率相比并无大的差异。从业务角度来看,由于目前竞争激烈,小灵通用户是企业利润的关键,业务人员最关注的是能够尽可能多地获取可能离网的小灵通用户的信息,即要求预测模型的覆盖率尽可能高,其次的要求才是保证模型的命中率。2、你大部分的零用钱用于何处?因此,在实际应用过程中,可以将利用神经网络、C50、Logistic回归模型预测出的离网用户,都作为可能离网的用户,以尽量提高模型的覆盖率。从模型评估结果来看,模型的覆盖率达到了87.02,而模型的命中率也达到了86.33。2.6 结果发布4 WWW。googl

12、e。com。cn。 大学生政策 2004年3月23日结果部署的目标是将预测模型生成的结果以一定的形式展现给业务人员使用。因此,应当从业务的角度来关注模型发布的形式。2、消费者分析后付费小灵通用户离网预测模型的预测结果主要包括:给出具体的离网用户的名单;针对预测出可能离网的用户,给出其离网可能性的量化指标,即离网概率。这些结果是针对单个用户的,可以以列表的形式提供给业务人员,采取一对一的服务。如果是采用决策树(C50)算法建立模型,还可以得到离网用户的特征描述。但由于其中特征描述是以规则的形式表现的,过于技术化,很难从业务角度加以理解和解释,也不适合业务人员获取真正的离网用户的特征信息。因此,在

13、分析离网用户特征时,考虑以预测出的离网用户为研究对象,将输入模型的变量作为分析角度,利用多维联机分析处理(MOLAP)技术辅助业务人员获取离网用户的群体特征,得出定性的结论,从而采取有针对性的挽留措施。2.7 总结本文遵循数据挖掘标准流程(CRISPDM),介绍了后付费小灵通离网预测模型的建立过程。建立的预测模型的准确率能够满足业务人员的需求,但是仍存在一定的局限性。一方面,在数据准备过程中,将满足条件的数据随机地拆分成了训练集和检验集。训练集用于模型的训练,而检验集用来判断模型效果的好坏。但是在模型评估中并未对模型进行脱离本次抽取数据的预测。另一方面,模型建立的基本假设不考虑季节性、竞争对手营销措施等外部因素对模型稳健性的影响,这也是一个局限。因此,未来的工作应主要关注以下几个方面:一是在数据准备过程中,除了训练集和检验集的数据外,还应准备专门的独立评估数据,以便对模型效果进行更全面的评估;二是由于用户的通话行为可能存在季节性的波动,因此,考虑增加外部因素作为模型的输入变量,以增强模型的稳健性。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1