一种确定客户流失的方法和系统Word下载.docx
《一种确定客户流失的方法和系统Word下载.docx》由会员分享,可在线阅读,更多相关《一种确定客户流失的方法和系统Word下载.docx(10页珍藏版)》请在冰豆网上搜索。
1.决策树算法,这样的系统架构相对简单,系统整体运行效率易于保障。
2.神经网络算法
3.逻辑回归算法
3.以因果关系推理的方式推导出现有技术的缺点是什么?
下面分别对上面提到的三类方案分析各自的不足:
1.决策树算法
4.本发明技术方案的详细阐述,应该结合流程图、原理图、电路图、时序图进行说明
4.1客户流失预警系统的架构
广电行业客户流失预警系统的目标是通过客户的缴费信息和客户属性信息等,对客户在未来一段时期发生流失的概率进行预测,并结合实际运营情况实施营销手段,统一实现客户挽留管理工作。
客户流失预警系统的核心技术是数据挖掘技术,其体系架构融合于数据仓库架构之中(图4.1)。
客户流失预警系统充分利用BOSS系统产生的大量宝贵的数据资源,结合相关支撑系统提供的信息,构建经营分析中心和分析挖掘使用平台,从而对信息进行智能化加工、处理,并最终为市场决策管理者和市场经营工作提供及时、准确、科学的辅助决策依据。
图4.1客户流失预警系统典型架构
客户流失模型的数据主要来源于两个,一是数据仓库,这部分接口数据是必要的,另一个是BOSS等支撑系统,这部分接口数据是可选的。
基于此,客户流失预警系统架构包含3层:
●DMW层:
客户流失模型每月从数据仓库底层(ODS)和轻度汇总层(DW)抽取所需要的数据,存放在DMW层,DMW层的每个表都以“DMW_”开头;
●DM层:
客户流失模型根据多个月DMW层中的数据,制作成分析宽表,以备数据挖掘模型使用,并可以存储BOSS等支撑系统对预测用户的关怀活动反馈结果,以备挖掘模型优化时使用。
DM层中的每个表都以“DM_”开头;
●分析层:
通过分析层建立数据挖掘模型,并进行不断评估和调试;
最后市场部根据数据挖掘的结果配置挽留策略后,最终将客户信息显示到应用操作平台。
在建设客户流失预警系统的整个过程中包括两个关键环节:
●一是客户流失预警模型的建立,是项目的核心部分,需要根据业务需求不断调试;
●二是数据挖掘成果应用的组织与管理实施,此乃项目的关键与成功保障。
在完成第一个关键环节建设之前,广电运营商需要已经建立比较完备的数据仓库系统,因为一个真正意义的数据挖掘应用系统是以数据仓库建设为基础的。
4.2客户流失模型
本发明的目的是为了更好的解决目前广电行业客户流失情况,克服现有技术存在的问题而提供一种确定广电客户流失分析方法及系统。
为此,本发明实施提供如下技术方案,,该方案可通过如下步骤来描述,如图4.2所示:
1.根据广电行业商业理解和业务需求,确定客户流失分析的主题。
2.根据客户流失分析的主题,收集一个时间窗口内的原始运营数据,构建面向主题的数据集市。
3.基于上述的数据集市,提取流失变量,建立建模所用的训练数据集、测试数据集和预测数据集。
4.基于客户流失分析的主题,运用数据挖掘工具R,建立逻辑回归模型。
5.利用逻辑回归模型计算客户流失概率及客户流失状态。
6.利用测试数据集和预测数据集分别检验和评估逻辑回归模型。
7.拓展该方法,构建预测每个月对应的客户流失模型,实现精细化预测。
8.模型进一步拓展,基于步骤7和重采样(Bootstrap)方法,构建综合预测的客户流失模型,简化实际操作的难度。
9.发布模型及模型应用的结果。
图4.2客户流失模型实施流程图
其中步骤1所述的客户流失分析主题主要包括:
客户流失的定义、流失模型的目标变量的确定、流失客户的特征分析、客户流失概率的计算和客户流失的原因分析。
其中步骤2所述进一步包括:
●时间窗口的确定
本发明选取样本容量总体涉及时间段为2011年1月1日到2012年12月31日尼日利亚的历史数据进行客户流失预测建模,其中进行数据挖掘建模的时间窗口设置如图4.3。
图4.3时间窗口
历史数据窗口:
作为从数据集市中获取训练数据集或预测数据集的区间,该窗口内的数据集为模型输入变量,该窗口跨度为12个月;
观察窗口:
作为实际运营操作的一个等待准备时间,该窗口跨度为1个月;
预报窗口:
作为客户流失分析的目标区间,该窗口跨度为1个月。
●抽样比例的确定;
●样本容量的确定;
●从数据仓库选择、收集与客户流失运营相关的原始数据字段,其主要包括客户的缴费行为数据。
其中所述步骤3包括:
●根据步骤2抽取的运营相关的原始数据字段,生成用于流失分析的衍生变量;
所提取的流失变量主要是:
月均停断时长、月均在线时长、月均ARPU值、月均缴费金额、缴费次数、换包次数、入网时长和当月节目包的类型;
●数据预处理。
所述数据预处理是为了对数据进行清理、集成和标准化,其主要包括缺失数据处理和数据“最小—最大”标准化。
●训练数据集和测试数据集构建
●形成建模挖掘宽表。
●预测数据集构建;
其中所述步骤4进一步包括:
●指标特征化和提取;
所述指标特征化和提取指为了减少变量间的冗余而进行流失变量筛选,其主要将相关系数分析和基于AIC准则的逐步回归分析方法进行了对比分析;
●建立目标变量和流失变量之间的逻辑回归模型。
其中所述步骤5是指将测试数据集和预测数据集分别代入已经训练好的逻辑回归模型,计算客户的流失概率,并根据一定的准则确定客户流失状态。
其中所述步骤6进一步包括:
●模型评估指标的确定;
●模型的检验包括检验弃真错误、存伪错误。
其中所述步骤7指根据时间窗口的移动,所建立的逻辑回归模型会有所不同,但方法原理是一致的,可通过移动时间窗口继续拓展,精确建立预测每个月对应的客户流失模型。
其中所述步骤8指根据步骤7所得到的每个月对应的客户流失模型,对其参数采取重采样(Bootstrap)方法,对流失模型进行改进,构建综合预测每个月的客户流失模型。
其中所述步骤9包括调用存储过程,将优选的逻辑回归模型写入模型库中,实现流失预警系统的规范化和自动化,并将预测结果反馈给相关部门做挽留工作;
与现有技术相比,本技术方案提供了变量的筛选的方法,提供了准确预测每个月对应的客户流失模型,同时为了简化实际操作的难度,还根据Bootstrap方法构建综合预测下个月的客户流失模型,增加了模型的准确性和可理解性,流失变量的选取具有广电行业的特色,从而能够实现现有技术不能解决的问题,为广电行业提出了一个解决客户流失问题的可行技术方案。
为了更清楚的说明本申请实施例或技术方案,下面结合附图和实施方式对本发明实施例进行进一步详细的说明。
具体过程如下:
(一)确定流失分析主题
确定流失分析主题:
根据企业的商业理解和业务需求为出发点,是数据挖掘的主要目标,决定了数据挖掘的实施方向。
所述客户流失分析主题主要包括客户流失的定义、流失模型的目标变量的确定、流失客户的特征分析、客户流失概率的计算和客户流失的原因分析等。
(二)数据准备,建立数据集市
根据客户流失分析的主题,收集一个时间窗口内的原始运营数据,构建面向主题的数据集市。
下面举例说明:
时间窗口的确定:
选取2011年5月至2012年4月
抽样比例的确定:
广电行业每月的客户流失率一般在1%~3%左右。
如果直接采用某种模型(比如Logistic回归模型、决策树、人工神经网络等)可能会因为数据概率太小或者使得样本比例严重偏倚而导致模型的失效,本文采用“重采样法(bootstrap)”把流失客户在总样本容量中的比例提高到10%。
样本容量的确定:
本文此次研究采用全数据模式,即样本容量确定为时间段2011年1月1日到2012年12月31日尼日利亚的全库所有历史数据。
从数据仓库选择、收集与客户流失运营相关的原始数据字段:
(三)建立训练数据集、测试数据集和预测数据集
流失变量特征提取:
测试数据集建立:
选取2011年5月至2012年4月的历史数据作为输入变量,同时依据客户流失定义计算2012年6月的客户流失状态作为目标变量,建立客户流失预测模型。
2011年5月至2012年4月的历史数据我们按照抽取样本的70%和30%分为训练集和测试集,其中训练集用来训练出流失模型,完成指标变量的筛选;
测试集用来验证以这批历史数据训练出来的模型的准确性,防止过度拟合。
预测数据集建立:
选取2011年6月至2012年7月的所有历史数据作为输入的指标变量,代入训练好的流失模型,预测2012年3月客户的流失状态;
2011年6月至2012年7月的所有历史数据我们称为预测数据集,其主要用来验证该流失模型的预测准确率、覆盖率和命中率。
(四)建立逻辑回归模型
逻辑回归模型的目标变量是分类的而不是连续的。
对于一个给定的客户我们用
表示流失客户,
表示未流失客户;
用
表示由4.4节筛选出来的7个指标:
月均停断时长(X_STOPDAYS)、月均ARPU值(X_AVG_ARPU)、月均缴费金额(X_AVG_PAYMENT)、缴费次数(X_PAY_CNT)、换包次数(X_CHANG_PKG_CNT)、入网时长(X_INNET_DAYS)和节目包类型(X_PKGTYPE)组成的向量。
假设
代表历史数据,
代表即将预测的数据,其中
是已知的,
是待预测的客户流失状态。
由此,根据历史数据我们建立的逻辑回归模型的数学表达式为:
(1)
(2)
其中
。
(3)
公式
(1)中
是逻辑回归后各个自变量的系数,其意义是指当自变量
每改变一个测量单位时所引起的对数的自然改变量,
代表截距。
公式
(2)表示某类客户的流失概率,其中
表示流失客户的概率,
表示未流失客户的概率。
本文借助数据挖掘工具R,首先通过历史数据算出
和
的极大似然估计
,得到逻辑回归方程
,然后将测试数据集或预测数据集的
代入该方程,通过公式
(2)计算出客户的流失概率。
根据业务理解和统计业务知识,我们规定
,代入公式(3),当计算出的概率大于0.5,即认为该客户在未来的预测时间段内会流失,则
;
反之则认为该客户在该时间段内不流失,则
由此,根据逻辑回归方法即可预测客户的流失状态。
对此下面举例说明逻辑回归模型的应用。
本文任意选取历史数据时间窗口为2011年5月到2012年4月,观察窗口为2012年5月,预报窗口为2012年6月的数据进行实例研究。
根据步骤三我们筛选出的指标变量为月均停断时长、月均ARPU值、月均缴费金额、缴费次数、换包次数、入网时长和节目包的类型。
以2012年6月客户的实际流失状态作为目标变量。
通过统计分析工具R即得到
,如图4.4所示。
图4.4数据挖R掘工具计算逻辑回归模型的系数
由此我们得到逻辑回归模型如下所示:
(4)
则
而且根据图4.4可知,每个指标变量都通过了P-检验(p<
0.0001)。
(五)模型的评估、检验与拓展
(六)模型的应用
客户流失模型的预测:
将选取好的时间窗口内的预测数据集代入建立好的逻辑回归模型(精细化预测每个月的逻辑回归模型或综合预测每个月的逻辑回归模型),得到客户的流失概率、描述性分析得出流失客户的特征等。
流失后分析:
根据流失客户的特征,挖掘深层次的客户流失的原因及不同细分客户群的流失情况。
(七)模型及应用结果的发布与系统管理实施
模型及应用结果的发布:
在系统应用操作平台发布客户流失模型及其应用的结果,包括流失客户的特征、客户流失概率、客户流失清单、客户流失原因及不同细分客户群的流失情况等。
系统管理实施:
客户流失预警系统设计了挽留管理工作的任务标准流程:
每月上旬由前端数据挖掘部门发布数据挖掘结果,市场部门针对挖掘的结果,进行挽留和营销策略的个性化配置;
业务管理部门将流失客户分组,售后团队与客服人员、运维人员协作完成具体的客户沟通、回访和营销工作。
客户流失预警任务每个月执行一次,从前端数据挖掘部门流经各个部门再返回,形成数据与管理的闭环,各角色人员按照相应的时间完成相应的任务。
5.本发明的关键点和欲保护点是什么?
●根据客户流失分析的主题,收集一个时间窗口内的原始运营数据,构建面向主题的数据集市。
●基于客户流失分析的主题,运用数据挖掘工具R,建立逻辑回归模型。
●基于AIC准则筛选流失变量,减少变量之间的冗余,提高模型准确性。
●构建预测每个月对应的客户流失模型,实现精细化预测。
●运用Bootstrap方法,对流失模型进行拓展,构建综合预测下个月的客户流失模型,可简化实际操作难度。
●基于数据仓库的可持续优化的客户流失预警系统架构。
6.用推理方式推导出本发明的优点
●通过使用AIC准则筛选流失变量,该方法简单直观,且易于执行。
●构建了预测每个月的客户流失模型,可实现精细化预测,同时基于此构建了综合预测下个月的流失模型,这样可简化实际操作的难度,实际实践具有针对性。
●综合本方案提出的方法和模型,给出基于数据仓库的客户流失预警系统,可实现易于扩展、高效经济的客户管理工作。
●建立了一种新的规范化、自动化的管理客户关系新模式。
7.针对4中的技术方案,是否还有别的替代方案同样能完成发明目的?