Angoss案例.docx

上传人:b****2 文档编号:24118263 上传时间:2023-05-24 格式:DOCX 页数:14 大小:263.48KB
下载 相关 举报
Angoss案例.docx_第1页
第1页 / 共14页
Angoss案例.docx_第2页
第2页 / 共14页
Angoss案例.docx_第3页
第3页 / 共14页
Angoss案例.docx_第4页
第4页 / 共14页
Angoss案例.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

Angoss案例.docx

《Angoss案例.docx》由会员分享,可在线阅读,更多相关《Angoss案例.docx(14页珍藏版)》请在冰豆网上搜索。

Angoss案例.docx

Angoss案例

索引

制造业案例分析

移动用户流失预测

时间序列预测

制造业案例分析

    在制造业这个分析例子,我们将会分析影响电器销售金额的背景信息,利用Angoss,我们会得到的结果是:

影响电器销售金额(高或低)的多种因素的组合描述。

在分析过程中,一个关键的目标因素:

电器销售金额(高或低)。

它由其他因数影响和决定。

我们的目标是识别引至当前电器销售金额(高或低)的因素组合,也就是找到哪些因素可以预测电器销售金额(高或低)。

我们可以通过收集以下数据:

销售渠道,管理中心,地区等引至当前电器销售金额(高或低)的因素。

共收集到143条记录(143个销售点数据)。

 

 

 

2004_01

渠道

管理中心

地区

销售金额

百货商场

北京管理中心

北京分公司

2,266,906

百货商场

北京管理中心

长春分公司

5,227,091

百货商场

北京管理中心

哈尔滨分公司

5,459,683

百货商场

北京管理中心

济南分公司

21,571,147

百货商场

北京管理中心

沈阳分公司

13,157,516

百货商场

北京管理中心

石家庄分公司

10,822,552

专业家电经销商

北京管理中心

天津分公司

10,682,145

百货商场

成都管理中心

成都分公司

5,820,735

百货商场

成都管理中心

贵阳分公司

3,359,360

百货商场

成都管理中心

昆明分公司

8,182,498

百货商场

成都管理中心

武汉分公司

13,255,061

百货商场

成都管理中心

重庆分公司

14,657,822

百货商场

惠州管理中心

长沙分公司

13,900,947

连锁客户

惠州管理中心

福州分公司

874,150

百货商场

惠州管理中心

广州分公司

25,783,446

百货商场

惠州管理中心

南昌分公司

8,375,662

--------

------------

----------

----------

    STEP1销售金额是在数据导入Angoss被选定为目标因素,也就是应变量(DV),其余变量为因变量(IV)。

根结点:

    根结点描述最基本的所有被分析的全体数据信息,这个节点是我们在数据集中找出关键相关因素的起始点。

在我们例子中,根结点表示,114条记录被收集,根据应变量:

销售金额的值,有95条记录67.4%跌入低销售额一类;43条记录,30.5%归入高销售额类。

其余为空记录,标识为other。

现在我们开始看看哪些因素与销售额高低有关。

STEP2在建立树菜单,或右击根节点。

选择寻找分支。

系统会产生如下的树图:

    寻找分支算法,寻找所有有可能性的相关因数和选出显示最显著相关的第一个因数。

换言之,Angoss检查所有可以描述low销售额和high销售额的因变量列和选出最佳解释销售金额高低的因素。

在我们例子,Angoss发现销售渠道因数是最能体现销售金额高低特征的途径。

换言之,销售渠道因数对于销售金额最有统计意义。

你可以看到总体数据根据渠道类型因数分成三类。

注意到连锁客户组,只有5.1%的销售点(3个)是高销售额,相反专业家电组,85.2%(23个)是高销售金额的个案。

STEP3为了进一步检验销售金额,我们继续分裂百货商场专卖店一组:

    我们发现不同城市的百货商店和专卖店销售额的高低成两极分化情形,图中每个城市各有两个百货商店或专卖店,27个城市只有5个城市的点是销售额的高低各占其一的,其余都是两个点同时高或者同时低。

但不是经济发达的城市他的销售金额就高,例如上海就全是低销售金额,与之较近的地区:

南京则刚好相反,都是高销售金额。

所以我们得出结论,百货商店和专卖店的销售业绩和当地的经济水平没有大的相关性,但与当地的消费习惯相关。

我们还可以在重整菜单选择:

跳到分支选项。

了解到所有因变量影响应变量相关显著度的排列,例如从下面的图看到渠道类型比管理中心的相关显著度高。

这点也是一般的统计分析报表工具不能做到的。

    这个例子为了简单说明,只用了数个因变量,实际应用上会加入各种因变量,使得分析更加精细。

例如地区人口,是否促销,竞争对手信息等。

这对于让决策者制订铺货策略,进销存计划等有很大的参考价值。

决策树是数据挖掘最常用的技术,哪么相对于一般的分析报表,突出特征有以下两点:

1.决策树:

他不是提供细节数据,而是通过算法得出各因变量与应变量的相关显著度的优先顺序。

被分析的数据有严格的角色分配,哪些是应变量,应变量中不同值的权重,哪些是因变量,因变量的显著性排列。

分析报表:

显示细节数据,各个变量都是平等的,可以任意分析观察。

2.决策树:

分析者观察结果是与分析过程互动的,决策树一步一步引导分析者了解数据间的关系。

观察数据的步骤是有序的。

分析报表:

分析者观察分析数据的行为是任意的,观察动作的前后关系是没逻辑的,他不需要理会那个因素重要而要先看,而是主观挑选其中的任一变量。

决策树还用在银行的信用值分析,医疗的病因分析,零售业的捆绑销售策略分析,电信移动的客户流失分析等广泛领域。

在数据挖掘没在大陆推广之前,会计分析和运筹学理论都已经有较深入的应用。

 

移动用户流失预测

    在竞争激烈的通信市场上,运营商正在为降低客户流失率而努力。

有效控制客户流失的关键在于如何对客户进行流失预测分析,就是利用数学模型,定时采集计费营帐系统中的客户消费行为、缴费行为等资料数据,将采集的相关数据与根据厉史经验设置相应的关键指标进行对比分析,根据分析的结果识别各种离网倾向,对有离网倾向的客户要及时向客户经理预警。

以往,当运营商月底拿到诸如“呼叫转移到其他运营商”的统计报表时,客户早已经流失了。

因此,统计分析报表只能得出经验数据,并不能做到实时的预警和控制。

以下为用决策树进行移动用户流失预测的流程:

Step1,我们收集以下数据,移动三个月的用户数据作为数据挖掘的基础,数据模型包括如下表的字段:

字段名称

字段定义

备注

移动号码varchar(15)

用户的移动手机号码

 

客户状态varchar(15)

 

 

通话总次数INTEGER

三月通话平均次数

 

通话总次数变化率decimal(10,4)

第三月通话次数与三月平均通话次数的比率

 

通话总时长INTEGER

三月通话平均时长

 

主叫次数INTEGER

三月通话平均主叫次数

 

主叫次数变化率decimal(10,4)

第三月用户主叫次数与三月平均主叫次数的比率

 

主叫时长INTEGER

三月平均主叫时长

 

被叫次数INTEGER

三月平均被叫次数

 

被叫时长INTEGER

三月平均被叫时长

 

呼转次数INTEGER

三月平均呼转次数

 

呼转次数变化率decimal(10,4)

第三月呼转次数与三月平均呼转次数的比率

 

呼叫对手客服总次数INTEGER

三月平均呼叫对手服务次数

 

短信次数INTEGER

三月平均短信次数

 

应收费用decimal(10,2)

三月平均应收费用

 

应收费用变化率decimal(10,4)

第三月应收费用与三月平均应收费用的比率

 

信息费decimal(10,2)

三月平均信息费

 

新业务费decimal(10,2)

三月平均新业务费

 

优惠金额decimal(10,2)

三月平均优惠金额

 

长话费decimal(10,2)

三月平均长话费

 

市话费decimal(10,2)

三月平均市话费

 

市话费变化率decimal(10,4)

第三月市话费与三月平均市话费的比率

 

漫游费decimal(10,2)

三月平均漫游费

 

欠费金额decimal(10,2)

三月平均欠费金额

 

欠费金额变化率decimal(10,4)

第三月欠费金额与三月平均欠费金额的比率

 

客户类型varchar(15)

第三月客户类型

 

预存款decimal(10,2)

三月平均预存款

 

在网时长INTEGER

第三月在网时长

 

年龄INTEGER

第三月年龄

 

性别varchar(15)

 

 

用户状态varchar(15)

第三月用户状态

 

用户流失变量INTEGER

本月用户是否流失(0-没有流失,1-已流失)。

在本次挖掘中定义前三个月有通话行为,而本月没有通话行为的用户为流失用户。

如在1,2,3月有通话行为而在4月没有通话行为。

用户流失状态的确定非常困难,在实际的应用中需要反复的测试。

套餐类型varchar(15)

第三月套餐类型

 

    并非所有的用户数据都要在数据挖掘中使用,一些用户的数据需要删除。

由于我们是以三个月的数据作为基础,那么在这三个月中的新入网用户没有必要进行分析挖掘需要删除;三个月中用户的使用总次数为0的零次用户需要删除,这些用户可以确定是停机保号用户或者是已经流失的用户,由于没有通话行为也没有必要进行数据挖掘;剩下的用户是入网时长大于4个月并且在前三个月有通话行为的用户。

用户流失变量,即用户是否流失的确定很困难,在本次挖掘中定义前三个月有通话行为,而本月没有通话行为的用户为流失用户,如在1,2,3月有通话行为而在4月没有通话行为。

收集和取样后得到4026个记录。

92%,3702个个案是在网客户;8.0%,324个个案是离网客户。

    我们让系统自己寻找第一影响流失的因素:

    发现:

欠费金额变化率(第三月欠费金额与三月平均欠费金额的比率)在29个因变量中是最对留失与否有统计意义的。

我们发现欠费金额下降和轻微增加的用户流失的人数占44%,也就是说这部分人会有约一半的人流失。

但总体人数不多,我们来看整体人数最多的右边节点,有3897人,他们都是这个月的欠费金额变化率较大,或者是历史没欠费,这月才有欠费,这部分流失的可能性只有6.7%。

为什么会出现这种情形呢,我们再让系统寻找第二个重要因素:

    其本上是:

预存话费越低,就越容易流失(23.4%),但是觉得有趣的是,最右边的那个节点,是预存款最多的一群人,他们的流失率,又略为回升(5.7%),我们可以再深入分析:

    发现受到短信次数,市话费,性别等因素影响。

类似地我们作出更多的分支,找出相关因素。

最后我们得到预测客户流失的规则组。

例如得出:

    呼叫对手客服总次数,237

    在网时长,[3,35)

    市话费变化率,[-0.516100,90000]

    短信次数,[71,2193]

    预存款,[136.410000,9877.610000]

    欠费金额变化率,[1.333300,90000]

    符合这组规则的用户,最容易流失。

    漫游费=[0,0.300000)

    呼叫对手客服总次数=0or1

    在网时长=[3,35)

    市话费变化率=[-0.516100,90000]

    短信次数=[71,2193]

    预存款=[136.410000,9877.610000]

    欠费金额变化率=[1.333300,90000]

    符合这组规则的用户,最不容易流失。

    我们可以用SQL在紧接下来的被预测的用户数据库中找出这些用户:

    select*fromtable

    where

    (

    ((漫游费>=0)and(漫游费<0.300000))

    )and(

    呼叫对手客服总次数=0or

    呼叫对手客服总次数=1

    )and(

    ((在网时长>=3)and(在网时长<35))

    )and(

    ((市话费变化率>=-0.516100)and(市话费变化率<=90000))

    )and(

    ((短信次数>=71)and(短信次数<=2193))

    )and(

    ((预存款>=136.410000)and(预存款<=9877.610000))

    )and(

    ((欠费金额变化率>=1.333300)and(欠费金额变化率<=90000))

    );

时间序列预测

    时间序列预测对象形式是一有规则的空间序列,通常以是时间为刻度的序列。

调整你的数据按照时间刻度进行排列,是进行时间序列预测的必要条件。

当你要预测的期数越远,你所准备的历史数据要越长。

这才能提高预测的准确性。

缺失值,缺失值如果出现在序列的头或尾,问题还不大,但出现在序列中,建议通过前后值虚拟一个值补充,例如,上年10月的数据缺失了,可以观察9月和11月的数据来拟合。

自回归算法(withtheexactmaximum-likelihood)和ARIMA在运算过程中会处理缺失值,其余的算法要手工处理缺失值。

拟合,建模,预测时间序列是主要的过程,得到的结果是新的一条包含预测值的序列和误差序列时间序列预测是一个互动的过程。

你通常要检验当前的结果再做下一步。

为了提高预测精度,反复调整参数和算法,多次运算是常做的工作。

下面的例子,通过最后一列71年1月到91年12月Vehicles汽车数量,预测第4列Petrol石油的用量,我只预测一期:

92年1月的石油用量。

它的预测值受到Petrol石油71年1月到91年12月自身的自回归影响和71年1月到91年12月Vehicles汽车数量的相关影响。

    选择算法:

    定义变量:

    设置预测期数:

    设置周期:

    生成新的预测序列PretrolPrediction:

    和时间序列图:

    红线为历史值。

绿线为预测值。

虚线为正负95%置信域。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1