电信业客户分类多项 和二项Logistic 回归Word格式.docx

上传人:b****5 文档编号:15950383 上传时间:2022-11-17 格式:DOCX 页数:15 大小:441.66KB
下载 相关 举报
电信业客户分类多项 和二项Logistic 回归Word格式.docx_第1页
第1页 / 共15页
电信业客户分类多项 和二项Logistic 回归Word格式.docx_第2页
第2页 / 共15页
电信业客户分类多项 和二项Logistic 回归Word格式.docx_第3页
第3页 / 共15页
电信业客户分类多项 和二项Logistic 回归Word格式.docx_第4页
第4页 / 共15页
电信业客户分类多项 和二项Logistic 回归Word格式.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

电信业客户分类多项 和二项Logistic 回归Word格式.docx

《电信业客户分类多项 和二项Logistic 回归Word格式.docx》由会员分享,可在线阅读,更多相关《电信业客户分类多项 和二项Logistic 回归Word格式.docx(15页珍藏版)》请在冰豆网上搜索。

电信业客户分类多项 和二项Logistic 回归Word格式.docx

标签

1

基本服务

2

电子服务

3

附加服务

4

全套服务

因为目标含有多个类别,因此将使用多项模型。

如果目标含有两个截然不同的分类,例如是/否,真/假,或流失/保持,则会转而创建二项模型。

请参阅电信客户流失(二项Logistic回归)详细信息。

►在Demos文件夹中添加指向telco.sav的SPSS文件源节点。

►添加一个用来定义字段的类型节点,读取值,确保所有类型均设置正确。

例如,可以将值为0和1的大多数字段视为标志字段,但对于某些字段(如性别),将其视为具有两个值的集合字段更为准确。

提示:

要更改具有相似值(如0/1)的多个字段,请单击值列标题,以便按值对字段进行排序,然后按住Shift键的同时使用鼠标或箭头键选择所有要更改的字段。

然后您可以右键单击这些选择,以更改所选字段的类型或其他特性。

因为将性别视为集合比视为标志更精确一些,所以请单击其“类型”值,然后将其更改为集合。

►将客户类别custcat字段的方向设置为输出。

所有其他字段的方向都应设置为输入。

因为此示例主要关注人口统计,所以请使用过滤节点以选取相关字段(地区、年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别)。

其他字段可以排除在此分析之外。

(另外,您可以将这些字段的方向更改为无,而不要排除这些字段,或者选择要在建模节点中使用的字段。

►在Logistic节点上,单击模型选项卡并选择逐步法。

选中多项、主效应和将常量纳入方程式。

将目标的底数类别保留为1。

模型将对其他客户与预订基本服务的客户进行比较。

►在“专家”选项卡上,选中专家模式,选中输出,然后在“高级输出”对话框中选中分类表。

►运行节点以生成模型,该模型会添加到右上角的模型选项板中。

要查看其详细信息,请在生成的模型节点上用右键单击并选择浏览。

“模型”选项卡中显示了用于将记录分配到目标字段的每个类别的方程式。

因为共有四个可能的类别,而其中之一是底数类别,因此选项卡中有三个方程式,其中类别3表示附加服务,等等。

“汇总”选项卡显示了(包括其他内容)模型中使用的目标字段和输入字段(预测变量字段)。

注意,这些字段是根据逐步法实际选择出来的字段,不是为进行分析而提交的完整列表。

“高级”选项卡上显示的项目取决于在建模节点的“高级输出”对话框中选中的选项。

其中通常显示的一个项目是观测值处理概要,它显示了落在目标字段每个类别中的记录的百分比。

这将生成一个空模型用作比较的基础。

在不构建使用预测变量的模型的情况下,最好的预计结果可能是将所有的客户分配到最普通的组3(附加服务组)中。

如果基于训练数据将所有客户分配到空模型,则得到的正确率将是281/1000=28.1%。

“高级”选项卡还包括其他信息,使您能够检查模型的预测。

然后,可将这些预测与空模型的结果相比,以查看使用此数据的模型的执行效果。

在“高级”选项卡底部,分类表显示了此模型的结果,其正确率为39.9%。

特别是,此模型在识别全套服务客户(类别4)时表现优异,而在识别电子服务客户(类别2)时表现很差。

如果想提高预测类别2中客户的准确性,可能需要再找到一个预测变量来识别此类客户。

依赖于您所期望的预测,模型可充分满足您的需求。

例如,如果您对识别类别2中的客户并不关心,那么该模型的准确性足以满足需求。

这种情况可能是,电子服务仅是一种为吸引顾客而出售且获利微薄的产品。

例如,如果投资的最高回报来自于落在类别3或类别4中的客户,则该模型能够提供所需的信息。

当构建模型时,可使用“高级输出”对话框中的大量诊断信息来评估模型实际拟合数据的程度。

请参阅Logistic回归模型高级输出详细信息。

Clementine中用到的建模方法的数据原理的说明在《Clementine算法指南》中列出,该指南位于任何ClementineClient安装软件的文档目录下;

也可以通过从Windows的“开始”菜单下选择Start>

文档来访问此文档。

还请注意,这些结果仅基于训练数据产生。

要评估模型对实际应用中的其他数据的拟合程度,可使用分区节点保留部分记录,以便于测试和验证。

请参阅分区节点详细信息。

电信业客户分类(二项Logistic回归)

此示例使用名为telco_churn.str的流,此流引用名为telco.sav的数据文件。

文件telco_churn.str位于Classification_Module目录下。

例如,假设某个电信服务提供商非常关心流失到竞争对手那里的客户数。

如果可以使用服务使用数据预测有可能转移到其他提供商的客户,则可通过定制服务使用数据来尽可能多地保留这些客户。

本示例将焦点集中于利用使用数据预测客户的丢失(流失)。

因为目标含有两个截然不同的类别,因此将使用二项模型。

如果目标中含有多个类别,则会转而创建多项模型。

请参阅电信业客户分类(多项Logistic回归)详细信息。

►添加类型节点以定义字段,读取值,确保所有类型都已正确设置。

例如,值为0和1的大多数字段都可看作是标志字段,但对于某些字段,例如性别,则将其看作是含有两个值的集合字段会更准确些。

要更改具有类似值(例如0/1)的多个字段的属性,可单击值列标题以便按值对字段进行排序,然后在使用鼠标或箭头键时按住Shift键以选定所有要更改其属性的字段。

然后可以右键单击选定的内容以更改选定字段的类型或其他属性。

因为将性别看作集合而不是标志会更准确,所以可单击该字段的类型值并将其更改为集合。

►将流失字段的类型设置为标志,并将其方向设置为输出。

所有其他字段的方向应设置为输入。

►将特征选择节点添加到SPSS文件节点并运行。

通过使用特征选择节点,对于不能为预测变量/目标之间的关系添加任何有用信息的预测变量或数据,可以将其删除。

►将模型结果节点放入流程区,双击,从生成的模型节点中创建过滤节点。

不是telco.sav文件中的所有数据都对预测客户流失有用。

可以使用过滤器仅选择被认为很重要的数据来用作预测变量。

►在“生成过滤”对话框中,选择所有标记的字段:

重要并单击确定。

►将生成过滤节点附加到类型节点。

►将数据审核节点附加到生成过滤节点,然后执行数据审核节点。

►在“数据审核”浏览器的“质量”选项卡上,单击%完成列以便按数值升序顺序对此列进行排序。

这样就可以识别所有含有大量缺失数据的字段;

在本示例中,唯一需要修改的字段是logtoll,其完成值比例小于50%。

►在logtoll的归因于缺失列中,单击指定。

►对于归因条件,选择空白值和Null值。

对于固定为,选择平均值。

选择平均值可确保归因值不会反过来影响总数据中所有值的平均值。

►在“数据审核”浏览器的“质量”选项卡上,生成缺失值超节点。

为完成此操作,可从菜单中选择以下项:

 

生成

缺失值超节点

在“缺失值超节点”对话框中,将样本大小增加到50%,然后单击确定。

此时超节点将显示在流工作区中,其标题为:

缺失值归因。

►将超节点附加到过滤节点上。

►将Logistic节点添加到超节点。

►在Logistic节点上,单击“模型”选项卡并选择二项过程。

在二项过程区域,选择前进法。

►在“专家”选项卡上,选择专家模式,然后单击输出。

此时显示“高级输出”对话框。

►在“高级输出”对话框中,选择“在每个步骤”作为显示类型。

选择迭代历史和参数估计,然后单击确定。

►运行Logistic节点以生成模型,该模型将添加到位于右上角的模型选项板中。

注意,这些字段是根据前进法实际选择出来的字段,不是为进行分析而提交的完整列表。

“高级”选项卡上显示的项目取决于在Logistic节点的“高级输出”对话框中选中的选项。

其中通常显示的一个项目是观测值处理概要,它显示了包括在分析中的记录数及百分比。

此外,在此汇总中还列出了其中有一个或多个输入字段不可用的缺失观测值的数目(如果有的话),及所有未选定的观测值数。

►向下滚动观测值处理概要以显示块0下的分类表:

起始块。

开始使用前进逐步法时会有一个空模型(即,没有预测变量的模型),可将此空模型用作与最终构建的模型进行比较的基础。

空模型按常规将所有值预测为0,因此空模型的准确性为72.6%,这仅仅是因为已正确预测到有726个没有流失的客户。

但是,根本没有正确预测到已流失的客户。

►现在向下滚动以显示块1(方法=前进逐步)下的分类表。

此分类表显示了模型在每个步骤中添加的预测变量。

在第一个步骤中(在仅使用了一个预测变量之后),模型预测流失的准确性就已从0.0%增加到29.9%。

►向下滚动到此分类表的底部。

分类表在步骤6之后结束。

在此步骤中,算法已确定不用再向模型添加任何其他预测变量。

虽然预测非流失客户的准确性有所下降,达到了90.6%,但预测已流失客户的准确性却从原来的0%上升到了47.1%。

这相比原来不使用任何预测变量的空模型其有效性显著提高。

对于希望减少流失的客户,能够将流失率减少接近一半将会成为保护其收入流的主要步骤。

注意:

此示例还显示出将总体百分比看作判断模型准确性的依据在某些情况下易引起错误。

原来空模型的总准确性为72.6%,而最终预测模型的总准确性为78.7%;

但是,正如我们所看到的,其实际单个类别的预测准确性的差别极大。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 外语学习 > 英语考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1