基于clementine的数据挖掘算法决策树.pptx

资源描述

基于clementine的数据挖掘算法决策树.pptx

《基于clementine的数据挖掘算法决策树.pptx》由会员分享，可在线阅读，更多相关《基于clementine的数据挖掘算法决策树.pptx（20页珍藏版）》请在冰豆网上搜索。

基于clementine的数据挖掘算法决策树.pptx

基于clementine的数据挖掘算法,章节安排,数据挖掘概述,决策树C5.0算法,算法,2,3,1,目录,数据挖掘方法论,步骤1,确定培训需求,步骤2,确定培训目标,步骤3,设计培训方案,步骤4,步骤5,落实培训成果,步骤5,落实培训成果,业务理解,数据理解,数据准备,建立模型,模型评价,模型应用,商业目的模型输出模型定义,列出指标评估数据质量,数据清洗指标筛选,选择算法建立模型,模型评估是否符合商业目的,将数据挖掘结果形成报告,CRISP-DM数据挖掘实施方法论帮助企业把注意力集中在解决业务问题上，它包括了六个步骤，涵盖了数据挖掘的整个过程。

本次培训内容,数据准备重要性分析,变量重要性分析，是去除变量冗余，是对变量的浓缩和提炼，保留对输出变量的预测有重要贡献的变量和样本，剔除不重要的变量和样本。

变量与输出变量、变量间的相关程度,从变量自身考察,变量重要性分析方法,变量值中缺失值所占比例分类变量中，类别个数占样本比例数值变量的变异系数数值型变量的标准差,输入、输出变量均为数值型：

做两个变量的相关性分析输入变量为数值型、输出变量为分类型：

方差分析（输出变量为控制变量、输入变量为观测变量）输入变量为分类型、输出为数值型：

方差分析（输入变量为控制变量、输出变量为观测变量）输入、输出变量均为分类型：

卡方检验,方差分析（AnalysisofVariance）是利用样本数据检验两个或两个以上的总体均值间是否有差异的一种方法。

在研究一个变量时，它能够解决多个总体的均值是否相等的检验问题；在研究多个变量对不同总体的影响时，它也是分析各个自变量对因变量影响程度的方法。

背景,原理与方法,组内离差平方和除以自由度-1,方差分析主要是通过方差比较的方式来对不同总体参数进行假设检验。

由于目标总体差异的产生来自两个方面，一方面由总体组间方差造成即指标的不同水平（值）对结果的影响，另一方面由总体组内方差造成即指标的同一水平（值）内部随机误差对结果的影响，如果某指标对目标总体结果没有影响则组内方差与组间方差近似相等，而如果指标对目标总体结果有显著影响，则组间方差大于组内方差，当组间方差与组内方差的比值达到一定程度，或着说达到某个临界点时就可做出待选指标对结果影响显著的判断。

组内离差平方和除以自由度n-1,：

表示第i组第j个值；：

表示第i组的均值；：

表示第i组数据个数；：

表示全体的均值；：

表示全体分组个数；,方差分析,例如：

调查学生学历对用户做某题的影响,场景一：

学历对做数学题的影响,场景二：

学历对做智力题的影响,可以看出学历对做数学题的影响显著但对做智力题的影响不明显,方差分析应用场景,1、提出基本的无效假设：

行分类变量与列分类变量无关联2、Pearson卡方统计量其中r为列联表的行数，c为列联表的列数，为观察频数，fe为期望频数。

其中，RT指定单元格所在行的观测频数合计，CT指定单元格所在列的观测频数合计，n为观测频数总计。

3、确定临界值显著性水平A，一般为0.05或0.01卡方观测值大于卡方临界值，拒绝零假设，变量间不独立卡方观测值小于卡方临界值，接受零假设，变量间独立,卡方检验,卡方检验两个分类变量的关联性，其根本思想就是在于比较理论频数和实际频数的吻合程度,卡方检验的一般流程：

卡方检验应用场景,667/934*258=184,267/934*255=73,场景：

分析终端类型对用户流失是否有影响：

原始数据表,期望数据表,1、H0：

终端类型与用户流失无关联2、Pearson卡方统计量：

3、确定临界值：

取，自由度n=（4-1）*（2-1）=3，查卡方分布临界值表得，临界值为7.81。

由于30.867.81因此拒绝零假设，终端类型与用户流失不独立，,章节安排,数据挖掘概述,决策树C5.0算法,算法,2,3,1,目录,决策树模型,常用的算法有CHAID、CART、Quest和C5.0。

对每个决策都要求分成的组之间的“差异”最大。

各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。

利用训练样本集完成决策树的建立过程分枝准则的确定涉及：

第一，如何从众多的输入变量中选择一个当前最佳的分组变量第二，如何从分组变量的众多取值中找到一个最佳的分割点,树剪枝的原因：

完整的决策树对训练样本特征的捕捉“过于精确”-过拟和常用的修剪技术：

预修剪：

用来限制决策树的充分生长。

事先指定决策树生长的最大深度事先指定树节点样本量的最小值后修剪：

待决策树充分生长完毕后再进行剪枝,决策树（DecisionTree）模型，也称规则推理模型通过对训练样本的学习，建立分类规则依据分类规则，实现对新样本的分类属于有指导（监督）式的学习方法，有两类变量：

目标变量（输出变量）属性变量（输入变量）,核心问题,信息量的数学定义：

信息熵是信息量的数学期望，是信源发出信息前的平均不确定性，也称先验熵。

信息熵的数学定义：

信息熵等于0，表示只存在唯一的信息发送可能，P（ui）=1，没有发送的不确定性；如果信源的k个信号有相同的发送概率，P（ui）=1/k，则信息发送的不确定性最大，信息熵达到最大P（ui）差别小，信息熵大，平均不确定性大；反之，差别大，信息熵小，平均不确定性小。

信息熵,信息熵在C5.0算法中的应用,设S是s个数据样本的集合。

目标变量C有m个不同值Ci（i1，2，m）。

设si中S属于Ci类的样本数,则集合S的信息熵定义为：

其中是任意样本属于Ci的概率。

设属性A具有v个不同值a1，a2，av。

可以用属性A将S划分为v个子集S1，S2，SV；其中，设sij是子集Sj中类Ci的样本数。

根据由A划分成子集的熵为：

其中，是第j个子集的权，是Sj中的样本属于类Ci的概率。

则属性变量A带来的信息增益为,C5.0算法应用场景,s14，目标变量“是否流失”有两个不同值，类C1对应于“是”，类C2对应于“否”。

则s19，s25，p19/14，p2=5/14。

1、计算对给定样本分类所需的期望信息：

2、计算每个属性的熵。

（1）先计算属性“年龄”的熵。

对于年龄“40”：

s13=3，s23=2，p13=3/5，p23=2/5，,场景：

利用决策树算法分析具有哪些特点的用户最可能流失：

如果样本按“年龄”划分，对一个给定的样本分类所需的期望信息为：

因此，这种划分的信息增益是Gain（年龄）=I（s1,s2）-E（年龄）=0.246

（2）以相同方法计算其他属性的增益得到Gain（出账收入）=I（s1,s2）-E（收入）=0.940-0.9110.029Gain（智能机）=I（s1,s2）-E（学生）=0.940-0.7890.151Gain（信用等级）=I（s1,s2）-E（信用等级）=0.940-0.8920.0483、得到较优的分类变量由于“年龄”属性具有最高信息增益，它被选作测试属性。

创建一个节点，用“年龄”标记，并对每个属性值引出一个分支,C5.0算法应用场景,年龄,=30,3040,40,表3,表1,表2,C5.0算法应用场景,对表1进行进行细分。

S5，设类C1对应于“是”，类C2对应于“否”。

则s12，s23，p12/5，p2=3/5。

1、计算对给定样本分类所需的期望信息：

2、计算每个属性的熵。

（1）先计算属性“出账收入”的熵。

对于收入“高”：

s110，s212，p11=0，p21=1，对于收入“中等”：

s12=1，s22=1，p12=1/2，p22=1/2,对于收入“低”：

s13=1，s23=0，p13=1，p23=0，如果按照出账收入”划分的信息增益是:

Gain（收入）=I（s1,s2）-E（收入）=0.971-0.40.571

（2）以相同方法计算其他属性的增益得到Gain（智能机）=I（s1,s2）E（智能机）=0.971-00.971Gain（信用等级）=I（s1,s2）-E（信用等级）=0.971-0.9510.023、得到分类变量：

由于“智能机”属性具有最高信息增益，它被选作测试属性）收入“低”：

s13=1，s23=0，p13=1，p23=0，,C5.0算法应用场景,同理，对表2进行计算。

得出属性“信用等级”具有最高信息增益，它被选作测试属性。

创建一个节点，用“信用等级”标记，并对每个属性值引出一个分支。

最终构造的决策树如下图所示）收入“低”：

s13=1，s23=0，p13=1，p23=0，,年龄,=30,3040,40,是,智能机,信用等级,否,是,是,否,否,是,一般,良好,C5.0算法应用场景,1、IF年龄“40”AND信用等级“良好”THEN是否流失“否”5、IF年龄“40”AND信用等级“一般”THEN是否流失“是”,C5.0算法应用场景,由决策树产生的分类规则,C5.0的剪枝算法,C5.0算法采用后剪枝：

1、按照剪枝标准，从叶节点向上逐层剪枝；2、利用统计学置信区间的方法，直接在训练样本集上估计误差；3、剪枝标准是减少误差,1,2,剪枝关键点,设第i个节点包含个样本，有个预测错误样本，则错误率，真实误差为，则错误率的置信区间为其中，为临界值，可得真实误差的估计上限,C5.0按照“减少误差（reduce-error）”法，判断是否剪枝：

k为待剪子树中叶节点的个数，pi为第i个叶节点所含样本占子树所含样本的比例，ei为第i个叶节点的估计误差，e为父节点的估计误差,误差估计,剪枝标准,取置信度为75%，则，查标准正态分布表得，分别估计3个节点的误差：

加权求和：

C节点的误差估计：

由于0.50.6，可剪掉叶节点E、F、G,图中第一个数字是本节点所含样本量N，第二个数为错判样本数E,剪枝算法应用场景,场景：

能否剪掉C节点下的3个叶节点（E、F、G）：

展开阅读全文