特征选择方法在建模中的应用Word格式文档下载.docx
《特征选择方法在建模中的应用Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《特征选择方法在建模中的应用Word格式文档下载.docx(18页珍藏版)》请在冰豆网上搜索。
特征选择节点可对成百乃至上千个预测变量进行的字段。
特征选择节点可对成百乃至上千个预测变量进行筛选、排序,并选择出可能是最重要的预测变量。
最后,筛选、排序,并选择出可能是最重要的预测变量。
最后,会生成一个执行地更快且更加有效的模型此模型使用较会生成一个执行地更快且更加有效的模型此模型使用较少的预测变量,执行地更快且更易于理解。
少的预测变量,执行地更快且更易于理解。
案例中使用的数据为“上海高中生家庭教育的调案例中使用的数据为“上海高中生家庭教育的调查”,包含有关该查”,包含有关该CY二中的二中的304名学生参与环保活动名学生参与环保活动的信息。
该数据包含几十个的字段(变量),其中有学生的信息。
该数据包含几十个的字段(变量),其中有学生年龄、性别、家庭收入、身体状况情况等统计量。
其中有年龄、性别、家庭收入、身体状况情况等统计量。
其中有一个“目标”字段,显示学生是否参加过环保活动。
我们一个“目标”字段,显示学生是否参加过环保活动。
我们想利用这些数据来预测哪些学生最可能在将来参加环保活想利用这些数据来预测哪些学生最可能在将来参加环保活动。
动。
案例关注的是学生参与环保活动的情况,并将其案例关注的是学生参与环保活动的情况,并将其作为目标。
案例使用作为目标。
案例使用CHAID树构建节点来开发模型,用树构建节点来开发模型,用以说明最有可能参与环保活动的学生。
其中对以下两种方法以说明最有可能参与环保活动的学生。
其中对以下两种方法作了对比:
作了对比:
不使用特征选择。
数据集中的所有预测变量字段不使用特征选择。
数据集中的所有预测变量字段均可用作均可用作CHAID树的输入。
树的输入。
使用特征选择。
使用特征选择节点选择最佳的使用特征选择。
使用特征选择节点选择最佳的4个预测变量。
然后将其输入到个预测变量。
然后将其输入到CHAID树中。
树中。
通过比较两个生成的树模型,可以看到特征选择如通过比较两个生成的树模型,可以看到特征选择如何产生有效的结果。
何产生有效的结果。
CHAID或卡方自动交互效应检测是一种通过使用卡或卡方自动交互效应检测是一种通过使用卡方统计量识别最优分割来构建决策树的分类方法。
方统计量识别最优分割来构建决策树的分类方法。
CHAID首先检查每个预测变量和结果之间的交首先检查每个预测变量和结果之间的交叉列表,然后使用卡方独立性测试来检验显著性。
如果以叉列表,然后使用卡方独立性测试来检验显著性。
如果以上多个关系具有显著的统计意义,则上多个关系具有显著的统计意义,则CHAID将选择最重将选择最重要(要(p值最小)的预测变量。
如果预测变量具有两个以上值最小)的预测变量。
如果预测变量具有两个以上的类别,将会对这些类别进行比较,然后将结果中未显示的类别,将会对这些类别进行比较,然后将结果中未显示出差异的类别合并在一起。
此操作通过将显示的显著性差出差异的类别合并在一起。
此操作通过将显示的显著性差异最低的类别对相继合并在一起来实现。
当所有剩余类别异最低的类别对相继合并在一起来实现。
当所有剩余类别在指定的检验级别上存在差异时,此类别合并过程将终止。
在指定的检验级别上存在差异时,此类别合并过程将终止。
对于集合预测变量,可以合并任何类别;
对于有序集合预对于集合预测变量,可以合并任何类别;
对于有序集合预测变量,只能合并连续的类别。
测变量,只能合并连续的类别。
在一个空流工作区中,放置一个在一个空流工作区中,放置一个Statistics文件源节点。
将此节点指文件源节点。
将此节点指向案例数据文件“上海高中生家庭教育的调查”。
向案例数据文件“上海高中生家庭教育的调查”。
添加类型节点。
在其“类型”选项卡上,将变量“添加类型节点。
在其“类型”选项卡上,将变量“q23是否参与过环是否参与过环保活动”的方向更改为输出。
将学生保活动”的方向更改为输出。
将学生ID字段的方向更改为无。
将所有其他字字段的方向更改为无。
将所有其他字段的方向设置为输入。
段的方向设置为输入。
为流添加为流添加特征选择建模节点。
特征选择建模节点。
在此选项卡上,我在此选项卡上,我们指定要筛选的规们指定要筛选的规则和标准,或要筛则和标准,或要筛选的字段。
选的字段。
例如在重要例如在重要性指标中,我们可性指标中,我们可以设置“重要”的以设置“重要”的最小值及“一般重最小值及“一般重要”的最小值。
执要”的最小值。
执行流以生成特征选行流以生成特征选择模型块。
择模型块。
在模型管理在模型管理器中右键单击模型块器中右键单击模型块,选择浏览以查看结,选择浏览以查看结果。
果。
顶部面板显示顶部面板显示了所找到的对预测非了所找到的对预测非常有用的字段。
这些常有用的字段。
这些字段基于重要性排序。
字段基于重要性排序。
底部面板显示了从分底部面板显示了从分析中筛选出来的字段析中筛选出来的字段及筛选的原因。
及筛选的原因。
通过检查顶部通过检查顶部面板中的字段,可以面板中的字段,可以确定在随后的建模会确定在随后的建模会话中要使用哪些字段。
话中要使用哪些字段。
使用生成的特征使用生成的特征选择模型,将其添加到流选择模型,将其添加到流中,并将其与类型节点相中,并将其与类型节点相连接。
连接。
双击该节点并使双击该节点并使用模型浏览器以选择要在用模型浏览器以选择要在下游使用的字段。
虽然最下游使用的字段。
虽然最初已将初已将12个字段识别为个字段识别为重要字段和一般重要字段重要字段和一般重要字段,但我们希望进一步减少,但我们希望进一步减少预测变量集合的数目。
预测变量集合的数目。
使用复选标记选使用复选标记选中前中前4个预测变量:
个预测变量:
性别性别q17(加强环保意识教育(加强环保意识教育的重要性的重要性)q5(整理房间经常性(整理房间经常性)q3(征得父母同意?
(征得父母同意?
)目标变量及目标变量及4个预测变量的详细情个预测变量的详细情况况目标变量(应变量)目标变量(应变量)Q23.您有没有为保护环境做过什么事情?
您有没有为保护环境做过什么事情?
1.没有没有2.有(请注明)有(请注明)预测变量(自变量)预测变量(自变量)D1.您的性别是您的性别是1.男男2.女女Q3.您做学习之外的其它事情,是否需要征得父母同意?
您做学习之外的其它事情,是否需要征得父母同意?
1.总是总是2.经常经常3.有时有时4.偶尔偶尔5.从不从不Q5.您自己整理房间经常性如何?
您自己整理房间经常性如何?
1.总是总是2.经常经常3.有时有时4.偶尔偶尔5.从不从不Q17.您认为加强环保意识教育的重要性程度如何您认为加强环保意识教育的重要性程度如何?
1.非常重要非常重要2.比较重要比较重要3.一般一般4.不太重要不太重要5.一点也不重要一点也不重要为了比较结果,我们向流中添加两个为了比较结果,我们向流中添加两个CHAID建模节点:
一个建模节点:
一个模型使用特征选择,另一个模型不使用特征选择。
模型使用特征选择,另一个模型不使用特征选择。
将其中的一个模型连接到类型节点,另一个模型连接到已生成的将其中的一个模型连接到类型节点,另一个模型连接到已生成的特征选择模型。
特征选择模型。
在每个在每个CHAID节点上,选择节点设置中的启动交互会话节点上,选择节点设置中的启动交互会话选项。
以便展示模型的输出结果生长树及模型提升情况。
选项。
执行使用数据集中所有预测变量的执行使用数据集中所有预测变量的CHAID节点(即连接到类型节点的节点)。
节点(即连接到类型节点的节点)。
当节点执行时,注意观察执行节点所用的时间。
表会显示在结果窗口中。
从菜单中,选择树从菜单中,选择树生长树,可生成并显示展开的树。
生长树,可生成并显示展开的树。
对另一个对另一个CHAID节点(此节点仅使用节点(此节点仅使用4个预测变量)执行相同的操作,发现:
个预测变量)执行相同的操作,发现:
第二个模型的执行速度应比第一个模型快。
第二个树比第一个树包含的树节点也要少。
因此更易于理解。
但在决定使用此模型之第二个树比第一个树包含的树节点也要少。
但在决定使用此模型之前,需要查明此模型是否有效,并查明其与使用所有预测变量的模型相比较的结果。
前,需要查明此模型是否有效,并查明其与使用所有预测变量的模型相比较的结果。
打开树构建器后再次生成树。
在每个收益表中,都将其树的终端节点分组为四分位数。
要比较两个模型在每个收益表中,都将其树的终端节点分组为四分位数。
要比较两个模型的有效性,可查看每个表中的有效性,可查看每个表中25%分位数的提升(指数值)。
分位数的提升(指数值)。
包括所有预测变量时,模型显示提升值包括所有预测变量时,模型显示提升值170%。
即。
即,具有这些节点中的特征的学生,其响应目标参与环保互动,具有这些节点中的特征的学生,其响应目标参与环保互动的可能性是其他学生的的可能性是其他学生的1.7倍。
要查看这些具体特征,可单倍。
要查看这些具体特征,可单击以选定顶部的行。
然后切换到“查看器”选项卡,其中相击以选定顶部的行。
然后切换到“查看器”选项卡,其中相应的节点正以黑色突出显示。
沿树往下寻找每个突出显示的应的节点正以黑色突出显示。
沿树往下寻找每个突出显示的终端节点以查明这些预测变量是如何分割的。
终端节点以查明这些预测变量是如何分割的。
25%分位数分位数自身包括自身包括4个节点。
个节点。
如果仅包括前如果仅包括前4个预测变量(由特征选择识别),个预测变量(由特征选择识别),则提升值为则提升值为148%。
虽然此模型不如使用所有预测变量的。
虽然此模型不如使用所有预测变量的模型那样有效,但它无疑也是有用的。
并且此模型模型那样有效,但它无疑也是有用的。
并且此模型25%分分位数仅包括位数仅包括3个节点,因此它更简单。
因此,我们可以确定个节点,因此它更简单。
因此,我们可以确定特征选择模型比使用所有预测变量的模型更优