SAS决策树文档格式.docx
《SAS决策树文档格式.docx》由会员分享,可在线阅读,更多相关《SAS决策树文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
该数据集中有12解释变量用于建立决策树。
(一)建立决策树的变量要求
决策树的建立需要一个目标变量(响应变量),以及至少一个输入变量(自变量、解释变量)。
响应变量和解释变量的设置在输入数据源结点中设置。
(二)结点总揽
建立的决策树数据分析过程包括一下三个结点InputDataSource、DataPartition以及决策树结点,最终建立结果如图
(1):
图
(1)
(三)新建数据挖掘项目
1、SAS的命令窗口输入命令miner,进入数据挖掘窗口。
2、在菜单栏中选择文件—〉新建—〉项目,弹出新建数据挖据项目如图
(2)。
图
(2)
3、在Createnewproject窗口中点击Create按钮,进入newtree项目。
并为新的数据项目更名为:
TreeNode。
(四)建立输入数据源结点
添加一个输入数据源结点,为本次数据分析建立起数据源。
1.1.1增加一个InputDataSource结点,选择项目列表下方的Tools选项。
在列表中选择InputDataSource结点,点击鼠标左键将InputDataSource拖入右侧的工作空间。
1.1.2双击工作空间InputDataSource结点,进入InputDataSource的设置窗口。
1.1.3在InputDataSource设置窗口中的Data项中点击Select按钮,选择数据源。
进入选择SASDataSet窗口。
在Library项选择SAMPSIO—〉HMEQ。
如图(3)。
图(3)
1.1.4点击ok,回到InputDataSource设置窗口,选择Variables项,在variables项中找到BAD数据项,在BAD行ModelRole项上点击鼠标右键选择SetModelRole选项—〉Target项,如图(4)。
图(4)
1.1.5关闭InputDataSource设置窗口,并保存。
(五)建立DataPartition结点
DataPartition结点主要将元数据分为训练数据、验证数据和测试数据。
其中训练数据用于生成决策树轮廓,验证数据用于比较响应变量的观测值和预测值,而测试数据使用不多。
1.像拖入InputDataSource结点一样,将DataPartition从左侧列表框拖入右侧的工作平台。
2.建立InputDataSource结点和DataPartition结点之间的连接。
如图(5)。
图(5)
3.双击DataPartition图标,进入属性设置界面,设置属性如图(6)
图(6)
4.关闭该窗口,并保存。
(六)建立TreeNode结点
TreeNode节点是进行决策树分析的中心结点,对它的不同设置和操作将对数据集建立起不同的决策树模型。
1.像拖入InputDataSource结点一样,将Tree从左侧列表框拖入右侧的工作平台。
2.建立DataPartition结点和Tree结点之间的连接。
如图(7)。
图(7)
3.双击tree图标,进入相关属性设置界面,相关标签属性和设置介绍如下:
1)Data标签:
该标签中展示了前一结点数据集的名称和相关的描述,这些数据集包括训练数据和验证数据等。
如图(8)。
图(8)
2)Variables标签:
variables标签中可以看到观测数据集各数据项的相关情况,如图(9),
图(9)
A.在每一个标题头上点击鼠标左键,可以按该列对表格中各项进行排序。
B.其中可以在Status属性中列中单击鼠标右键选择SetStatus将Use状态更改为Don’tUse状态。
C.在ModelRole列点击鼠标右键选择edittargetprofile将变量进行目标变量和解释变量之间的转化。
3)Basic标签:
在Basic标签中,可以指定划分规则以及与决策树大小相关的各种参数值。
下面是一个有关Basic标签各项的一个展示如图(10)。
图(10)
A.其中划分规则(splittingcriteria)可以根据目标变量的度量方面进行选择。
对于定性或二进制的目标变量,可以选择以下划分规则:
◆检验(默认)——Pearson检验用于衡量对目标变量建立分支结点,其默认显著性指标为0.20。
◆熵值约简——通过对熵值大小的衡量反映结点不纯性也成为熵不纯性。
◆基尼系数约简——通过对基尼系数大小的衡量反映结点不纯性也成为Gini不纯性。
对于连续型目标变量,可以选择以下两种划分规则:
◆F检验(默认)——F检验的P值与结点一致性有关,默认显著性指标为0.20。
◆一致性约简——该约简基于结点的均方差检验。
本例中由于目标变量是家庭资产抵押贷款为二元变量,检验是一个比较合适的划分规则。
B.同时可以在Basic标签指定以下相关属性值:
∙Minimumnumberofobservationsinaleaf(default=1)
∙Observationsrequiredforasplitsearch.该选项保证划分的结点都有观测数据,并且对于比该项指定的观测值还要少的结点不进行继续划分
∙Maximumnumberofbranchesfromanode(default=2)
∙Maximumdepthoftree(default=6)
∙Splittingrulessavedineachnode(default=5)
∙Surrogaterulessavedineachnode(default=0)
∙Treatmissingasanacceptablevalue.
4)Advanced标签,其中可以进行以下设置:
A.评估度量模型的选择
评估度量模型是基于从有效的数据中获得的决策树结果中选择出最佳的决策树模型,对于范畴型目标变量或间断型目标变量会有不同的评估度量模型选择。
B.自定子树模型
Advanced标签中的子树选项中指定怎样选择整个增长树中选择子树。
一个大型的决策树会对那些随机选择的选练数据很好的适应,但对新数据进行预测上表现不佳。
该选项就在于设定怎样判断一棵决策树已经足够大了。
C.选择p值调整方法的选择
如果既没有选择检验也没有选择F检验,就需要指定一种方法调整p值。
D.在决策树建立过程中合并收益或损失表
下面是Advanced标签各项的一个展示,如图(11)
图(11)
5.关闭tree结点属性设置窗口并保存。
(七)运行决策树结点
在设置完成决策树结点之后,有四种方法来运行决策树结点:
∙如果该结点已经关闭:
o在tree结点上右击鼠标并选择Run选项。
o在菜单栏中选择操作—〉运行。
∙如果该结点仍处于打开状态:
o选择工具—〉运行树状模型
o在快捷方式栏中选择运行树模型的图标
三、浏览决策树执行结果
运行完决策树结点,会出现如图(12),选择Yes就可以看到决策树的执行结果
图(12)
其中主要的窗口如图(13)所示:
(一)综合窗体
图(13)
对于图的解释可以参看SAS提供的帮助文件,地址为:
emgui.hlp/a000106004.htm#a000471388
或在SAS帮助文件中搜索TreeNode察看
LayoutoftheTreeResultsBrowser
(二)查看树状结构图
在菜单栏中选择查看—〉树状结构,可以看到决策树执行结果以树状形式展现,如图(14)。
图(14)
图(14)描述了典型的模型分析输出结果,分析是通过分裂的方式进行的。
在图的上部是决策树模型的根结点,包含了所有的可能的观测数据,根结点中处于中间列出了训练数据为总共为4172个,19.9%可信任(不能贷款),而80.1%不可信任(可以贷款),处于右侧的数据是验证数据结果,共有1788个验证数据,其中20.1%可信任(不能贷款),而79.9%不可信任(可以贷款)。
在过程的进一步,客户被分成了两组,根据变量DEBTING的级别值,这个变量是最能区分的变量。
组的左侧观测数据3225条记录中有93.0%的客户记录是可信的(DEBTING<
45.1848),右侧947条观测记录中36.3%的客户记录是可信的(DEBTING>
=45.1848)。
接着对于选用变量VALUE,以各条记录的VALUE属性值与662969.5进行比较进行下一步划分,右侧以DELINQ变量进行下一步划分。
左侧经过VALUE属性的划分后,第三层第二个结点在这一步停止。
第一个结点则继续根据DELINQ属性值继续划分,最终到达叶子结点。
其中树状结构的每一个结点所列项目如图(15):
图(15)
(三)以文本形式保存规则
在SAS中在查看决策树运行结果是可以将决策树的结果以base语言的形式保存为文本文件,选择菜单栏中的文件项—〉保存规则项。
最终存储结果如图(16)。
可以将该段程序复制到SAS的编辑窗口直接运行而不需要打开企业数据挖掘模块。
图(16)
四、互动式建立决策树过程
除了上述自动由机器建立数据库的方法外,SAS还提供了一种与用户交互式的建立决策树的过程,该过程要求用户有一定的决策树算法的相关知识以及对原数据的十分了解。
过程如下:
(一)首先需要从新定义InputDataSource和DataPartition结点,参数设置同上。
(二)运行DataPartition结点
(三)添加tree结点,连接tree结点和DataPartition结点,在tree结点的图标上右击鼠标选择Interactive属性,进入InteractiveTraining:
Tree窗体,如图(17)。
图(17)
(四)在树环状图上点击鼠标右键,选择CreateRules选项,进入建立规则窗体如图(18)。
图(18)
(五)如图(18)所示以列Logworth属性为标准选择值最大的进入规则,点击ok,DPW2项成为划分决策树的一个指标,如图(19)。
图(19)
图(19)中面板分为五部分,各部分内容反映如下:
●图中标示1的部分,是关于属性DPM12的密度分布图。
●图中标示2的部分,是决策树的环形图。
●图中标示3的部分,是根据决策树规则对观测数据进行划分过程的错分率分布图。
●图中标示4的部分,是观测数据(蓝色)和验证数据(红色)的分支密度图。
●图中标示5的部分,是关于属性的密度分布图的总体浏览。
(六)