0942803128朱亚军数据挖掘实验三.docx
《0942803128朱亚军数据挖掘实验三.docx》由会员分享,可在线阅读,更多相关《0942803128朱亚军数据挖掘实验三.docx(12页珍藏版)》请在冰豆网上搜索。
0942803128朱亚军数据挖掘实验三
实验报告
学院
南徐学院
班级
09428031
姓名
朱亚军
成绩
课程
名称
数据挖掘
实验项目
名称
决策树C5.0建模
指导教师
教师评语
教师签名:
年月日
一、实验目的
1、熟悉SPSSClementine建模方法。
2、掌握SPSSClementine分布图、散点图、网络图的创建方法。
3、掌握决策树C5.0决策方法。
二、实验内容
1、创建散点图。
2、创建分布图。
3、创建网络图。
三、实验步骤
假设你是一位正在汇总研究数据的医学研究员。
已收集了一组患有同一疾病的患者的数据。
在治疗过程中,每位患者均对五种药物中的一种有明显反应。
你的任务就是通过数据挖掘找出适合治疗此疾病的药物。
此示例使用名为druglearn.str的流,此流引用名为DRUG1n的数据文件。
可以从任何ClementineClient安装软件的Demos目录下找到这些文件,也可以通过从Windows的“开始”菜单选择Start>[All]Programs>SPSSClementine12.0>Demos访问这些文件。
文件druglearn.str位于Classification_Module目录中。
此demo中使用的数据字段包括:
年龄
(数值)
性别
M或F
BP
血压:
高、正常或低
胆固醇
血液中的胆固醇含量:
正常或高
Na
血液中钠的浓度
K
血液中钾的浓度
药品
对患者有效的处方药
1、读取文本数据
使用变量文件节点读取定界文本数据。
可以从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。
然后,双击新添加的节点以打开相应的对话框。
单击紧挨“文件”框右边以省略号“...”标记的按钮,浏览到系统中的Clementine安装目录。
打开demos目录,然后选择名为DRUG1n的文件。
选择从文件读取字段名,并注意已载入此对话框中的字段和值。
单击数据选项卡,覆盖和更改某个字段的存储。
注意,存储不同于类型或数据字段的用途。
类型选项卡可帮助了解数据中的更多字段类型。
还可以选择读取值来查看各个字段的实际值,具体取决于在值列中的选择。
此过程称为实例化。
类型选项卡可帮助了解数据中的更多字段类型。
还可以选择读取值来查看各个字段的实际值,具体取决于在值列中的选择。
此过程称为实例化。
2、添加表。
现在已载入数据文件,可以浏览一下某些记录的值。
其中一个方法就是构建一个包含表节点的流。
要将表节点添加到流中,可双击选项板中的表节点图标或将其拖放到工作区。
双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点相连接。
此外,如果尚未连接节点,则可以使用鼠标中键将源节点与表节点相连接。
要模拟鼠标中键操作,请在使用鼠标时按下Alt键。
要查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。
3、创建分布图
数据挖掘过程中,创建汇总视图通常有助于研究数据。
Clementine提供了若干不同类型的图表供您选择,具体取决于要汇总分析的数据类型。
例如,要找出每种药物的对症患者的比例,请使用分布节点。
将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的选项。
选择药品作为要显示其分布的目标字段。
然后,在对话框中单击执行
最终图表将有助于查看数据的“结构”。
结果表明,药品Y的对症患者最多,而药品B和药品C的对症患者最少。
此外,还可以添加并执行数据审核节点,同时快速浏览所有字段的分布图和直方图。
可以在“输出”选项卡中找到数据审核节点。
4、创建散点图
现在我们来看一下有哪些因素会对药品(目标变量)产生影响。
作为研究员,您一定知道钠和钾的浓度在血液中有着重要的影响。
由于两者都是数值,您可以用颜色区分药品,创建一个关于钠和钾的散点图。
将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑
在“散点图”选项卡中,选择Na作为X字段,选择K作为Y字段,并选择药品作为交叠字段。
然后单击执行。
此散点图清楚地显示一个阈值,在此阈值上方,对症药品始终是Y,在此阈值下方,对症药品均不是Y。
此阈值是一个比率,即钠(Na)和钾(K)的比率。
5、创建网络图
因为很多数据字段均可分类,也可尝试绘制网络图,此图表将反映不同类别之间的联系。
首先,将网络节点与您工作区中的源节点相连接。
在“网络节点”对话框中,选择BP(血压)和药品。
然后单击执行。
此图显示,药品Y与三种级别的血压均相关。
Y是最佳药品。
四、实验体会
熟悉了SPSSClementine的建模方法,掌握了SPSSClementine分布图、散点图、网络图的创建方法并掌握了决策树C5.0决策方法。