0942803128朱亚军数据挖掘实验三.docx

上传人:b****6 文档编号:8694413 上传时间:2023-02-01 格式:DOCX 页数:12 大小:465.90KB
下载 相关 举报
0942803128朱亚军数据挖掘实验三.docx_第1页
第1页 / 共12页
0942803128朱亚军数据挖掘实验三.docx_第2页
第2页 / 共12页
0942803128朱亚军数据挖掘实验三.docx_第3页
第3页 / 共12页
0942803128朱亚军数据挖掘实验三.docx_第4页
第4页 / 共12页
0942803128朱亚军数据挖掘实验三.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

0942803128朱亚军数据挖掘实验三.docx

《0942803128朱亚军数据挖掘实验三.docx》由会员分享,可在线阅读,更多相关《0942803128朱亚军数据挖掘实验三.docx(12页珍藏版)》请在冰豆网上搜索。

0942803128朱亚军数据挖掘实验三.docx

0942803128朱亚军数据挖掘实验三

实验报告

学院

南徐学院

班级

09428031

姓名

朱亚军

成绩

课程

名称

数据挖掘

实验项目

名称

决策树C5.0建模

指导教师

教师评语

教师签名:

年月日

一、实验目的

1、熟悉SPSSClementine建模方法。

2、掌握SPSSClementine分布图、散点图、网络图的创建方法。

3、掌握决策树C5.0决策方法。

二、实验内容

1、创建散点图。

2、创建分布图。

3、创建网络图。

三、实验步骤

假设你是一位正在汇总研究数据的医学研究员。

已收集了一组患有同一疾病的患者的数据。

在治疗过程中,每位患者均对五种药物中的一种有明显反应。

你的任务就是通过数据挖掘找出适合治疗此疾病的药物。

此示例使用名为druglearn.str的流,此流引用名为DRUG1n的数据文件。

可以从任何ClementineClient安装软件的Demos目录下找到这些文件,也可以通过从Windows的“开始”菜单选择Start>[All]Programs>SPSSClementine12.0>Demos访问这些文件。

文件druglearn.str位于Classification_Module目录中。

此demo中使用的数据字段包括:

 

年龄

(数值)

性别

M或F

BP

血压:

高、正常或低

胆固醇

血液中的胆固醇含量:

正常或高

Na

血液中钠的浓度

K

血液中钾的浓度

药品

对患者有效的处方药

1、读取文本数据

使用变量文件节点读取定界文本数据。

可以从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。

然后,双击新添加的节点以打开相应的对话框。

单击紧挨“文件”框右边以省略号“...”标记的按钮,浏览到系统中的Clementine安装目录。

打开demos目录,然后选择名为DRUG1n的文件。

选择从文件读取字段名,并注意已载入此对话框中的字段和值。

单击数据选项卡,覆盖和更改某个字段的存储。

注意,存储不同于类型或数据字段的用途。

类型选项卡可帮助了解数据中的更多字段类型。

还可以选择读取值来查看各个字段的实际值,具体取决于在值列中的选择。

此过程称为实例化。

类型选项卡可帮助了解数据中的更多字段类型。

还可以选择读取值来查看各个字段的实际值,具体取决于在值列中的选择。

此过程称为实例化。

2、添加表。

现在已载入数据文件,可以浏览一下某些记录的值。

其中一个方法就是构建一个包含表节点的流。

要将表节点添加到流中,可双击选项板中的表节点图标或将其拖放到工作区。

双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点相连接。

此外,如果尚未连接节点,则可以使用鼠标中键将源节点与表节点相连接。

要模拟鼠标中键操作,请在使用鼠标时按下Alt键。

要查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。

3、创建分布图

数据挖掘过程中,创建汇总视图通常有助于研究数据。

Clementine提供了若干不同类型的图表供您选择,具体取决于要汇总分析的数据类型。

例如,要找出每种药物的对症患者的比例,请使用分布节点。

将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的选项。

选择药品作为要显示其分布的目标字段。

然后,在对话框中单击执行

最终图表将有助于查看数据的“结构”。

结果表明,药品Y的对症患者最多,而药品B和药品C的对症患者最少。

此外,还可以添加并执行数据审核节点,同时快速浏览所有字段的分布图和直方图。

可以在“输出”选项卡中找到数据审核节点。

4、创建散点图

现在我们来看一下有哪些因素会对药品(目标变量)产生影响。

作为研究员,您一定知道钠和钾的浓度在血液中有着重要的影响。

由于两者都是数值,您可以用颜色区分药品,创建一个关于钠和钾的散点图。

将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑

在“散点图”选项卡中,选择Na作为X字段,选择K作为Y字段,并选择药品作为交叠字段。

然后单击执行。

此散点图清楚地显示一个阈值,在此阈值上方,对症药品始终是Y,在此阈值下方,对症药品均不是Y。

此阈值是一个比率,即钠(Na)和钾(K)的比率。

5、创建网络图

因为很多数据字段均可分类,也可尝试绘制网络图,此图表将反映不同类别之间的联系。

首先,将网络节点与您工作区中的源节点相连接。

在“网络节点”对话框中,选择BP(血压)和药品。

然后单击执行。

此图显示,药品Y与三种级别的血压均相关。

Y是最佳药品。

四、实验体会

熟悉了SPSSClementine的建模方法,掌握了SPSSClementine分布图、散点图、网络图的创建方法并掌握了决策树C5.0决策方法。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 简洁抽象

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1