数据挖掘技术与应用实验报告yfWord格式.docx
《数据挖掘技术与应用实验报告yfWord格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术与应用实验报告yfWord格式.docx(19页珍藏版)》请在冰豆网上搜索。
//QUFodHRwOi8vMjExLjE2Mi4yMDkuMTUwOjgyL2Rvd24vRFRMaXRlNDQ1NC0wMzE0LnppcFpa
四,安装虚拟光驱
五,用虚拟光驱加载clementine镜像,[统计数据挖掘工具].TLF-SOFT-SPSS_Clementine_v12.0-CYGiSO.bin
六,双击setup程序安装程序,选择第一个,点击下一步,执行安装步骤,安装完成。
七,由于安装的是英文试用版,因此必须安装破解软件
八,双击SPSSClementine12·
0·
3多国语言含中文破解版.exe,将软件汉化
九,破解软件,将软件使用期限破解为永久;
用虚拟光驱打开SPSS_Clementine,打开CYGiso文件夹,复制lservic与PlatformSPSSLic7.dll
一十,将复制的文件粘贴到安装文件夹下的\SPSSinc\Clementine12.0\12文件夹下,并替换原文件
二,熟悉软件功能
1,Clementine窗口
当第一次启动Clementine时,工作区将以默认视图打开。
中间的区域称作流工作区。
在Clementine中,这将是用来工作的主要区域。
Clementine中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。
要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后释放。
窗口的右上方是输出和对象管理器。
这些选项卡用于查看和管理各种2,Clementine对象。
“输出”选项卡包含了由Clementine中的流操作产生的各类文件。
可以显示、重命名和关闭此处所列的表格、图形和报告。
“模型”选项卡,包含了在一次会话中产生的所有模型(即,已在Clementine中构建完毕的模型)。
通过它,可以对模型作更深入的查看、将其添加至流中、导出或为其加注解。
窗口右侧底部的部分是工程工具,它用来创建和管理数据挖掘工程
要在流工作区添加节点可以使用几种方法:
1,在节点选项板中双击所选图标;
2,将所选的图标直接拖到工作区;
3,在菜单栏中选择插入,执行“源”或其他节点操作。
对节点的连接方法包括:
1,在源节点面板中选择一个类型添加到工作区,在“输出节点面板中选双击输出节点,可以直接连接”
2,在节点面板中拖一个节点到面板中,按F2将上一个节点与本节点连接。
3,按住alt键点击上一个节点与需要连接的节点进行连接,。
实验总结:
在软件安装的时候注意安装步骤,由于是安装破解中文版,所以需要在安装完主程序后再安装语言包,然后进行软件破解。
在软件操作方面基本解了SPSSClementine软件的功能和操作特点,了解了Clementine各选项面板和操作方法。
实验评价(教师):
SPSSClementine数据可视化
1、熟悉SPSSClementine绘图。
2、了解SPSSClementine图形选项面板各节点的使用方法。
3、熟练掌握SPSSClementine数据可视化流程。
1、打开SPSSClementine软件,逐一操作各图形选项面板,熟悉软件功能。
至少做分布图、直方图、收集图、多重散点图、时间散点图)
一,熟悉软件功能
1,打开Clementine
点击开始菜单,找到Clementine12.0,点击打开
2,熟悉各功能
软件最上方是菜单栏包括,文件,编辑,插入,视图,窗口等,可以执行文件的保存,打开导入导出,对流进行清除,添加,对窗口进行布局等功能。
最上面的第二排是工具栏,可以点击新建流,打开,保存打印等工作
软件的主界面为工作区,对流的各种操作在这里执行
最下面是软件的选项板区,添加节点的方法可以是,双击;
左键点击,然后定位到工作区;
也可以是拖动,
软件的右方是流,输出,模型,工程面板
二,操作
分布图
1),在选项面板中找到原节点面板,双击数据库节点,将数据库节点添加到流工作区中
2)编辑数据库源,双击数据库节点,单击“文件”右边的省略号”…”进入spass安装目录,打开demo文件夹,在数据源中选择visioDatabaseSamples,在表名称中选择办公-雇员详细信息表。
在“数据库”文件对话框中,我们可以对数据源的各个类型进行了解,例如在“可变文件”对话框中最底部,单击类型,可以看到灭个节点中每个字段的类型,值,缺失等
3),将源文件添加到工作流中后,然后在节点面板中找到帆布节点,双击分布图标,将其放置在工作面板中
4),按f2将源与分布节点连接
5),双击分布节点编辑,字段选择部门,颜色选择姓名,执行,然后生成部门的分布图
6),从图中可以看出该公司的员工大部分在技术部门。
所以可以推断该公司应该是以技术为主导的知识密集型公司。
散点图
1)在源节点面板中,找到可变文件节点,双击可变文件,将源可变文件节点添加到流工作区中。
2)双击可变文件节点图标,进入可变文件的编辑界面,点击选择文件,打开软件安装目录,打开demo,文件选择DRUG1n,点击确定。
3)将图形节点面板中,找到散点图,双击图标,将散点图添加到面板中,右键连接,将源文件与散点图连接。
4)双击面板中的散点图节点图标,进入散点图的编辑界面,将x字段调为sex,y字段调为na,颜色选择sex,点击执行
5)生成的散点图如下
F代表女性,M代表男性,横轴代表性别,纵轴代表na的含量。
:
6)从图中可以看出男性的平均na含量明显高于女性的平均na含量。
而且在na含量较多的情况下,也就是含量在0.7以上,女性明显比男性多。
直方图
1)任然以DRUG1n为源文件
2)将图形中的直方图添加到面板中
3)连接源文件与直方图
4)双击直方图,编辑,将字段设为na,颜色设为drug
5)执行后生成的图形如下:
6)从图中可以很明显的看出drugy的na含量最多,drugb的na含量最少。
在选择源文件的时候需要选择有表头的文件不然生成的图形不能够很好的反应相关性,通过实验熟悉了spss的绘图特点,了解了选项面板各节点的是使用方法
决策树C5.0建模
1、熟悉SPSSClementine建模方法。
2、掌握SPSSClementine分布图、散点图、网络图的创建方法。
3、掌握决策树C5.0决策方法。
1、创建散点图。
2、创建分布图。
3、创建网络图。
假设你是一位正在汇总研究数据的医学研究员。
已收集了一组患有同一疾病的患者的数据。
在治疗过程中,每位患者均对五种药物中的一种有明显反应。
的任务就是通过数据挖掘找出适合治疗此疾病的药物。
此实验使用名为druglearn.str的流,此流引用名为DRUG1n的数据文件。
可以从任何ClementineClient安装软件的Demos目录下找到这些文件,也可以通过从Windows的“开始”菜单选择Start>
[All]Programs>
SPSSClementine11.1>
Demos访问这些文件。
文件druglearn.str位于Classification_Module目录中。
此demo中使用的数据字段包括:
年龄
(数值)
性别
M或F
BP
血压:
高、正常或低
胆固醇
血液中的胆固醇含量:
正常或高
Na
血液中钠的浓度
K
血液中钾的浓度
药品
对患者有效的处方药
一,打开spass软件,单击收藏夹或数据源选项卡选择可变文件节点,双击节点,讲解点添加到流工作区中,也可以世界拖拽到流工作区中。
二,双击添加到流工作区的可变文件节点,打开可变文件对话框,选择源文件,打开系统的安装目录,然后打开demo文件夹,打开DRUG1n,吃屎可变文件对话框出现响应的数据。
如图:
三,单击“可变文件最下面的“数据“选项卡,在数据对话框中勾选勾选某个字段后金可对该字段进行覆盖和更改操作,单击过滤选项卡,进入对话框中我们可以根据需要对不需要的字段进行过滤处理,单击类型选项卡,可以了解每个字段的类型,值,缺失,等信息。
四,在输出处选项卡中选择表,将表添加到工作流中,选中可变文件节点,右键单击选择连接,将可变文件与表节点连接,要查看表可单击工具栏上的绿色箭头执行流或右击表选择执行流,执行完后在表对话框中,可以得到表的7个字段,200条记录斌企鹅可以看到各个记录的详细参数。
四,创建散点图
1,在图形选项卡中选中分布节点并双击,将其添加到流工作区中,按住alt建,点击可变文件源文件与分布节点,将源文件与分布节点连接。
2,
点击执行如图:
4,分析:
从图中可以看出60岁以上的男性胆固醇的含量较女性多,在20到30岁胆固醇含量的男女比例差不多,但女性稍微比男性多一些。
二),分布图
1,选择源文件,打开可变文件,选择DRUG1n文件。
2,选择图形面板中的分布图。
3,设置分布图,如下:
4,点击执行,结果如下:
5,分析,从图形对比中可以看出在实验中男性总数比女性要多,同时女性血压正常的比例比男性要多,男性的血压低的比例明显高于女性。
三),网络图
1,打开源节点面板,找到可变文件节点,双击节点图标,将其添加到流工作区中,然后打开文件DRUG1n。
2,选择图形面板的图形,设置如下
3,点击执行,结果图如下
4,分析:
从图中可以看出男性的胆固醇含量明显比女性要高,高与正常的指数分别为,54,50.
关联规则挖掘
实验目的age<
=24[模式:
T]
fish=T[模式:
T]=>
T
fish=F[模式:
F]=>
F
age>
24[模式:
F
1、熟悉C5.0规则归纳
2、掌握购物篮分析的方法。
1、字段和记录的筛选。
2、规则归纳(C5.0)分类。
3、购物篮分析。
4、本实验处理描述超级市场购物篮内容(即,所购买的全部商品的集合)的虚构数据,以及购买者的相关个人数据(可通过忠诚卡方案获得)。
目的是寻找购买相似产品并且可按人口统计学方式(如按年龄、收入等)刻画其特征的客户群。
1,在源节点面板中找到可变文件,双击节点图标,将可变文件添加到流工作区中,双击节点图标进入节点编辑界面,然后选项源文件,代开demo文件夹,源文件选择,$CLEO_DEMOS/BASKETS1n
2,在字段选项节点面板,将类型添加到面板中,按住alt键点击可变文件与类型节点,将可变文件与类型节点进行连接,然后双击类型节点图标,对源文件进行输入输出处理,设置如图,fruitveg为输出字段,值,性别等不参与建模
3,打开输出节点面板,双击表节点,将表节点添加到工作流中,然后点击执行,可以初步查看,字段的信息。
4在节点工具箱的建模中选择C5.0,与类型连接
5执行Fruitveg,得到,fruitveg模型
6,点击fruitveg模型执行,结果如下:
7,模型结果图如下:
age<
F
点击查看器可以看到更多的模型果
8,将ruitveg模型拖到流工作区中,按住alt建将类型与模型链接
9,在输出节点面板中到表节点双击即可将表节点放到工作流中同时与模型链接。
10,选中表节点,点击工具栏中的执行选择按钮。
可以查看模型结果,结果中比原表结果多出来两个字段,分别是预测值和置信度。
11,单击图形选项卡麻将网络节点添加到工作流中,按住alt键将可变文件与网络节点连接。
,然后点击执行生成网络图,由于网络图的强链接太多,无法精确显示相关客户群,因此需要提高临界值以便只显示最强的链接,华东工具栏的滑块,让其减少连接数,将弱链接设置为90,强链接设为高于100,区中只显示了三个主要的客户群
12,使用刚刚创建的网络图,使用鼠标右键单击fruitveg和fishi之间的链接生成的链接的到处节点,并编辑节点,将其命名为a,同理生成其他节点。
欺诈屏蔽/异常检测/神经网络
1、熟悉各种聚类分析方法
2、了解神经网络分析方法与过程
3、掌握异常检测的方法。
1、聚类分析。
2、神经网络建模。
3、异常检测。
4、此实验显示了Clementine在检测诈欺行为方面的应用。
这一领域涉及农业发展财政补贴申请。
有两种财政补贴类型在考虑之列:
耕地开发财政补贴和退役田地财政补贴。
实验使用虚拟数据演示如何通过分析方法来发现与标准数据的偏差,同时突出了有必要进一步调查的异常记录。
1,在源节点面板中找到可变文件节点,双击节点,将其添加到流工作区中。
2,双击可变文件节点图标,选择源文件,打开demo文件夹,选择grantfrandn.db
文件
3,子啊输出节点面板中,找到表节点,双击,将其添加到流工作区中,点击工具栏中的执行选择,生成表。
,可以看到改数据源由10个字段300条记录构成。
4,双击源节点,进入对话框,算账类型选项卡,将姓名和id字段的额方向设为无,其他字段的方向设为输出。
5,在建模节点面板中将异常节点添加到流中作区中,按住alt建将源节点与异常节点连接。
6,执行异常节点,生成节点模型,在异常检测节点的“模型”选项卡中,选择训练数据中大多数异常记录的数目,然后输入值10,然后将名为Anomaly的模型拖到流工作区中。
7,在输出面板中双击表节点,将表与Anomaly模型链接。
点击执行,产看得到的结果,可以看到比原文件的字段多出39个字段,其中$-Anomary字段表明哪些记录为潜在异常记录。
8,使用勘察表来进一步调查欺诈数据,在分布图中单击计数此时可以从图中可以看出name618与name777字段,有两次以上的补贴资助申请。
9,选中源节点,然后在记录节点面板双击选择节点,双击选择节点,进入编辑框,在条件中输入:
name=‘name618’orname=‘name777’,模式选择丢弃。
然后在选择节点后创建到处节点。
在导出节点对话框的条件中输入:
farmsize*rainfall*landquallty,来评估收入。
10,在导出节点后再连接一个导出节点在公式中输入:
(abs(farmincome)garmincome)*100),然后在节点后添加直方图节点。
11,双击直方图图标,字段选择diff,颜色选择claimtype,点击执行生成直方图,从图中可以看出大偏差都发在财政补贴。
12,双击字段选项中的类型节点,将类型添加到已经有的流中,双击节点图标,将申请金额的方向设为输出,,然后添加神经网络节点,点击执行。
执行生成后将得到的模型添加到已有的流中,然后绘制一张预期余额与实际余额的比较图在神经网络生成模型后,链接图节点,双击图节点,将X字段设为:
estincomeY字段设为:
claimvave,颜色设为:
maincrop,执行节点生成散点图。
通过实验熟悉了各种聚类分析方法,了解了神经网络分析方法与过程。
分类和回归树节点(C&
RT)
1、掌握C&
RT分类算法。
2、掌握决策树的建立和修剪
3、了解C&
RT分类算法在管理决策中的应用
1、C&
RT分类算法建立决策树
2、分类和回归树节点(C&
RT)是一种基于树的分类和预测方法,此方法使用递归分区将训练记录分割为多个具有相似的输出字段值的段。
在本实验中,将C&
RT应用于某市场研究,其中的目标字段为有意预订有线电视交互服务。
预测变量字段包括年龄、性别、教育、收入类别、每天看电视的时间和子女数(按有序集合编码,因为值8表示8个或更多)。
1,打开源节点面板,双击spss文件节点,将其放到流工作区中。
双击节点图标,进入对话框,选择源文件,打开demo文件夹,选择newschan.sav打开。
2,添加表节点,同时与源节点连接,点击执行选择,可以看到该数据源有8个字段,442条记录组成。
3,打开字段选项,双击类型节点,将其添加到流工作区中。
按住alt建,将原节点与类型节点连接。
4,双击类型节点图标,单击读取值,再单击newschan字段将其类型设置为标志,并将其字段的方向设值为输出,其他字段设置为输入。
5,打开建模字段面板,双击C&
RT节点,将其添加到流工作区,双击节点,在模型选项卡上选择“启动交互会话”作为构建选项。
6,在流工作区中双击C&
RT节点,在“专家”选项卡上选择专家模式并选择修剪树和使用标准误规则。
将最小杂质改变值设置为0.003。
增加此值可避免进行改进意义十分微小的分割,从而倾向于生成较简单的树。
7,在“查看器”选项卡上,单击根节点以选中它并从菜单中选择以下项:
生成树、生成树和修剪、生成分支等;
最后生成合适的决策树模型。
决策树规则如下:
生成的树具有五层和五个终端节点。
(要查看整个树,可使用缩放工具或单击工具栏右侧的图窗口工具按钮。
)
8,生成模型和节点以,点击执行当前选择,生成模型。
9,在流工作区中,将生成的NEWSCHAN1模型连接到类型节点。
在生成的NEWSCHAN1模型中,单击设置选项卡,选择计算置信度和规则ID,然后单击确定。
10,添加表节点,然后执行输出,表中显示了可能接受有线电视服务预订的用户的记录。
$R-NEWSCHAN列显示了对这些记录的预测结果。
如果某记录显示的值为1,则可以预测该用户对预订的响应为是。
如果需要,可将此生成的模型保存到模型选项板上以备将来的数据使用。
11,生成选择节点,还可以生成选择节点,选择交互树,然后在工具栏选择生成选择节点,该节点包括所有落在节点2和13中的记录。
然后,可以使用具有新数据的选择节点确定哪些用户最有可能对预订做出积极的响应。
►在交互树窗口中,使用按住Ctrl键并单击的方法选中节点2和13。
►从“生成”菜单中,选择选择节点。
生成的选择节点位于流工作区中。
该生成的选择节点可根据在交互树窗口中为节点2和13选择的标准来构建表达式。
►将生成的选择节点连接到流中的类型节点上。
►将表连接到选择节点并执行该表以查看记录。
注意,此次仅选中226个记录而不是原来的442个记录。
12,添加表节点,按住alt建与选择节点连接。
通过本实验,我掌握了C&
RT分类算法和决策树的建立与修剪,同时了解了C&
RT分类算法在管理决策中的应用。
多项Logistic回归
1、熟悉Logistic回归。
2、掌握Clementine中Logistic回归建模方法。
1、在Clementine中建立多项Logistic回归
2、Logistic回归是一种统计方法,它可根据输入字段的值对记录进行分类。
这种统计方法类似于线性回归,但是它使用的是分类目标字段而非数值目标字段。
例如,假设某个电信服务提供商已按照服务使用模式对其客户群进行了划分,将这些客户分类到四个组中。
如果可使用人口数据预测组成员,则可以为单个预期客户定制服务使用模式。
3、本实验将焦点集中于使用人口数据预测使用模式。
目标字段custcat有四个可能的值对应于四个客户组,如下所示:
值
标签
1
基本服务
2
电子服务
3
附加服务
4
全套服务
因为目标含有多个类别,因此将使用多项模型。
如果目标含有两个截然不同的分类,例如是/否,真/假,或流失/保持,则会转而创建二项模型。
1,找到源节点面板,双击spss文件,将spss文件添加到流工作区中,双击节点图标,在Demos文件夹中添加指向telco.sav的SPSS文件源节点。
2,添加一个用来定义字段的类型节点,确保所有类型均设置正确。
将所有值为0和1的字段视为标志字段,单击值列标题,然后按住Shift键的同时使用鼠标或箭头键选择所有要更改的字段。
然后右键单击这些选择,以更改所选字段的类型。
3,在字段选项中添加类型节点,双击节点图标,可以选择过滤不需要建模的字段
4,选中类型节点,单击模型选项卡并双击逐步法,将其添加流并与。
选中多项、主效应和将常量纳入方程式。
将目标的底数类别保留为1。
模型将对其他客户与预订基本服务的客户进行比较。
在“专家”选项卡上,选中专家模式,选中输出,然后在“高级输出”对话框中选中分类表。
5,运行节点以生成模型,该模型会添加到右上角的模型选项板中。
6,将模型添加都流工作区中,右键点击,选中浏览,“模型”选项卡中显示了用于将记录分配到目标字段的每个类别的方程式。
7,浏览窗口中,底部有五个选项卡,汇总”选项卡显示了(包括其他内容)模型中使用的目标字段和输入字段(预测变量字段)。
高级”选项卡上显示的项目取决于在建模节点的“高级输出”对话框中选中的选项。
其中通常显示的一个项目是观测值处理概要,它显示了落在目标字段每个类别中的记录的百分比。
8,在“高级”选项卡底部,分类表显示了此模型的结果,其正确率为39.9%。
特别是,此模型在识别全套服务客户(类别4)时表现优异,而在识别电子服务客户(类别2)时表现很差。
如果想提高预测类别2中客户的准确性,可能需要再找到一个预测变量来识别此类客户。
实验总