1、任课老师: 邓淑芬 实验一数据挖掘软件认识与图形分析实验目的:探索Drud1n,挖掘以下问题的答案:1)血压与年龄的关系2)血压与性别的关系3)血压与药品的关系4)血压与血钠的关系5)血压与血钾的关系6)血压与胆固醇的关系7)药品与血压、年龄、性别、胆固醇之间的关系实验报告容主要容: 实验目的,实验步骤,实验结论(配图),实验小结步骤图: 实验步骤:第一步,打开SPSS Clementine Client 11.1,点击屏幕下方工具栏中的“数据源”按钮,双击下方的“可变文件”;第二步,双击屏幕中间的“可变文件”进入编辑框,点击“文件”右边的“”按钮,打开“Demos”文件夹,选中“DRUG1n
2、”之后打开;第三步,点击屏幕下方工具栏中的“输出”按钮,双击下方的“表”,就会出现一个与可变文件相关联的表文件,双击表文件再点击编辑器下方的“执行”即可看到整个数据的情况。第四步,开始依次解决问题,分析各数据之间的关系。问题一:分析血压与年龄的关系。(散点图)点击屏幕下方工具栏中的“图形”按钮,双击“散点图”,在屏幕中间出现散点图的按钮,右击“DRUG1n”选择连接,与散点图连接,双击散点图按钮,出现该图形的编辑器,“X字段”选择“Age”,“Y字段”选择“BP”,确定之后点击屏幕上方工具栏的执行按钮,即可看到血压与年龄之间的关系。(直方图)点击屏幕下方工具栏中的“图形”按钮,双击“直方图”,
3、在屏幕中间出现直方图的按钮,右击“DRUG1n”选择连接,与直方图连接,双击直方图按钮,出现该图形的编辑器,“字段”选择“Age”,“颜色”选择“BP”,确定之后点击屏幕上方工具栏的执行按钮,即可看到血压与年龄之间的关系。从图表中我们可以在20到30岁之间的血压正常的人数很少,基本上都是偏高或偏低,而在30到50岁之间的血压都偏低。总的来说,不管在哪个年龄段血压都有高有低也有正常值,所以血压与年龄没有很大的关系。问题二:分析血压与性别的关系。(散点图)点击屏幕下方工具栏中的“图形”按钮,双击“散点图”,在屏幕中间出现散点图的按钮,右击“DRUG1n”选择连接,与散点图连接,双击散点图按钮,出现
4、该图形的编辑器,“X字段”选择“BP”,“Y字段”选择“Sex”,确定之后点击屏幕上方工具栏的执行按钮,即可看到血压与性别之间的关系。(分布图)点击屏幕下方工具栏中的“图形”按钮,双击“分布图”,在屏幕中间出现分布图的按钮,右击“DRUG1n”选择连接,与分布图连接,双击分布图按钮,出现该图形的编辑器,“字段”选择“BP”,“颜色”选择“Sex”,确定之后点击屏幕上方工具栏的执行按钮,即可看到血压与性别之间的关系。从图表中我们可以发现那根平滑线在低水平的下方,不管是男性还是女性他们的血压都是比较低的,血压与性别的关系也很难表现出来。问题三:血压与药品的关系从图中我们可以发现高血压与A、B和Y药
5、品有关;低血压与C、X和Y药品有关;正常血压与X和Y有关。而且药品Y对所有的血压值都有关系,从中可以看出A和D药品会导致高血压;C药品会导致低血压。问题四:血压与血钠的关系从图表中我们可以发现血钠的不同含量会导致血压的高低,但是不管在什么围,血压都会相对均匀分布,所以我认为血压与血钠之间的影响关系不是很明显。问题五:血压与血钾的关系图中表示了不同血钾含量下血压不同值的计数。有的含量下高低血压与正常血压均匀分布,但是有的情况下就会出现高血压或者低血压。总的来说,血压与血钾之间有一定的关系,但是并不是很明显的能够区分开来。问题六:血压与胆固醇的关系从图表中我们可以发现,血压在高、低和正常这三者的时
6、候,胆固醇的正常值和高值都会出现,而且分布比较均匀;所以,不管血压的高低,其对胆固醇的影响并不大,反过来胆固醇是高还是正常对血压高低正常的影响很小。问题七:药品与血压、年龄、性别、胆固醇之间的关系从图中我们可以发现,血钠和血钾在所有的药品中的含量均接近于0,说明药品中血钠和血钾的含量很少。上面的锯齿形线表示药品与年龄的关系,A药品的使用围在20到50岁之间;B药品的使用围在50到60岁之间,其他的三种药品在每个年龄段基本上都会使用到.实验小结:本次实验中我们第一次接触到这种数据分析和挖掘的软件,首先很容易操作,通过软件来形成图形,将每个数据之间的关系都可以用图表表示出来,对于比较简单的图形就可
7、以很容易就发现数据之间的关系,类似于直方图,你可以很清楚的发现每个部分所占的比例以及横轴与纵轴之间的关系。通过本次的实验我们以后在数据挖掘方面会有一个很好地利用工具,而且能够为我们的结论提供理论支持。 实验二关联规则和决策树分析探索BASKETS1n,利用关联分析模型和决策树模型,挖掘以下问题BASKET1n后的类型键GRItree结论:24岁的人不是健康食品的购买者,=24岁但是已婚的也不是健康食品的购买者。Rule规则用于 T - 包含 1 个规则 规则 1 用于 T if age 24默认: FHealthy导出通过本次试验,可以帮助我们更好的去分析一些数据的问题,当我们遇到数据很多并且
8、关联不大的时候,我们就可以通过这个软件进行分析,其中像网络图和决策树都可以很直观的表现出不同商品之间的关系,让人一目了然。学习这个软件可以使我们对自己所掌握的数据比较了解以及它们之间的种种联系,这样更有助于我们进行数据挖掘。 实验三决策树专业修整和聚类分析1.决策树进行剪枝、修改出错成本,并与简单决策树进行精确度对比2.探索DRUG1n,使用聚类模型对该数据进行聚类分析实验步骤:对决策树再次进行分析。第一步,将C5.0模式改成专家,点击决策树,建立NO-CUT未修改的决策树第二步,Tree和no-cut连接到类型后面,在两之间放大镜进行精确度的分析,对比两者之间的差别我们会发现精确度从93.8
9、%提高到94.5%。第四步,进入编辑框,模式改为简单,点击成本第五步,使用误分类损失,将第一行第二列的值改为0.4,再次回到模型点击执行,会出现如下的决策树,它拥有更多的分支将TREE和NE-COST 的后面分别连接一个矩阵,将矩阵的行设置为HEALTHY,列设置为C-HEALTHY。分别会产生两表格,将35条减至15条,避免了成本费用的增加。成本误分类损失对比第七步,打开D1n,点击类型,选取读取值,方向全部设置为输入在建模中点击K-MEANS、两步法和Knhonen。两步法实验四神经网络分析实验目的1、学会使用神经网络分析哪些商品值得做促销?实验步骤第一步,创建可变文件,并选取GOODS1
10、n中的数据,在GOODS1n后添加表,确定并执行,可以看到商品的促销所带来的增长率,在表中可以看出促销前后的销量对比图。第二步在GOODS1n后增加一个INCREASE导出图,设置其模型为:连续;公式为:(After - Before) / Before * 100。第二步,设置其方向,设置After方向为无,INCREASE方向为输出。第三步增加神经网络图,设置其准确度为95,浏览有如下神经网络的结果图:第三步,继续Goods2n,将数据过滤,增加过滤将After过滤,可通过表看出After已过滤出去。在神经网络图后增加FORMAT导出设置其字段类型为:连续并设置其公式为:1 / (1 + exp( - $N-INCREASE)。第四步,FORMAT后增加一个选择,设置其条件为FORMAT 0.99999,得出如下表格,所示即为可促销商品。选择结束以后我们通过表对选择的结果进行执行,上图的执行结果就是剩下的最值得推销的商品。步骤图实验小结:本次试验是通过对商品文件进行分析,从而来了解到底哪些商品是最值得促销的,我们需要对字段进行归一处理,使它们的值接近一表示出来。我们在导出字段的时候,要特别注意导出为和字段的类型并且编辑导出的公式,学会用公式编辑器,过程要细心和耐心。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1