Clementine作业Word格式文档下载.docx

上传人:b****3 文档编号:16907171 上传时间:2022-11-27 格式:DOCX 页数:8 大小:514.83KB
下载 相关 举报
Clementine作业Word格式文档下载.docx_第1页
第1页 / 共8页
Clementine作业Word格式文档下载.docx_第2页
第2页 / 共8页
Clementine作业Word格式文档下载.docx_第3页
第3页 / 共8页
Clementine作业Word格式文档下载.docx_第4页
第4页 / 共8页
Clementine作业Word格式文档下载.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

Clementine作业Word格式文档下载.docx

《Clementine作业Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《Clementine作业Word格式文档下载.docx(8页珍藏版)》请在冰豆网上搜索。

Clementine作业Word格式文档下载.docx

在处理该问题中,我使用了关联分析、决策树分析,具体分析解决过程如下:

关联分析是指如果两个或者多个事物之间存在一定的联系,那么其中一个事物就可能通过其他事物进行预测。

它的目的就是挖掘数据之间隐藏的相互关系。

本题是针对某大型商场的购物资料对数据进行分析。

为了找到商品在出售时是否存在某种联系,我们将使用关联分析方法;

另一方面,为了得到购买某种商品的顾客特征,我们将采用决策树的方法对顾客分类。

步骤一:

读入数据。

该模型的数据存储为BSAKETS1n,我们在选择面板选择可变文件节点作为数据读入节点,双击该结点进行编辑,加入数据存储文件。

如下图所示:

步骤二:

关联分析从数据源读入数据后,接下来就需要根据要进行的分析对字段进行设置。

关联分析是分析多个量之间的关系,所以需要分析的字段既设置为模型的输入又设置为模型的输出,对字段的设置采用类型结点。

2.1设置数据字段格式。

在选择面板选择类型结点,并将其连接到数据流中。

因为我们的分析是对商品进行的,与顾客的个人信息无关,所以在类型结点中将顾客个人信息的字段的方向设置为无,其他商品字段的方向设置为双向。

同时我们也将读入字段类型和字段取值。

2.2生成关联分析数据流。

在选择面板中的建模目录中我们选择GRI结点加入到数据流中。

执行该数据流,它的结果将在管理器的模型栏中以与模型同名的结点显示,右键选择浏览该结点,如下图所示:

分析结果如下:

该结果数据显示了各种商品之间的关系,这个表的每一行表明了购买某种商品的时候还有哪些商品有被购买的可能性,它是基于关联分析中的支持度和置信度来分析的。

支持度越大,说明同时被购买的可能性越大。

比如我们就第一行来分析,支持度为3.0%,置信度为96.67,顾客在购买cannedveg时有可能会同时购买freshmeat,frozenmeal,beer这三种商品。

其他行的相关信息,我们用同样的方法进行分析得出结果。

步骤三:

图形化显示各个商品之间的关系我们除了用模型外,还可以用图形目录下的网络结点。

选择网络结点将其连入数据流中,此时对网络结点的设置如下:

在plot面板中选择“仅选择真值标志”栏,这可以帮助我们简化输出网络,执行结果如下图所示:

其中该图中各色的结点代表了不同种类的商品,任意两点之间连线越策表明这两点之间的关系越强烈,这也正说明购买其中某件商品时,另外一个很有可能也会被同时购买。

我们还可以通过改变浮标值设置不同的显示,当浮标值越大时候网络图将显示关系越强烈关系的点。

分析结果如下:

就上述网状图,各个节点之间有连线说明两线两端的商品在购买时可能被购买。

连线的粗细也表面关系的密切程度,即同时被购买的可能性的大小。

在本问题中,我们分析当浮标设置在122时候这种情况,此时购买fish时很大可能会购买fruitveg,购买confectionery时很有可能购买wine,其中cannedveg,beer,frozenmeal这三种商品时因为三者之间存在密切联系,所以购买其中一种时,其他两种被购买的可能性很大。

同样,当浮标的值改变时,我们可以用同样的方法来分析数据之间的关系。

步骤四:

用决策树来分类分析。

决策树(decisiontree)一般都是自上而下生成的。

每个决策或者事件(自然状态)都可能引出两个或者多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。

决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图。

本问题中我们运用决策树对购买某样商品的客户进行分类,通过分析某个顾客的个人信息判断怎样的人将购买健康食品。

在决策树建模时我们需要设置一个导出结点,模型根据样本在该结点的不同取值构造出决策树。

4.1将导出结点连接到类型结点,如下图所示:

4.2设置导出结点的属性,如下图所示:

这里我们命名该结点为Health_food,在导出为栏中我们选择标志,这表面新生成的Health_food字段将存储两值类型的数据。

在真值和假值栏分别填写新字段的两种数据值,其中真值表示当条件满足时该字段的值,假值表示当条件不满足时该字段的值。

对判断条件的设置我们可以通过单击Truewhen栏右边的按钮进行。

在表达式构建器中我们可以选择数据的任一字段,通过设计表达式建立结果为真时的条件。

这里我们设置表达式为fruitveg==’T’andfish==’T’,这表明当顾客买了fruitveg和fish时该顾客便购买了健康食物。

4.3设置字段的输入/输出方向。

在Health_food结点后添加一个类型结点来制定字段的输入/输出方向。

这里我们要分析购买健康食物的顾客特征,所以我们将Health_food字段的方向选项设置为输出,将顾客的个人特征设置为输入,将其他商品设置为无。

4.4数据流的最终建立。

在对字段定义完后,我们将C5.0结点加入到数据流。

数据流如下图所示:

运行建立了决策树的数据流,我们可以得到输出入下树形图所示。

该树的叶子结点表明了怎样的顾客将选择健康食品,怎样的顾客将选择拒绝健康食品。

通过该决策树模型分析,我们可以发现,就总的人来说,14.5%的人会选择购买健康食物,85.5%的人不会购买健康食物。

而在下一个分支中,按照年龄来划分,小于并包括24岁的人中40.4%的人会选择购买健康食品,59.6%的人则不会购买。

年龄大于24岁的人中,4.6%的人会选择购买健康食物,95.4%的人不会购买健康食物。

而在小于24岁的人中,有房子的人中,1.4%的人会购买健康食品,98.6%的人不会购买。

没有房子的人中80.3%的人会选择购买健康食物,19.3%的人则不会购买健康食物。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1