数据挖掘实验报告.docx

资源描述

数据挖掘实验报告.docx

《数据挖掘实验报告.docx》由会员分享，可在线阅读，更多相关《数据挖掘实验报告.docx（8页珍藏版）》请在冰豆网上搜索。

数据挖掘实验报告.docx

数据挖掘实验报告

《数据挖掘》实验报告1

实验序号：

1　　　　　　　　　　实验项目名称：

数据挖掘入门及C4.5算法

学　　号

1210052138

姓　　名

汪芹

专业、班

12应数金融

实验地点

实验1-511

指导教师

潘巍巍

实验时间

2014.11.29

一、实验目的及要求

1、学会使用C4.5算法进行分类，给出分类精度，画出用C4.5算法诱导的树并写出生成的规则集合。

2、在数据挖掘标准数据集上，实验对比剪枝与未剪枝的树的分类性能

3、总结C4.5算法的优缺点

二、实验设备（环境）及要求

电脑，weka软件

三、实验内容与步骤

1、首先，导入数据iris.arff到weka中.

2、把选项卡从progress切换到classify,开始训练分类器。

选择trees下面的J48.

3、点击start按钮开始生成决策树模型。

Classifiedoutput中出现了一棵决策树，以及对这棵树的误差分析等结果。

同时，resultlist中出现了一个项目显示刚才的时间和算法名称。

4、选择visualiazetree按钮，形成树形图。

5、选择trees下的RandomTree,点击start,生成一个未进行剪枝的决策树模型，对比剪枝和未剪枝的决策树。

四、实验结果与数据处理

1、“J48”算法交叉验证的结果如下：

由classifieroutput中的correctlyclassifiedinstances项得知该模型的准确度有96%。

本实验分析的是根据花瓣的宽度和长度不同判断出不同种类的鸢尾花。

例如，当宽度小于0.6时，即为iris-setosa,当花瓣宽度小于等于1.7而长度小于等于4.9时，为iris-versicolor.

2、使用RandomTree算法得到的决策树如下

可见，该模型的正确率为92%，且得到的决策树较之J48算法得到的决策树更为复杂，正确率更低，没有达到最优化。

五、分析与讨论

1、C4.5算法的优点：

产生的分类规则易于理解，准确率较高。

缺点：

在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

2、剪枝有以下几点原则：

①正确性：

因为它能够“剪去”搜索树中的一些“枝条”，但要保证不丢失正确的结果，这是剪枝优化的前提。

②准确性：

即要尽可能多的剪去不能通向正解的枝条。

③高效性：

即剪枝要提高判断操作本身的时间

六、教师评语

签名：

日期：

成绩

《数据挖掘》实验报告2

实验序号：

4　　　　　　　　　实验项目名称：

Apriori

学　　号

1210052138

姓　　名

汪芹

专业、班

12金融

实验地点

实验1-511

指导教师

潘巍巍

实验时间

2014.12.25

一、实验目的及要求

1、Apriori算法的核心思想、步骤、计算效率。

2、自己构造一个小栗子，熟悉Apriori算法步骤，挖掘频繁模式和关联规则。

3、选择一个标准数据集，采用Apriori算法挖掘频繁模式和关联规则

二、实验设备（环境）及要求

电脑及weka软件

三、实验内容与步骤

1、选择weka自带数据conact-lenses.arrf,该数据集共有24条记录，5个属性值。

2、选择explorer中的Associate,设置相关参数如下

点击start,得到完整的实验结果输出及具体分析。

四、实验结果与数据处理

实验结果如下：

===Runinformation===

Scheme:

weka.associations.Apriori-I-N10-T0-C0.9-D0.05-U1.0-M0.5-S-1.0-c-1

Relation:

contact-lenses//数据的名称

Instances:

24//数据的记录数24

Attributes:

5//属性数目5以及各属性名称

age

spectacle-prescrip

astigmatism

tear-prod-rate

contact-lenses

===Associatormodel（fulltrainingset）===

Apriori

=======

Minimumsupport:

0.5（12instances）//最小支持度0.5，即最少需要12个实例Minimummetric:

0.9//最小度量<置信度>:

0.9

Numberofcyclesperformed:

10//进行了10轮搜索

Generatedsetsoflargeitemsets:

//生成的频繁项集

SizeofsetoflargeitemsetsL

（1）:

7//频繁1项集：

7个

LargeItemsetsL

（1）:

//频繁1项集（outputItemSets设为True, 因此下面会具体列出）

spectacle-prescrip=myope12

spectacle-prescrip=hypermetrope12

astigmatism=no12

astigmatism=yes12

tear-prod-rate=reduced12

tear-prod-rate=normal12

contact-lenses=none15

在上面所示数据界面中，分别点击标签spectacle-prescrip，astigmatism，tear-prod-rate和contact-lenses，该列的值会自动进行分类排序，可以很方便的对上面结果进行。

点击age标签，其值按pre-presbiopic、presbiopic和young分类排序，可以看到各属性值的记录数均为8<12，不满足最小支持度，因此age属性的所有取值都没有列在上面结果中。

SizeofsetoflargeitemsetsL

（2）:

1//频繁2项集：

1个

LargeItemsetsL

（2）:

tear-prod-rate=reducedcontact-lenses=none12

//tear-prod-rate取值为reduced且 contact-lenses取值为none 的记录数共有12个

Bestrulesfound:

//最佳关联规则

1.tear-prod-rate=reduced12==>contact-lenses=none12conf:

（1）

// 若tear-prod-rate取值为reduced可以推出 contact-lenses的取值为none，该关联规则置信度为100%

五、分析与讨论

①Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

Apriori（先验的，推测的）算法应用广泛，可用于消费市场价格分析，猜测顾客的消费习惯；网络安全领域中的入侵检测技术；可用在用于高校管理中，根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作；也可用在移动通信领域中，指导运营商的业务运营和辅助业务提供商的决策制定。

②挖掘步骤：

依据支持度找出所有频繁项集（频度）；依据置信度产生关联规则（强度）

③实现步骤：

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法Apriori使用一种称作逐层搜索的迭代方法，“K-1项集”用于搜索“K项集”。

首先，找出频繁“1项集”的集合，该集合记作L1。

L1用于找频繁“2项集”的集合L2，而L2用于找L3。

如此下去，直到不能找到“K项集”。

找每个Lk都需要一次数据库扫描。

核心思想是：

连接步和剪枝步。

连接步是自连接，原则是保证前k-2项相同，并按照字典顺序连接。

剪枝步，是使任一频繁项集的所有非空子集也必须是频繁的。

反之，如果某个候选的非空子集不是频繁的，那么该候选肯定不是频繁的，从而可以将其从CK中删除。

六、教师评语

签名：

日期：

成绩

展开阅读全文