原创WEKA数据挖掘课程论文.docx

资源描述

原创WEKA数据挖掘课程论文.docx

《原创WEKA数据挖掘课程论文.docx》由会员分享，可在线阅读，更多相关《原创WEKA数据挖掘课程论文.docx（11页珍藏版）》请在冰豆网上搜索。

原创WEKA数据挖掘课程论文.docx

原创WEKA数据挖掘课程论文

数据挖掘课程论文

学院：

工学院

专业：

计算机科学与技术

班级：

学生姓名：

学号：

授课教师：

年月日

论文题目

[摘要]

数据分类过程与数据挖掘专家讨论相结合，找出了UCA数据集中的WEKA程序分析和数据挖掘方法之间的相关性，主要内容是数据挖掘和开发前景，总结和研究结果是否值得深入作为探索的结果学习。

[关键词]数据挖掘、分类、weka

引言

数据挖掘，通过大量的数据，新的关系，这是有意义的，趋势的仔细分析，是过程揭示的格局。

它是数据库研究有价值的研究的新领域。

人工智能，数据库技术，模式识别，机器学习，统计学，集成了数据可视化的理论和技术。

[1]。

有很多有关信息安全信息挖掘的，但是这是你需要什么，我们这方面的专家。

我们毫无意义的搜索，访问，即使在名义，在互联网上的所有行为这种行为的时代，用户被记录为生成内容UGC）数据挖掘数据。

用户在精准营销，已经享受个性化的建议，担心在同一时间的深个人隐私和安全问题，它带来的同时方便。

网络信息的挖掘为对方特定目的的操作的个人行为被称为人肉搜索，互联网公司，为了学习一些诸如信息，客户你需要自然担心。

威胁到个人隐私，数据用户的朋友，爱好，聚集在个人喜好等个人特征，谁可以访问数据挖掘侧或数据集的圈子，识别特定个人谁，那么就违反了盈利的可能性。

1.1问题描述

本实验的基本内容是，WEKA在学习数据挖掘方面的培训，我使用奇偶校验和评估，根据每个模型对公共数据模型（决策树C4.5，KNN和朴素贝叶斯）进行分类算法实现校准数据。

最后，我们使用分类器使用测试数据验证这些参数和数据结构，以预测最佳分类器，训练。

设计思路与方案概述

第一阶段-准备阶段，准备任务必要的准备阶段的任务，主要工作是根据情况的特点，每个属性的特点妥善分开，是决定手册部分，分类项目形成分类学习样本集。

在这个阶段，所有的数据输入都应该被分类，输出是学习样本的一个特征。

整个阶段需要手动完成，其质量完全取决于由训练样本特征属性质量决定的质量，对质量分类器有重要影响，是贝叶斯分类器。

第二阶段-分类器训练阶段是任务阶段，通过生成分类器，主要任务除以学习样本的每个特征属性划分的出现频率的类别和每个类别的条件概率估计计算和结果报告。

输入是属性和学习样本，并输出分类器。

在这个阶段，程序根据上述公式自动完成计算，这是一个机械阶段。

第三阶段-申请阶段。

在任务的这个阶段，当使用分类器分类器对分类器进行分类并对输入项进行分类时，输出是分类为项目和类别的映射关系。

在这个阶段，它由程序完成，它是一个机械阶段。

2.数据准备

2.1数据介绍

根据有关规定乳腺癌数据挖掘，打开UCI数据集WEKA的乳腺癌文件。

Attributes（属性）:

Age:

病人年龄

Menopause:

更年期

Tumor-size:

肿瘤大小

Inv-nodes:

受侵淋巴结数

Node-caps:

有无结节冒

Deg-malig:

恶性肿瘤程度

Breast:

肿块位置

Breast-quad:

肿块所在象限

Irradiat:

是否放疗

Class:

是否复发

2.2数据的统计量分析

（1）

（1）预处理和离散数据

这个属性提供年龄，所以你可以消除其更年期的性质。

如图所示：

保存，然后单击“删除”。

<1>一些算法，只能处理所有属性，它被分类的情况下，例如有关规则。

目前，有必要评估物业的离散化的类型。

这组数据，“年龄”，有三个变量“肿瘤的大小”，并以“INV节点”。

如图所示，离散函数的离散化和（descretize）的三个特征的选择，数据的离散化存储在乳腺癌-final.arff文件。

3分类模型的建立

3.1决策树模型

点击apply，可以看到样本的数量从286减少到了72，

●用C4.5算法构建的决策树：

模型性能的评估结果：

3.2朴素贝叶斯模型

点“选择贝叶斯”和“选择”按钮，这是对WEKA的实现决策树算法。

选择CrossValidatioin=10并选择“开始”按钮：

训练数据集训练NaïveBayes得出的结果

得出的准确率为72.3%

校验数据集校验NaïveBayes得出的结果

初步结果分析：

测试结果中准确率仅仅达到81.4%。

3.3knn模型

点“Choose”按钮选择“laze->Ibk”，这是WEKA中实现的决策树算法。

选择Cross-Validatioinfolds=10，然后点击“start”按钮：

训练数据集训练KNN得出的结果

使用不同配置训练参数，得到的实验数据：

配置不同的叶子节点的实例个数

K值

准确率

66.5%

64%

65%

68.5%

67%

66.5%

66%

67%

结果分析：

使用KNN算法分类时，K最优值为4。

校验数据集校验KNN得出的结果

初步结果分析：

对使用k=4训练出来的分类模型进行校验的结果，准确率达到88.3%，算是一个比较合理的分类结果。

5讨论与思考

了解基本原理和C4.5朴素贝叶斯决策树算法，可以通过本实验来实现WEKA熟悉数据挖掘算法。

同时深深地，使用大量的技术已经有了广泛的应用，前所未有的事情，如数据雾化模式，数据挖掘模式，数据挖掘过程数据，数据挖掘重任也共存。

对这些问题的进一步研究将激发和改进数据挖掘。

结论

我们使用WEKA软件进行乳腺癌的分类方法来执行数据挖掘过程，我们还发现数据挖掘是大数据时代已经发现它起着重要的作用。

人们希望以前分析大量数据的科学依据，互联网的快速发展，网络上的各种信息资源变得非常丰富，滞后数据和数据分析方法的快速增长不一致已经越来越突出研究，业务管理和业务决策以及数据挖掘，传统分析方法出现的大规模数据的缺点和分析是解决的。

数据挖掘技术的发展促进经济发展和人人生命科学技术带来了极大的便利，数据挖掘技术在工业领域的增长数量上得到了很好的应用[4]。

。

参考文献

[1]王光宏,蒋平.数据挖掘综述.同济大学学报（自然科学版）.2004

（2）:

246-247.

[2]张瑞雪,数据挖掘中关联规则算法研究及应用:

[硕士论文].哈尔滨工程大学.2006.

[3]李芸,数据挖掘中关联规则挖掘方法的研究及应用:

[硕士论文].西安电子科技大学.2007

[4]王梦雪,数据挖掘综述.软件导刊.2013（10）:

137.

[5]陈龙,数据挖掘技术综述,经营管理者.2006:

289.

[6]吉根林、赵斌,面向大数据的时空数据挖掘综述,南京师大学报（自然科学版）.2014（30）:

4-6.

展开阅读全文