基于weka数据分类分析实验报告Word文档格式.docx-资源下载

基于weka数据分类分析实验报告Word文档格式.docx

1、然后，打开Weka的Exporler，点击Open file按钮，打开刚才得到的“total_data”文件，点击“save”按钮，在弹出的对话框中，文件名输入“total_data”，文件类型选择“Arff data files（*.arff）”，这样得到的数据文件为“total_data.arff”。2.2如何建立数据训练集，校验集和测试集数据的预处理过程中，为了在训练模型、评价模型和使用模型对数据进行预测能保证一致性和完整性，首先要把movie_given.xslx和test.xslx合并在一起，因为在生成arff文件的时候，可能会出现属性值不一样的情况，否则将为后来的测试过程带来麻烦。

2、通过统计数据信息，发现带有类标号的数据一共有100行，为了避免数据的过度拟合，必须把数据训练集和校验集分开，目前的拆分策略是各50行。类标号为female的数据有21条，而类标号为male的数据有79条，这样目前遇到的问题是，究竟如何处理仅有的21条female数据？为了能在训练分类模型时有更全面的信息，所以决定把包含21条female类标号数据和29条male类标号数据作为模型训练数据集，而剩下的另49条类标号类male的数据将全部用于校验数据集，这是因为在校验的时候，两种类标号的数据的作用区别不大，而在训练数据模型时，则更需要更全面的信息，特别是不同类标号的数据的合理比例对训练模型的质量有

3、较大的影响。2.3预处理具体步骤第一步：合并movie_given.xlsx和test.xlsx，保存为total_data.xlsx；第二步：在total_data.xlsx中删除多余的ID列信息；第三步：在excel中打开“total_data.xlsx”，选择菜单文件-另存为，在弹出的对话框中，文件名输入“total_data”，保存类型选择“CSV（逗号分隔）”；第四步：使用UltraEdit工具把total_data.csv中的数据缺失部分补上全局常量？；第五步：打开Weka的Exporler，点击Open file按钮，打开刚才得到的“total_data.csv”文件，点击“s

4、ave”按钮，在弹出的对话框中，文件名输入“total_data”，文件类型选择“Arff data files（*.arff）”，这样得到的数据文件为“total_data.arff”。第六步：从total_data.arff文件里面剪切所有没有分类标号的数据作为预测数据集（test.arff），共26项。第七步：把剩下含有类标号数据的total_data.arff文件复制一份，作为总的训练数据集。文件名称为build_model.arff。第八步：从total_data.arff文件中剩下的数据里面选取所有分类标号为male的49行数据作为校验数据集（validate_data.ar

5、ff）。第九步：从把剩下的total_data.arff文件改名为train_data.arff。3. 实验过程及结果截图3.1决策树分类用“Explorer”打开刚才得到的“train-data.arff”，并切换到“Class”。点“Choose”按钮选择“tree （weka.classifiers.trees.j48）”，这是WEKA中实现的决策树算法。选择Cross-Validatioin folds=10，然后点击“start”按钮：训练数据集训练决策树得出的结果使用不同配置训练参数，得到的实验数据：配置不同的叶子节点的实例个数实例数/叶节点23456准确率54%60%56%结果

6、分析：使用决策树时，每个叶子节点最优的实例个数为3。校验数据集校验决策树得出的结果初步结果分析：使用决策树进行分类，对于已知的49个类标号为male的数据都进行了准确的分类，并且达到100%；虽然是个很好的数据，但是完美背后隐藏了缺陷，是以对female类的低准确率作为代价的，因为这样会说明该分类器很有可能偏向male类。3.2 K最近邻算法分类点“Choose”按钮选择“laze-ibk”，这是WEKA中实现的决策树算法。训练数据集训练KNN得出的结果K值17891052%58%68%62%使用KNN算法分类时，K最优值为8。校验数据集校验KNN得出的结果对使用k=8训练出来的分类模型进行校

7、验的结果，准确率达到77.6%，算是一个比较合理的分类结果。3.3 朴素贝叶斯分类点“Choose”按钮选择“bayes”，这是WEKA中实现的决策树算法。训练数据集训练Nave Bayes得出的结果校验数据集校验Na评价结果中准确率仅仅达到59.1%，结果不是很让人满意。3.4 三类分类方法的校验结果比较决策树K最近邻朴素贝叶斯校验准确率100%77.55%59.18%训练混淆矩阵校验标准误差0.420.46540.5918比较结果分析：根据上述数据，虽然决策树有最高的完美的准确率和相对较好的标准误差，但是这种完美的背后，很有可能是以类标号female的较大错误率作为代价，这点可以从训练混

8、淆矩阵中得到印证；而朴素贝叶斯分类算法的准确率相对较低，而标准误差也较高，综合评价可以得知，当前最好的分类算法是KNN算法，并且它是最优设置参数为k=8。3.5 训练最优模型使用预处理中的buildmodel_data.arff数据文件训练分类模型，算法为k=8的KNN。数据集训练KNN得出的结果使用最终模型对测试集进行预测结果4.三种算法在进行测试的性能比较 4.1实验结果决策树的测试结果：KNN测试结果：朴素贝叶斯测试结果：比较分析结论：性能分析应该包括两个部分，一个部分是测试速度，另一个部分是测试的质量。由于本次使用所使用的数据量太少，在测试速度的对比上相差太少，无法进行准确的分析。而在测试质量上，可以从上述数据中得到，决策树依然是由于它对与male类标号的偏爱，导致质量的降低；而KNN与朴素贝叶斯相比，KNN具有较高的准确率，从性能角度上讲，KNN算法略胜一筹。 5.实验总结本次实验进行比较顺利，使我对如何在Weka中进行分类分析有了更深刻的了解，对Weka中进行分类分析的KNN算法，朴素贝叶斯算法和决策树算法都有了进一步的理解，同时也深刻体会到数据预处理对于数据挖掘的重要性。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？