数据挖掘课程设计.docx

上传人:b****8 文档编号:9004589 上传时间:2023-02-02 格式:DOCX 页数:14 大小:1.21MB
下载 相关 举报
数据挖掘课程设计.docx_第1页
第1页 / 共14页
数据挖掘课程设计.docx_第2页
第2页 / 共14页
数据挖掘课程设计.docx_第3页
第3页 / 共14页
数据挖掘课程设计.docx_第4页
第4页 / 共14页
数据挖掘课程设计.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

数据挖掘课程设计.docx

《数据挖掘课程设计.docx》由会员分享,可在线阅读,更多相关《数据挖掘课程设计.docx(14页珍藏版)》请在冰豆网上搜索。

数据挖掘课程设计.docx

数据挖掘课程设计

枣庄学院

信息科学与工程学院课程设计任务书

 

题目:

数据挖掘在期末成绩评估中的应用

 

小组成员:

赵尊强、桂文学

成员学号:

201212110136、201212110106

专业班级:

计算机科学与技术、2012级本1班

课程:

数据挖掘

指导教师:

迟庆云职称:

副教授

完成时间:

2015年5月----------------2015年6月

 

枣庄学院信息科学与工程学院制

2015年5月20日

开发小组成员分工及职责

 

赵尊强:

设计规划、文献搜集

桂文学:

挖掘资料、数据整合

课程设计任务书及成绩评定

课程设计的任务和具体要求

任务:

1.确定挖掘主题和方法:

根据挖掘的主题和目标,确定合适的挖掘方法。

 

2.数据选择和预处理:

根据所收集数据,填充缺失值,平滑噪声数据,消除异常值,解决数据不一致等问题。

 

3.挖掘方法实现:

规划挖掘过程,界面设计,挖掘方法实现。

 4.挖掘数据:

对预处理后的数据进行挖掘 

4.模式的可视化表达与解释:

根据应用领域的信息和知识需求,以直观有效的形式,如图表等显示数据挖掘出的模式,用特定领域的知识加以解释,使得用户能够理解和接受。

 

要求:

.撰写出符合要求的软件项目综合实践报告。

 

指导教师签字:

迟庆云日期:

指导教师评语

 

成绩:

____________指导教师签字:

日期:

课程设计所需软件、硬件等

⏹硬件环境:

Iterl(R)Core(TM)2DuoCPU,主频2.31GHz;内存3G;

硬盘320G以上;1024×768显示分辨率

⏹软件环境:

Delphi,SQLServer2008,WEKA

 

课程设计进度计划

起至日期

工作内容

备注

5月01日—06日

5月07日—20日

6月05日—08日

6月09日—18日

搜集资料

课程设计分析

系统设计、测试设计

写报告书

参考文献、资料索引

序号

文献、资料名称

编著者

出版单位

[1]JamieMacLennan,ZhaoHuiTang,BogdanCrivat著.数据挖掘原理与应用(第2版)——SQLServer2008数据库.北京:

清华大学出版社.

[2]王丽珍、周丽华、陈红梅、肖清,数据仓库与数据挖掘原来及应用,北京:

科学出版社

[3]张兴会数据仓库与数据挖掘技术清华大学出版社

 

 

 

1概述

1.1应用背景和问题的提出

在大学生活中,我们大学生在某种程度上还是比较重视自己的课程成绩的。

而有一个期末最终成绩的评估系统,无疑对同学们而言是很有用的。

在这个系统中,只需输入你估计的平时成绩以及表现和期末考试的得分,就可以预测出最终的成绩。

而这个课程成绩的组成以及得出是怎么样的呢。

这个最终的得分是受到什么影响呢?

本论文就以上问题进行了探讨和挖掘。

1.2设计内容的介绍

本课程设计主要是探讨和研究在老师给定成绩时考虑的因素,以及这些因素所占的比例。

数据仓库为一份记录着600个同学的得分情况的数据,数据挖掘则采用决策树探究出影响结婚年龄的因素。

2数据仓库设计

2.1概念模型设计

数据仓库里面有一个实体,也就是成绩score。

成绩的决定因素有performance也就平时表现情况,即根据其在课堂上的活跃程度以及认真听课的情况来给的分,还有averscore就是同学平时的作业得分以及平时测试或者期中测试的平均成绩,以及期末考试的成绩lasttest。

 

 

2.2逻辑模型设计

本数据仓库只有一个表,逻辑模型设计如下:

 

2.3物理模型设计

在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数据的存储策略、存储分配优化等问题。

物理设计的主要目的有两个,一是提高性能,二是更好地管理存储的数据。

访问的频率、数据容量、选择的RDBMS支持的特性和存储介质的配置都会影响物理设计的最终结果。

在本数据挖掘中,数据的索引策略采取的并不是位图索引而是按列索引

2.4OLAP模型设计

在本设计中由于案例考虑的并不复杂,所以OLAP模型设计也就比较的简单。

下面的数据是保存在Excel中的。

大概的模型设计也就如下图所示。

 

2.5OLAP前端展示设计

 

 

3数据挖掘分析

3.1期末成绩评估系统应用挖掘概述

在本系统中,数据仓库采用一个二维表来存储和表示同学们的平时成绩,平时表现得分,以及期末成绩等属性。

数据挖掘则采用关联分析来将二维表中的实例分开,并探究这些数据所蕴含的规律。

3.2数据挖掘实验

3.2.1实验环境

WindowsXP

MicrosoftSQLServer2008

MicrosoftVisualStudio2008

MicrosoftOffice2003ExcelAccess

3.2.2数据准备及预处理

首先选择数据源,以下几个截图是在做实验时的几个步骤。

 

 

3.2.3实验内容(输入数据集,选择算法,输出结果,比较分析)

 

建立一个AnalysisServicesProject的项目,在数据源中输入数据集:

 

说明:

以上实验室在实验室做的,由于时间不够,回到宿舍自己安装了中文版的SQLSERVER工具,并完成接下来的实验步骤。

3.2.4算法选择

分类的任务是通过分析由已知类别数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型(也常常称作分类器)。

分类算法有多种,例如,决策树分类算法、神经网络分类算法、贝叶斯分类算法等。

这里需要用的是决策树分类算法。

在本挖掘中选择是关联分析,分析过程和结果如以下图所示:

下面是挖掘模型:

 

 

关联规则:

项集:

说明(项集是比较准确的)

 

分类矩阵:

依赖关系网络图:

 

提升图:

 

 

通过整合做出散点图如下图:

 

通过以上的分析,我们得出一个结论,就是期末成绩在最终得分中所占的比例最大,平时成绩和平时表现的权重差不多,在这个结论中,期末考试的成绩的重要性,不言而喻,增加期末考试的成绩,最能提高最终成绩,平时成绩和表现的得分也很重要,但相对权重没有期末成绩大。

一个分数高的学生,他的所有成绩都应该是很高的。

4小结

由于团队技术水平有限,在开发过程中遇到了很多技术问题,不过大多数都是一些小的细节问题,花了很长时间。

还有就是由于对软件的不熟练,然后经常会搞错多对一等的关系,或者是一些属性的不对应,最后通过同学的帮忙,帮我查找到错误,并帮我们改正。

经过几个星期的课程设计,过程曲折可谓一语难尽。

生活就是这样,汗水预示着结果也见证着收获。

通过这次的设计培养了我综合应用所学知识,发现、提出、分析和解决实际问题,锻炼了我的实践能力。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1