ImageVerifierCode 换一换
格式:DOCX , 页数:117 ,大小:2.23MB ,
资源ID:25321850      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/25321850.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(决策树分类方法在学生成绩挖掘中的应用分析.docx)为本站会员(b****9)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

决策树分类方法在学生成绩挖掘中的应用分析.docx

1、决策树分类方法在学生成绩挖掘中的应用分析决策树分类方法在学生成绩挖掘中的应用分析摘要摘要多年来,数据挖掘技术已经在各行各业得到了广泛的应用研究,尤其是在 商业、金融业、医疗卫生等领域应用得十分成功近年来,众多高校研究人员 已将数据挖掘技术应用于教学研究,也产生了一些教学方面的理论,但对这方 面的研究还只是停留在理论研究阶段。目前,随着高职院校招生规模的不断扩大,在校学生人数急剧增加,在日 常教学管理中,每天都产生大量的数据,这使得原有教务管理系统中存在的问 题日益突出特别是对学生的成绩管理工作中,存在着学生成绩数据量过于庞 大的问题。对于其中的学生成绩分析模块,还停留在初级的数据备份、查询及

2、简单统计阶段,隐藏在海量数据中的大量有用信息不能得到有效地利用。如何 将这些数据信息转化为知识表示,合理地利用这些信息为教学管理服务,科学 指导教学,提高教学管理水平,是我们迫切需要研究的课题。数据挖掘技术正 是解决这个问题的可行而有效的方法。决策树分类方法是数据挖掘分类和预测的主要技术,是通过一组无次序、 无规则的实例推理出决策树表现形式的分类规则。决策树方法与其它分类方法 相比具有可理解性、易训练、易实施和通用性等优点,所以本文选择将决策树 分类方法应用到学生成绩数据分析研究中。本文研究的主要内容是决策树分类方法在学生成绩数据分析中的应用。重 点讨论了决策树C45算法。以天津机电职业技术学

3、院教务管理系统中学生 成绩数据作为基本数据源,采用数据库技术对我校教务系统中现有数据进行采 集、清理、集成、概化等处理,使用决策树(245算法建立学生成绩分析决策树 模型,将大量的成绩数据转化为分类规则,得出影响学生成绩的因素,从而更 好地分析这些数据。在此基础上本人独立设计了学生成绩数据分类系统,并 完成了应用系统的开发,采用TrccView控件对决策树进行显示,能直观地显示 出哪些因素对学生的学习成绩是有影响的及影响的强弱,并最终实现了对新数 据的预测功能。关键词:数据挖掘分类决策树分类规则AbstractAbstractOver the years,dam mining technolo

4、gy has been in all walks of life have been widely applied research,especially in the commercial,financial,medical and health fields,applications are successfulIn recent years,many university researchers have data mining technology in teaching and research,but also produced some teaching of the theor

5、y,but research in this area just to stay in the theoretical research stageNow,with the Vocational College enrollment continues to expand,the number of students in school increased dramatically,in the daily teaching management,large amounts of data are produced daily,which makes the original system o

6、f educational administration problems become increasingly prominentEspecially for student achievement in the management ofthe existence ofstudent achievement data volume is too large problemFor the analysis module in which student achievement,but alsostay in the#mary data backup,query and simple sta

7、tistical stage,hidden in themassive data in a large number of useful information can not be etfeetively usedHow these data into knowledge representation,and rational use of information management services for teaching,scientific guidance of teaching,improve the teaching level of management,is an urg

8、ent need to studyData mining technology to solve this problem is feasible and effective methodDecision tree classific撕on method is data mining classification and prediction of the main technical,through a group of no order,no instance of the rule form ofreasoning out of the decision tree classificat

9、ion rulesThe decision tree classificafion method and compared to other intelligibility,easy training,easy implementation and interopcrability,ctc,so this option will be the decision tree classification method applied to the student achievement data analysis studyThis paper studies the main contents

10、of the decision tree classification methodin student achievement data analysis applicationsFocused on the decision treealgorithm C45什n锄jin Institute of Electrical and vocational and technical educational management system,竹students performance data嬲the basic data source, using database technology to

11、 the academic hospital system available data collection,Abstractcleaning,integration,generalization and other treatment,the USC of decision tree algorithm C45 the establishment of studem performance analysis of the decision tree model,a large number of performance data into classification nlles,obta

12、ined the factors affecting student achievement in order to better analyze the dataOn this basis,I independently designed and a”student achievement data classification system,and completed the application system development,using TreeView control to display on the tree can visually show you which fac

13、tors arc affecting student achievement and the impact strength and,ultimately,prediction ofnew data featuresKey Words:data mining;classification;decision tree;classification rulesrfl第一章引言第一章引言第一节研究背景与意义随着现代信息技术、通讯技术、数据库技术、网络技术、数字化图书馆和 计算机技术的高速发展及数据库管理系统的广泛应用,加上使用先进的自动数 据生成和采集工具,使得数据库存储的数据量急剧增大面对“堆积如

14、山的 数据集合,无论在时间意义上还是在空间意义上,传统的数据分析手段都难以 应付,人们无法有效地理解并使用这些数据,由此导致越来越严重的“数据灾 难弦,造成大量数据资源的浪费。因此需要新的技术来自动、智能和快速地分析 海量的原始数据,以使消耗大量财力与物力收集与整理到的宝贵资源数据 得以充分利用,由此引发了一个新的研究方向:数据挖掘与知识发现的理论与 技术研究数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术 在金融、保险、电信等有大量数据的行业已有着广泛的应用。随着数据挖掘技 术的逐步成熟及应用领域的不断扩展,一些高校研究人员已开始研究将数据挖 掘技术应用于高校的教学、管理中,

15、比如,运用关联规则研究相关专业课程开 设的先后关系,研究英语六级成绩与四级成绩的相关关系等。其研究成果对提 高学校教学管理水平起到了很好的指导作用数据挖掘技术在国内教育领域应用起步相对较晚,尤其关于数据挖掘技术 在学生成绩数据的分析处理中应用的文献报道不多,而传统的学生成绩分析方 法一般仅有数据备份、查询、统计和排序等考试成绩数据中包含了很多有用 信息,如果不加以利用,容易造成数据的浪费。目前,一所高校的学生人数少 则几千人,多至几万人,考试成绩数据轻易就达几百万条甚至上千万条,这就 使得传统的成绩分析方法较难满足评价的需要。数据挖掘作为一种决策支持过程,是深层次的数据信息分析方法。将数据 挖

16、掘技术应用于成绩评估方面是非常有益的,它可以全面地分析考试成绩与各 种因素之间隐藏的内在联系,比如,经过对学生相关数据进行分析,数据挖掘 工具可以回答诸如“哪些因素对学生成绩可能有影响等类似的问题,这是传 统评价方法无法具备的第一章引言这些客观存在的因素,都对进一步完善学生成绩评价体系提出了进一步的 要求。因此,决策树分类方法在学生成绩挖掘中的应用研究具有重要的现实意 义和应用价值。1从海量成绩数据中提取出隐藏于其中的有用信息,将这些数据信息转化 为知识表示,为学校决策者提供决策依据,科学指导教学,提高教学管理水平 2利用数据挖掘工具,对学生的学习成绩数据进行分析处理,可以及时得 到学生的评价

17、结果,对学生出现的不良学习行为进行及时指正。另外,还能够克服教师主观评价的不公正、不客观的弱点,减轻教师的工作量。第二节国内外研究现状数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery from Database,简称KDD)。KDD一词首次出现在1989年8月在美国底特律举行的第ll届国际人工智能联合学术会议上。到目前为止,由美国人工智能协会主办的KDD国际研讨会己经召开了多次。在1993年IEEE的Knowledge and Engineering会刊率先出版了KDD技术专刊。KDD包括数据预处理、数据挖掘、 知识评价等处理过程。而数据挖掘

18、是KDD过程中的关键步骤。数据挖掘研究不仅在理论上取得了许多成果,而且也出现了很多成功的应 用实例,如已经出现了许多优秀的数据挖掘工具。国外对数据挖掘技术的研究 较为深入,推出许多优秀的数据挖掘工具:一类是基予统计分析的,如SAS、 SPSS等;另一类是应用新技术如模糊逻辑、人工神经网络、决策树理论的,如 CBR Express,Esteen,KateCBR,Fuzzy TECH for Business,Aria,Neural network Browser等。由于数据挖掘技术可以为企业构筑竞争优势,并带来巨大的经济 效益,因此,数据挖掘的应用具有巨大的前景。数据挖掘技术的研究在国外已经有很

19、多年的历史,而且已经取得了丰硕的 成果。世界上研究数据挖掘的组织、机构和大学也有很多,比如著名的大学有: 卡内基梅隆大学(有机器制造DM、互联网DM和多媒体数据库DM三个研究中 心),还有斯坦福大学和麻省理工学院等。在国外高校的教学管理中,数据挖掘 也己成为提高教学管理质量和教学水平的有力工具。在我国,数据挖掘技术的研究也引起了学术界的高度重视,成为信息科学2第一章引言界的热点课题。国内对数据挖掘技术的研究稍晚,目前重点已从发现方法转向 系统应用,并且注重多种发现策略和技术的集成以及多种学科之间的相互渗透, 但仍以学术研究为主,实际应用尚处于起步阶段。国内许多科研单位和高等院 校竞相开展数据挖

20、掘算法及其应用研究,这些单位包括清华大学、中科院计算 技术研究所和数学研究所、复旦大学、华中理工大学、东南大学、中国科技大 学等。总而言之,经过十几年的发展,国内对数据挖掘的研究已经从最初表面的、 孤立的问题向系统的、全面的方向发展。国内企业运用数据挖掘技术来协助业 务活动的应用还处于起步阶段这对研究数据挖掘技术的研究人员以及开发商 来说,我国是一个有巨大潜力的市场。第三节本文研究的主要内容和方法131研究内容本文主要采用数据挖掘技术中的决策树分类的方法对我校教务管理系统中 近年来的学生成绩数据进行抽取和挖掘,从海量成绩数据中提取出隐藏于其中 的有用信息,进而指导教学实践,为教学管理部门决策提

21、供依据。本文主要研究内容如下:1从教务管理系统基本数据库基础上建立“学生成绩数据挖掘库力。2采用基于决策树的分类挖掘方法,对“学生成绩数据挖掘库中数据进行分析,生成学生成绩决策树,找出影响学生成绩的主要因素。3在大量反复实验的基础上,独立开发了学生成绩数据分类系统。132本文的组织结构根据上述的研究工作,本文内容分为六章,每章内容具体如下: 第一章引言,主要阐述课题的研究背景,介绍了国内外的研究现状,并在此基础上提出了本文的主要研究内容及研究方法。 第二章数据挖掘技术,包括定义、种类和方法;数据挖掘过程;数据挖掘的历史、现状和发展趋势及其应用领域。第一章引言第三章学生成绩数据预处理,介绍了数据

22、预处理的过程及学生成绩预处理的方法。第四章决策树方法在学生成绩分析中的应用,包括决策树方法概述,决策 树常用算法描述,重点介绍了决策树算法中ID3算法和C45算法。重点说明了 决策树分类挖掘方法的属性归纳、处理及决策树构造过程,讨论了C45算法在 学生成绩数据挖掘中的应用,并最终得出实验结论。第五章学生成绩数据分类系统的实现,重点介绍了系统的开发环境及各个 模块的功能。第六章总结与展望,对本文所做的工作及贡献进行了总结,并对需要进一步的研究方向进行了分析和展望。133论文研究方法本文采用如下方法进行研究: 1资料调查方法通过查阅相关文献了解目前数据挖掘技术的研究现状及将数据挖掘技术应用于学生成

23、绩评估的理论和现实意义,提供理论支撑。2实验研究法 在原始数据的基础之上,对学生成绩数据进行分析和抽取,构建学生成绩挖掘库,对学生成绩挖掘库中的数据进行分析,得出实验结论在大量实验的 基础上,对决策树C45算法做了实现,实现了对新数据的预测功能,进而指导 教学实践,为教学管理部门决策提供依据。3资料分析方法 在资料调查的基础上,通过对有关文献进一步分析、研究,并结合实验研究结果,反馈于教学活动、服务于教育决策、为教育科研提供资料。第四节本章小结本章主要讨论了课题研究的背景与意义,分析当前国内外的研究现状,最后说明了本文的主要研究内容、组织结构安排及论文研究方法I4第二章数据挖掘技术第二章数据挖

24、掘技术第一节数据挖掘概述211数据挖掘概念数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,简称KDD),比较公认的定义是由UMFayyad等人提出的:数据挖 掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据集中,提取隐含 在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程,提取 的知识表示为概念(Concepts)、规N(Rules)、规律(Regularities)、模式(Patterns)等形式。跚这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的:发现 的是用户感兴趣的知识;发现的知识要

25、可接受、可理解、可运用,最好能用自 然语言表达发现结果;所有发现的知识是相对的,是有特定前提和约束条件的, 在特定领域中具有实际应用价值。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可 以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程 控制等,还可以用于数据自身的维护。数据挖掘不仅能从历史数据中建立描述型(回顾型)模型,而且还能够建立 预测型模型,为我们从大规模的数据库中提取有用信息提供了强有力的解决工 具。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识。通过数据 挖掘得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一 出现就得到广泛

26、的重视。计算机中能够存储己知了结果的大量不同情况,然后 由数据挖掘工具从这些信息里面沙里淘金,将能够产生模型的信息提取出来, 并将模型以图、表、公式等人们易于理解的方式表达出来。数据挖掘是一个年轻的跨学科领域,它融合了数据库、人工智能、机器学 习、统计学等多个领域的理论和技术,把人们对数据从低层的查询应用提升到 了从中挖掘知识,提供决策支持,是信息技术演化的结果。5第二章数据挖掘技术2I2典型的数据挖掘系统的总体结构图21典型的数据挖掘系统结构一个典型的数据挖掘系统主要由以下几个部分组成: 1数据库和数据仓库,数据库、数据仓库或其他信息库是一个或一组数据库、数据仓库、电子表格或其他类型的信息库

27、。可以在数据上进行数据清理和 集成。根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。 2数据挖掘引擎,作为数据挖掘系统的最基本部件,数据挖掘引擎由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。 3模式评估,使用兴趣度度量,协助数据挖掘模块聚焦挖掘更有意义的模式知识。4图形用户界面,是用户与数据挖掘系统之间进行通信的桥梁。允许用户 与系统交互,指定数据挖掘查询或任务提供信息、帮助搜索聚焦,根据数据挖 掘的中间结果进行探索式数据挖掘。5知识库,存放数据挖掘所需要的领域知识,用于指导搜索,或评估结果 模式的兴趣度。213数据挖掘的相关技术数据仓库、OLAP、数

28、据挖掘是组成数据仓库系统的三种主要技术,数据仓6第二章数据挖掘技术库是数据仓库系统的基础,OLAP和数据挖掘是数据仓库系统的应用技术。 1数据仓库与OLAP 数据仓库(DataWarehouse)是一个面向主题的、集成的、随时间而变化的、非易失的数据集合,支持管理部门的决策过程。这一定义指出了数据仓库的主 要特征:面向主题性、集成性、数据时变性、数据非易失性,数据的集合性和 支持决策作用,将数据仓库与其他数据存储系统区别开来。联机分析处理(O乙)的概念最早是由关系数据库之父EECodd在1 993年提出的,因此,EECodd也被称为OLAP之父。OLAP是数据仓库系统的主要 应用,支持复杂的分

29、析操作,侧重决策支持,并且提供直观易懂的查询结果。 OLAF的目标是满足决策支持或多维环境特定的查询和报表需求。数据仓库侧重于存储和管理面向决策主题的数据;而OLAP侧重于数据仓 库的数据分析,并将其转换成辅助决策信息。OLAP的一个主要特点是多维数 据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。 因此,利用OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既 需要处理大量数据又需要进行大量数值计算的问题。2数据仓库与数据挖掘 数据仓库和数据挖掘是作为两种独立的信息技术出现的。数据挖掘是要在大量的数据中挖掘未知的知识与信息,对数据量有一定的要求。数据仓库为决 策者

30、提供长期的决策支持。数据仓库是数据挖掘技术的关键基础。将数据挖掘建立在数据仓库之上, 一方面能提高数据仓库系统的决策支持能力;另一方面可以用数据仓库及分析 工具完成数据收集、变换存储及初步分析处理工作,从而完成数据预处理工作, 甚至获得初步的模糊知识,同时利用数据仓库的展现工具实现知识的可视化和 人机交互,这样就可以使数据挖掘能够更加专注于知识发现,利用初步的知识, 发挥其潜在能力,以发现更具体的、更具实用价值的知识。所以,基于数据仓 库的数据挖掘能更好的满足高层决策者的战略要求3OLAP与数据挖掘 OLAP和数据挖掘都是属于分析型工具,但是它们处理的问题不同,数据分析的深度也不同,存在着许多

31、差异。OLAP是验证型分析,用户提出问题和假设,OLAP负责从上而下深入地提取出关于问题的详细信息,并以可视化的方式呈现给用户。也就是说,通过7第二章数据挖掘技术0LAP来验证正确或推翻该假设来得到最终的结果。 数据挖掘属于挖掘性分析,数据挖掘在本质上是一个归纳的过程。数据挖掘主要是利用各种挖掘方法对海量数据主动地去进行挖掘,由挖掘的结果发现 蕴含在海量数据中的规律。与OLAF不同的是,数据挖掘不是验证某个归纳的 正确性与否的过程,而是基于大量数据主动地去发现有用的模式。从对数据分析地深度的角度来看,0LAP位于较浅地层次,而数据挖掘所 处地位置较深,所分析层次的不同决定了两者的分析能力和所能回答问题种类 也不同。尽管数据挖掘与0LAP存在差异,数据挖掘和0LAP这两种分析工具 具有一定的互补性,比如人们可以利用0LAP提出假设,或者验证数据挖掘所 得出的结果;运用数据挖掘方法可以总结出一个结论,而这个结论准确性可以 由OLAF来进行验证第二节数据挖掘的功能数据挖掘的功能是用于指定数据挖掘任务中要找的模式类型。数据挖掘的 模式通常分为两类,即描述性模式和预测性模式。描述性模式描述数据中的模

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1