决策树分类方法在学生成绩挖掘中的应用分析.docx

资源描述

决策树分类方法在学生成绩挖掘中的应用分析.docx

《决策树分类方法在学生成绩挖掘中的应用分析.docx》由会员分享，可在线阅读，更多相关《决策树分类方法在学生成绩挖掘中的应用分析.docx（117页珍藏版）》请在冰豆网上搜索。

决策树分类方法在学生成绩挖掘中的应用分析.docx

决策树分类方法在学生成绩挖掘中的应用分析

摘要

多年来，数据挖掘技术已经在各行各业得到了广泛的应用研究，尤其是在商业、金融业、医疗卫生等领域应用得十分成功．近年来，众多高校研究人员已将数据挖掘技术应用于教学研究，也产生了一些教学方面的理论，但对这方面的研究还只是停留在理论研究阶段。

目前，随着高职院校招生规模的不断扩大，在校学生人数急剧增加，在日常教学管理中，每天都产生大量的数据，这使得原有教务管理系统中存在的问题日益突出．特别是对学生的成绩管理工作中，存在着学生成绩数据量过于庞大的问题。

对于其中的学生成绩分析模块，还停留在初级的数据备份、查询及简单统计阶段，隐藏在海量数据中的大量有用信息不能得到有效地利用。

如何将这些数据信息转化为知识表示，合理地利用这些信息为教学管理服务，科学指导教学，提高教学管理水平，是我们迫切需要研究的课题。

数据挖掘技术正是解决这个问题的可行而有效的方法。

决策树分类方法是数据挖掘分类和预测的主要技术，是通过一组无次序、无规则的实例推理出决策树表现形式的分类规则。

决策树方法与其它分类方法相比具有可理解性、易训练、易实施和通用性等优点，所以本文选择将决策树分类方法应用到学生成绩数据分析研究中。

本文研究的主要内容是决策树分类方法在学生成绩数据分析中的应用。

重点讨论了决策树C4．5算法。

以<天津机电职业技术学院教务管理系统》中学生成绩数据作为基本数据源，采用数据库技术对我校教务系统中现有数据进行采集、清理、集成、概化等处理，使用决策树（24．5算法建立学生成绩分析决策树模型，将大量的成绩数据转化为分类规则，得出影响学生成绩的因素，从而更好地分析这些数据。

在此基础上本人独立设计了‘学生成绩数据分类系统》，并完成了应用系统的开发，采用TrccView控件对决策树进行显示，能直观地显示出哪些因素对学生的学习成绩是有影响的及影响的强弱，并最终实现了对新数据的预测功能。

关键词：

数据挖掘分类决策树分类规则

Abstract

Overtheyears,damminingtechnologyhasbeeninallwalksoflifehavebeenwidelyappliedresearch，especiallyinthecommercial，financial，medicalandhealthfields，applicationsaresuccessful．Inrecentyears，manyuniversityresearchershavedataminingtechnologyinteachingandresearch，butalsoproducedsometeachingofthetheory,butresearchinthisareajusttostayinthetheoreticalresearchstage．

Now,withtheVocationalCollegeenrollmentcontinuestoexpand，thenumberofstudentsinschoolincreaseddramatically,inthedailyteachingmanagement,largeamountsofdataareproduceddaily,whichmakestheoriginalsystemofeducationaladministrationproblemsbecomeincreasinglyprominent．Especiallyforstudentachievementinthemanagementoftheexistenceofstudentachievementdatavolumeistoolargeproblem．Fortheanalysismoduleinwhichstudentachievement，butalso

stayinthe#marydatabackup，queryandsimplestatisticalstage,hiddeninthe

massivedatainalargenumberofusefulinformationcannotbeetfeetivelyused．

Howthesedataintoknowledgerepresentation,andrationaluseofinformationmanagementservicesforteaching,scientificguidanceofteaching，improvetheteachinglevelofmanagement，isanurgentneedtostudy．Dataminingtechnologytosolvethisproblemisfeasibleandeffectivemethod．

Decisiontreeclassific撕onmethodisdataminingclassificationandpredictionofthemaintechnical，throughagroupofnoorder,noinstanceoftheruleformof

reasoningoutofthedecisiontreeclassificationrules．Thedecisiontreeclassificafionmethodandcomparedtootherintelligibility,easytraining，easyimplementationandinteropcrability,ctc．，sothisoptionwillbethedecisiontreeclassificationmethodappliedtothestudentachievementdataanalysisstudy．

Thispaperstudiesthemaincontentsofthedecisiontreeclassificationmethod

instudentachievementdataanalysisapplications．Focusedonthedecisiontree

algorithmC4．5．什n锄jinInstituteofElectricalandvocationalandtechnicaleducationalmanagementsystem，竹studentsperformancedata嬲thebasicdatasource,usingdatabasetechnologytotheacademichospitalsystemavailabledatacollection,

Ⅱ

Abstract

cleaning,integration,generalizationandothertreatment,theUSCofdecisiontreealgorithmC4．5theestablishmentofstudemperformanceanalysisofthedecisiontreemodel，alargenumberofperformancedataintoclassificationnlles，obtainedthefactorsaffectingstudentachievementinordertobetteranalyzethedata．Onthisbasis,Iindependentlydesignedanda”studentachievementdataclassificationsystem,¨andcompletedtheapplicationsystemdevelopment,usingTreeViewcontroltodisplayonthetreecanvisuallyshowyouwhichfactorsarcaffectingstudentachievementandtheimpactstrengthand，ultimately,predictionofnewdatafeatures．

KeyWords：

datamining；classification；decisiontree；classificationrules

rfl

第一章引言

第一节研究背景与意义

随着现代信息技术、通讯技术、数据库技术、网络技术、数字化图书馆和计算机技术的高速发展及数据库管理系统的广泛应用，加上使用先进的自动数据生成和采集工具，使得数据库存储的数据量急剧增大．面对“堆积如山"的数据集合，无论在时间意义上还是在空间意义上，传统的数据分析手段都难以应付，人们无法有效地理解并使用这些数据，由此导致越来越严重的“数据灾难弦，造成大量数据资源的浪费。

因此需要新的技术来自动、智能和快速地分析海量的原始数据，以使消耗大量财力与物力收集与整理到的宝贵资源——数据得以充分利用，由此引发了一个新的研究方向：

数据挖掘与知识发现的理论与技术研究．

数据挖掘技术在分析大量数据中具有明显优势，基于数据挖掘的分析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。

随着数据挖掘技术的逐步成熟及应用领域的不断扩展，一些高校研究人员已开始研究将数据挖掘技术应用于高校的教学、管理中，比如，运用关联规则研究相关专业课程开设的先后关系，研究英语六级成绩与四级成绩的相关关系等。

其研究成果对提高学校教学管理水平起到了很好的指导作用．

数据挖掘技术在国内教育领域应用起步相对较晚，尤其关于数据挖掘技术在学生成绩数据的分析处理中应用的文献报道不多，而传统的学生成绩分析方法一般仅有数据备份、查询、统计和排序等．考试成绩数据中包含了很多有用信息，如果不加以利用，容易造成数据的浪费。

目前，一所高校的学生人数少则几千人，多至几万人，考试成绩数据轻易就达几百万条甚至上千万条，这就使得传统的成绩分析方法较难满足评价的需要。

数据挖掘作为一种决策支持过程，是深层次的数据信息分析方法。

将数据挖掘技术应用于成绩评估方面是非常有益的，它可以全面地分析考试成绩与各种因素之间隐藏的内在联系，比如，经过对学生相关数据进行分析，数据挖掘工具可以回答诸如“哪些因素对学生成绩可能有影响"等类似的问题，这是传统评价方法无法具备的．

第一章引言

这些客观存在的因素，都对进一步完善学生成绩评价体系提出了进一步的要求。

因此，决策树分类方法在学生成绩挖掘中的应用研究具有重要的现实意义和应用价值。

1．从海量成绩数据中提取出隐藏于其中的有用信息，将这些数据信息转化为知识表示，为学校决策者提供决策依据，科学指导教学，提高教学管理水平．2．利用数据挖掘工具，对学生的学习成绩数据进行分析处理，可以及时得到学生的评价结果，对学生出现的不良学习行为进行及时指正。

另外，还能够

克服教师主观评价的不公正、不客观的弱点，减轻教师的工作量。

第二节国内外研究现状

数据挖掘（DataMining），又称为数据库中的知识发现（KnowledgeDiscoveryfromDatabase，简称KDD）。

KDD一词首次出现在1989年8月在美国底特律举

行的第ll届国际人工智能联合学术会议上。

到目前为止，由美国人工智能协会

主办的KDD国际研讨会己经召开了多次。

在1993年IEEE的KnowledgeandEngineering会刊率先出版了KDD技术专刊。

KDD包括数据预处理、数据挖掘、知识评价等处理过程。

而数据挖掘是KDD过程中的关键步骤。

数据挖掘研究不仅在理论上取得了许多成果，而且也出现了很多成功的应用实例，如已经出现了许多优秀的数据挖掘工具。

国外对数据挖掘技术的研究较为深入，推出许多优秀的数据挖掘工具：

一类是基予统计分析的，如SAS、SPSS等；另一类是应用新技术如模糊逻辑、人工神经网络、决策树理论的，如CBRExpress，Esteen，Kate—CBR，FuzzyTECHforBusiness，Aria，NeuralnetworkBrowser等。

由于数据挖掘技术可以为企业构筑竞争优势，并带来巨大的经济效益，因此，数据挖掘的应用具有巨大的前景。

数据挖掘技术的研究在国外已经有很多年的历史，而且已经取得了丰硕的成果。

世界上研究数据挖掘的组织、机构和大学也有很多，比如著名的大学有：

卡内基梅隆大学（有机器制造DM、互联网DM和多媒体数据库DM三个研究中心），还有斯坦福大学和麻省理工学院等。

在国外高校的教学管理中，数据挖掘也己成为提高教学管理质量和教学水平的有力工具。

在我国，数据挖掘技术的研究也引起了学术界的高度重视，成为信息科学

第一章引言

界的热点课题。

国内对数据挖掘技术的研究稍晚，目前重点已从发现方法转向系统应用，并且注重多种发现策略和技术的集成以及多种学科之间的相互渗透，但仍以学术研究为主，实际应用尚处于起步阶段。

国内许多科研单位和高等院校竞相开展数据挖掘算法及其应用研究，这些单位包括清华大学、中科院计算技术研究所和数学研究所、复旦大学、华中理工大学、东南大学、中国科技大学等。

总而言之，经过十几年的发展，国内对数据挖掘的研究已经从最初表面的、孤立的问题向系统的、全面的方向发展。

国内企业运用数据挖掘技术来协助业务活动的应用还处于起步阶段．这对研究数据挖掘技术的研究人员以及开发商来说，我国是一个有巨大潜力的市场。

第三节本文研究的主要内容和方法

1．3．1研究内容

本文主要采用数据挖掘技术中的决策树分类的方法对我校教务管理系统中近年来的学生成绩数据进行抽取和挖掘，从海量成绩数据中提取出隐藏于其中的有用信息，进而指导教学实践，为教学管理部门决策提供依据。

本文主要研究内容如下：

1．从教务管理系统基本数据库基础上建立“学生成绩数据挖掘库力。

2．采用基于决策树的分类挖掘方法，对“学生成绩数据挖掘库"中数据进

行分析，生成学生成绩决策树，找出影响学生成绩的主要因素。

3．在大量反复实验的基础上，独立开发了《学生成绩数据分类系统》。

1．3．2本文的组织结构

根据上述的研究工作，本文内容分为六章，每章内容具体如下：

第一章引言，主要阐述课题的研究背景，介绍了国内外的研究现状，并在

此基础上提出了本文的主要研究内容及研究方法。

第二章数据挖掘技术，包括定义、种类和方法；数据挖掘过程；数据挖掘

的历史、现状和发展趋势及其应用领域。

第一章引言

第三章学生成绩数据预处理，介绍了数据预处理的过程及学生成绩预处理

的方法。

第四章决策树方法在学生成绩分析中的应用，包括决策树方法概述，决策树常用算法描述，重点介绍了决策树算法中ID3算法和C4．5算法。

重点说明了决策树分类挖掘方法的属性归纳、处理及决策树构造过程，讨论了C4．5算法在学生成绩数据挖掘中的应用，并最终得出实验结论。

第五章学生成绩数据分类系统的实现，重点介绍了系统的开发环境及各个模块的功能。

第六章总结与展望，对本文所做的工作及贡献进行了总结，并对需要进一

步的研究方向进行了分析和展望。

1．3．3论文研究方法

本文采用如下方法进行研究：

1．资料调查方法

通过查阅相关文献了解目前数据挖掘技术的研究现状及将数据挖掘技术应

用于学生成绩评估的理论和现实意义，提供理论支撑。

2．实验研究法在原始数据的基础之上，对学生成绩数据进行分析和抽取，构建学生成绩

挖掘库，对学生成绩挖掘库中的数据进行分析，得出实验结论．在大量实验的基础上，对决策树C4．5算法做了实现，实现了对新数据的预测功能，进而指导教学实践，为教学管理部门决策提供依据。

3．资料分析方法在资料调查的基础上，通过对有关文献进一步分析、研究，并结合实验研

究结果，反馈于教学活动、服务于教育决策、为教育科研提供资料。

第四节本章小结

本章主要讨论了课题研究的背景与意义，分析当前国内外的研究现状，最

后说明了本文的主要研究内容、组织结构安排及论文研究方法．

第二章数据挖掘技术

第一节数据挖掘概述

2．1．1数据挖掘概念

数据挖掘（DataMining），又称数据库中的知识发现（KnowledgeDiscoveryinDatabase，简称KDD），比较公认的定义是由U．M．Fayyad等人提出的：

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据集中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程，提取的知识表示为概念（Concepts）、规N（Rules）、规律（Regularities）、模式（Patterns）

等形式。

跚

这个定义包括几层含义：

数据源必须是真实的、大量的、含噪声的：

发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用，最好能用自然语言表达发现结果；所有发现的知识是相对的，是有特定前提和约束条件的，在特定领域中具有实际应用价值。

发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。

发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等，还可以用于数据自身的维护。

数据挖掘不仅能从历史数据中建立描述型（回顾型）模型，而且还能够建立预测型模型，为我们从大规模的数据库中提取有用信息提供了强有力的解决工具。

数据挖掘不但能够学习已有的知识，而且能够发现未知的知识。

通过数据挖掘得到的知识是“显式”的，既能为人所理解，又便于存储和应用，因此一出现就得到广泛的重视。

计算机中能够存储己知了结果的大量不同情况，然后由数据挖掘工具从这些信息里面沙里淘金，将能够产生模型的信息提取出来，并将模型以图、表、公式等人们易于理解的方式表达出来。

数据挖掘是一个年轻的跨学科领域，它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术，把人们对数据从低层的查询应用提升到了从中挖掘知识，提供决策支持，是信息技术演化的结果。

第二章数据挖掘技术

2．．I．2典型的数据挖掘系统的总体结构

图2．1典型的数据挖掘系统结构

一个典型的数据挖掘系统主要由以下几个部分组成：

1．数据库和数据仓库，数据库、数据仓库或其他信息库是一个或一组数据

库、数据仓库、电子表格或其他类型的信息库。

可以在数据上进行数据清理和集成。

根据用户的数据挖掘请求，数据库或数据仓库服务器负责提取相关数据。

2．数据挖掘引擎，作为数据挖掘系统的最基本部件，数据挖掘引擎由一组

功能模块组成，用于特征化、关联、分类、聚类分析以及演变和偏差分析。

3．模式评估，使用兴趣度度量，协助数据挖掘模块聚焦挖掘更有意义的模

式知识。

4．图形用户界面，是用户与数据挖掘系统之间进行通信的桥梁。

允许用户与系统交互，指定数据挖掘查询或任务提供信息、帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘。

5．知识库，存放数据挖掘所需要的领域知识，用于指导搜索，或评估结果模式的兴趣度。

2．1．3数据挖掘的相关技术

数据仓库、OLAP、数据挖掘是组成数据仓库系统的三种主要技术，数据仓

第二章数据挖掘技术

库是数据仓库系统的基础，OLAP和数据挖掘是数据仓库系统的应用技术。

1．数据仓库与OLAP数据仓库（DataWarehouse）是一个面向主题的、集成的、随时间而变化的、

非易失的数据集合，支持管理部门的决策过程。

这一定义指出了数据仓库的主要特征：

面向主题性、集成性、数据时变性、数据非易失性，数据的集合性和支持决策作用，将数据仓库与其他数据存储系统区别开来。

联机分析处理（O乙"）的概念最早是由关系数据库之父E．ECodd在1993年

提出的，因此，E．ECodd也被称为OLAP之父。

OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

OLAF的目标是满足决策支持或多维环境特定的查询和报表需求。

数据仓库侧重于存储和管理面向决策主题的数据；而OLAP侧重于数据仓库的数据分析，并将其转换成辅助决策信息。

OLAP的一个主要特点是多维数据分析，这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。

因此，利用OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题。

2．数据仓库与数据挖掘数据仓库和数据挖掘是作为两种独立的信息技术出现的。

数据挖掘是要在

大量的数据中挖掘未知的知识与信息，对数据量有一定的要求。

数据仓库为决策者提供长期的决策支持。

数据仓库是数据挖掘技术的关键基础。

将数据挖掘建立在数据仓库之上，一方面能提高数据仓库系统的决策支持能力；另一方面可以用数据仓库及分析工具完成数据收集、变换存储及初步分析处理工作，从而完成数据预处理工作，甚至获得初步的模糊知识，同时利用数据仓库的展现工具实现知识的可视化和人机交互，这样就可以使数据挖掘能够更加专注于知识发现，利用初步的知识，发挥其潜在能力，以发现更具体的、更具实用价值的知识。

所以，基于数据仓库的数据挖掘能更好的满足高层决策者的战略要求．

3．OLAP与数据挖掘OLAP和数据挖掘都是属于分析型工具，但是它们处理的问题不同，数据

分析的深度也不同，存在着许多差异。

OLAP是验证型分析，用户提出问题和假设，OLAP负责从上而下深入地

提取出关于问题的详细信息，并以可视化的方式呈现给用户。

也就是说，通过

第二章数据挖掘技术

0LAP来验证正确或推翻该假设来得到最终的结果。

数据挖掘属于挖掘性分析，数据挖掘在本质上是一个归纳的过程。

数据挖

掘主要是利用各种挖掘方法对海量数据主动地去进行挖掘，由挖掘的结果发现蕴含在海量数据中的规律。

与OLAF不同的是，数据挖掘不是验证某个归纳的正确性与否的过程，而是基于大量数据主动地去发现有用的模式。

从对数据分析地深度的角度来看，0LAP位于较浅地层次，而数据挖掘所处地位置较深，所分析层次的不同决定了两者的分析能力和所能回答问题种类也不同。

尽管数据挖掘与0LAP存在差异，数据挖掘和0LAP这两种分析工具具有一定的互补性，比如人们可以利用0LAP提出假设，或者验证数据挖掘所得出的结果；运用数据挖掘方法可以总结出一个结论，而这个结论准确性可以由OLAF来进行验证．

第二节数据挖掘的功能

数据挖掘的功能是用于指定数据挖掘任务中要找的模式类型。

数据挖掘的模式通常分为两类，即描述性模式和预测性模式。

描述性模式描述数据中的模

展开阅读全文