C45算法.docx-资源下载

C45算法.docx

1、C45算法 C4.5决策树算法的分析及其简单应用基于高校学生选课的应用研究目录一、背景 2二、国内外研究现状 2三、C4.5算法介绍及分析 41.ID3算法概述 42.C4.5算法描述 53.信息增益率的计算 6四、C4.5算法的应用实验设计 71.实验思路 82.实验过程 83.实验结果 11五、结论 11参考文献 12附件： 13【摘要】随着“大数据”时代的发展，越来越多的学者逐渐重视对数据背后信息的探究。数据挖掘的方法多种多样，所运用的算法也不尽相同。本论文主要对数据分类方法下的经典决策树算法C4.5算法进行了分析，并且将其应用于高校选课案例中，体现了C4.5算法的优点，也指出了其存在的

2、缺点。【关键词】数据挖掘；数据分类；决策树算法；C4.5算法Abstract：With the development of the era of “Big Data”, more and more scholars attach great importancein exploring data to acquire significant information. It is named as “Data Mining”. There are various methods to achieve data exploring. In the report, it focuses on an

3、alyzing C4.5 algorithm, one of classic algorithms. Besides, this algorithm will be applied in a case in this report. Its advantages and disadvantages will be exposed in the case.Key words: Data Mining, Data Classification, Decision Tree Algorithm, C4.5 Algorithm一、背景“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。

4、人们对于海量数据的挖掘和运用，预示着新一波生产效率增长和消费者盈余浪潮的到来”，这是全球知名咨询公司麦肯锡发表的关于目前大数据时代一段言论。大数据，是信息爆炸时代的必然产物，也是不可或缺的一部分，有着极其重要的意义。因此面对如此庞大的数据集，如何利用这些数据使之产生价值，为人类服务逐渐为广大信息技术工作者所重视。于是数据挖掘技术逐渐发展起来。数据挖掘技术，是一种通过计算机技术将隐含在大量的、不完全的、有噪声的、模糊的、随机的数据中具有潜在利用价值的信息和知识提取出来的手段，并探索其中的内部规则，以及预测数据未来的发展趋势。二、国内外研究现状数据挖掘，涉及到多种学科和技术领域，研究方向也不尽相同

5、。根据数据挖掘的方法分，其可分为：数据的分类、聚类、分析与预测、关联规则挖掘、序列模式挖掘等；根据数据挖掘的对象分，有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、一直数据库、遗产数据库以及环球网Web1。决策树、BP神经网络、人工智能、贝叶斯网络、关联分析和统计方法等是数据挖掘中的经典算法2。在众多的数据挖掘方法中，数据分类是一种高效的数据挖掘方法3。作为数据挖掘中重要的环节，数据分类主要利用解析训练，创建分类模型3，具体过程如图1所示。而其中决策树算法是使用广泛的算法之一，回归树和分类树是两种基本的决策树种类3。其通过对历史数据的学习和训练，建立起高价值的、

6、能够揭露数据隐含信息以及关联规则的树，以完成数据的分类。输出待矫正决策树输出决策树图2-1 决策树生成过程3决策树算法产生于20世纪60年代，几十年间，不断有新的算法被提出，有划时代的意义，为各科学领域的研究提供了帮助2：（1） ID3算法，即迭代分类器，由J.R. Quinlan提出。以信息熵和信息增益作为衡量标准，对数据进行归纳分类；（2） 1984年，L.Breiman等提出CART（分类和回归树）算法，其重要思想是选择具有最小基尼指数的属性为测试属性生成决策树；（3） C4.5算法，是对ID3算法的改进，弥补ID3算法在预测变量缺值处理、剪枝技术、派尘规则等方面的不足；（4） 199

7、6年，M.Mehta和R.Agrawal等人提出SLIQ算法，采取了属性列表、分类列表、类直方图很好的解决了分类中数据量超过内存容量的问题。（5）同年，R.Agrawal和J.Shafer等提出了SPRINT分类方法。和SLIQ算法一样，SPRINT算法也解决了内存空间的问题，但两者的处理方式不同，SPRINT具有并行处理问题的特点。（6） 1998年，J.Genrke和R.Ramakrishnan等提出了Rain Forest分类算法，主要应用于大规模数据集快速建树的分类问题。其主要思想是根据每一次计算之后的计算机内存情况合理调整数据集大小，合理使用内存资源。（7） 2000年，PUBLI

8、C算法由R.Rastogi和K.Shim提出，具有CART算法的优点。除此之外，由于将建树阶段和修剪阶段合并，其剪枝效率也更佳。（8） 2005年，C-模糊决策树算法诞生，它是由W.pedrycz和A.Zenon提出的。采用的模糊聚类方法改进了传统决策树建树的过程，可直接处理连续型数据，并且同时考虑多个属性；（9） 2007年，C.Qi改进了模糊决策树算法，即在测试属性时，若为多值或者连续属性，那么可以根据模糊理论在模糊化后计算得出熵，其他属性依旧按照传统的计算方法得出。三、C4.5算法介绍及分析1.ID3算法概述纵观国内外对决策树算法的研究，最著名的和经典的莫过于ID3算法，其主要思想是以信

9、息增益为标准来选择测试属性，选取信息增益最高（或熵压缩最大）的属性作为当前节点的测试属性4。其基本过程是：首先计算每个属性的信息增益，选择信息增益最高作决策树的节点，再根据属性的取值情况创建分支，重复递归调用该方法对各分支的子集继续建立分支，直到全部子集归于同类别的数据，从而得到决策树5。虽然ID3算法思路清晰、简单易学，但是存在着以下一些问题56：（1）信息增益的值对特征数目较多的特征集有很大依赖性，往往选择属性取值最多的属性，而该属性不一定最优；（2） ID3只能处理离散型数据，不能处理连续型数据；（3） ID3是单变量决策树，即在分支节点上只考虑单个属性，许多复杂概念的表达困难，即所有

10、的内部节点在创建决策树时必须要清楚；（4）抗噪性差，训练例子中的正例和反例比较难控制。在ID3算法的基础上，为了解决以上问题，国外学者提出了C4.5算法。C4.5算法在保持ID3算法优点的前提下对ID3算法做出了改进6：（1）用信息增益率来选择属性，避免出现偏向选择取值多的属性的现象；（2）在树构造过程中进行剪枝，解决因运用ID3算法导致决策树中子树的重复问题，以及一些属性在决策树的某个路径上被检验多次的问题；（3）扩大数据处理范围，即C4.5算法能够处理连续型数据，前提是需要将连续型数据离散化；除此之外，C4.5算法还可以处理不完整数据。2.C4.5算法描述C4.5算法不仅可以应用于

11、离散型属性的分类，还可应用于连续型属性。并且在测试属性的过程中，用信息增益率代替信息增益作为衡量标准。还进行了决策树的剪枝（基于悲观错误的后剪枝方法），将最不可靠的分枝删除，取而代之的是多个类的叶节点，从而加快分类速度并提高决策树分类新数据的准确率。文献5给出了C4.5算法主要过程，描述如下：算法：Generate_decision_tree由给定的训练数据集产生一颗决策树输入：数据集D，候选属性集A输出：一颗决策树TGenerate_decision_tree（D, A）创建节点T：If D都在统一各类C Then返回T作为叶节点，以类C标记：Else if A为空or没有剩余属性进一步划分

12、样本then返回T为叶节点，标记为D中最普通的类；/多数表决For each D中的属性计算信息增益率gainRatio选择A中具有最高信息增益率的属性test_A为测试属性；标记节点T为test_A；If测试属性为连续型then找到该属性的分割阈值；For each test_A中的已知值Ai；/划分D由节点T生出一个条件为test_A=Ai的分枝；设Di是D中test_A=Ai的样本集合；/一个划分If Di为空then加上一个树叶，标记为D中最普通的类；Else加上一个由Generate_decision_tree（Di，D-test_A）返回的节点；进行剪枝；3.信息增益率的计算5（1

13、）熵假设数据集合D，则：Pr(cj)表示cj类在数据集D中的概率，当熵越小，数据越纯净，所以，熵可作为数据混杂度或混乱度的衡量指标（2）信息增益信息增益衡量混杂度或混乱度的减少量。假设Ai是D的属性，可取v个值，则D可划分成v个不相交的子集D1，D2，Dv，划分后D的熵为：则属性Ai的信息增益计算为：（3）信息增益率信息增益偏向选择取值较多的属性，为了修正这种偏袒性，利用数据集的相对于属性值分布的熵归一化信息增益，使得熵都是相对于累属性的，称为信息增益率，计算式为s表示属性Ai的可能取值数目，Dj表示D中具有Ai属性第j个值的子集。四、C4.5算法的应用实验设计C4.5算法的应用范围相当

14、广泛，特别是在高校教学管理数据挖掘方面，比如高校综合教学评价、高校学生成绩管理、高校就业预测分析、高校奖学金评定等方面。除此之外，在高校学生选课人数方面，本论文发现教师打分高、课程内容有趣并且和专业相关等等课程非常受学生欢迎，相反教师打分低或者课程内容无趣的课程选课人数寥寥无几。因此本论文认为，在高校学生选课背后存在一定规律，有一些因素影响着学生做出选课决策。通过分析学生选课背后的信息，可以了解高校学生青睐于哪种课程，提高高校课程设置的能力以及改善课程质量。本论文为此设计了研究实验，说明了实验思路，并结合C4.5决策树算法做出具体的数据分析，最后得出相关结论。1.实验思路实验目的：结合数据额挖

15、掘中的C4.5决策树算法分析高校学生选课背后的隐含信息，即哪些因素可以影响学生选课的决策，以及影响其决策的过程。研究对象：高校学生研究意义：了解影响学生选课的各种决策因素，改善高校课程内容并且提高课程质量研究方法和手段：C4.5决策树算法研究结果：生成“学生选课”决策树2.实验过程（1）数据准备以上海市某高校为例，通过线上线下两种方式收集数据。线下方式为在校内集中向学生发放有关选课的调查问卷，而线上方式通过在校内网站或者学生频繁活跃的社交网站（如人人网、新浪微博）上发布问卷调查信息，调查问卷见附件。为了得到更具代表性的数据集，本次调查对象为该高校内各年级、不同专业的学生。待调查问卷回收后（保证

16、2000份问卷数量），首先对问卷进行筛选，废除无效问卷（未填写完或者未按要求填写的问卷），然后按照问题分类统计数据。调查结果如下表4-1：表4-1 学生选课情况调查表计数年级教师打分感兴趣专业相关专业必修课热门程度归类：是否选课注：年级分为一共有四个阶段（大一、大二、大三、大四），表示为：“1、2、3、4”；教师打分：分为“高、低”两种情况感兴趣：旨在调查学生是否以课程内容感兴趣为标准选课专业相关：指学生是否以课程内容与专业相关为标准选课专业必修课：指学生是否以课程为专业必修课，即高校强制选课为标准选课热门程度：致学生是否以课程热门为标准而跟风选课（2）数据分析具体分析步骤如下：1. 决策属性

17、的信息熵：由前文信息可知，D=2000，设其中决定“选课”人数为a，则“不选课”的人数为b（a+b=2000），则2. 计算测试属性子类的信息熵：以“年级”属性为例，计算相应的信息熵，调查的样本中年级属性分为“大一、大二、大三、大四”四组，调查数据如下表4-2：表4-2“年级”属性的统计数据类别值“选课”样本数“不选课”样本数总样本数大一eeE大二ffF大三ggG大四hhH计测试属性子类的信息熵（以大一年级为例）：分别得到，；计算按属性“年级”划分后的信息熵：3. 计算测试属性的信息增益率同样的，以“年级”属性为例，计算其信息增益：则“年级”属性的信息增益率为：以此类推，计算出其他属性如“教师

18、打分”、“是否感兴趣”等的信息增益率2，3，i。比较其大小，并进行排列，得到信息增益率最大的属性，即选择该属性做为测试属性，以此创建根节点，引出分枝，每个分枝迭代的进行计算，具体情况如下：例如，（1）选取根节点：若第一次比较得出“教师打分”属性的信息增益率为所有属性中最大，那么“教师打分”将作为决策树的根节点，引出分枝（“高”“低”两个分枝），并进一步对该分枝进行细化。（2）细化分枝：选取是否对课程感兴趣为“教师打分”属性子类下的测试属性，计算其信息增益率。同理，选取其他属性为测试属性，计算各测试属性的信息增益率。比较各测试属性的信息增益率大小，选取最大的作为分枝节点。（3）以此类推，对

19、各分枝进行细化分类，直到出现两种情形时分类停止，即：一个节点上的所有数据属于同一类别；无其他属性可对该属性进行分割。3.实验结果根据以上迭代分析的结果，将所有节点和分枝情况绘制成决策树，并进行相应的剪枝后得到最终的决策树，示例如下图4-1：图4-1“学生选课”决策树通过对学生选课情况的分析，得到如上图所示的决策树。该高校可以根据此决策树获得有关学生选课的重要信息，了解影响学生选课的各种因素，对改善高校课程内容并且提高课程质量有很大帮助。五、结论本论文主要对C4.5算法进行了介绍，并结合高校学生选课对算法过程深入探究。由于时间因素本论文中的实验研究未收集相关数据，实验不够完整且结论不明确，亟待进

20、一步研究，但是可为该方面的数据研究提供借鉴。基于对C4.5算法的描述和分析，C4.5算法具有分类速度较快，且简单易学，很容易理解的优点。但是该算法也有一定的不足，即C4.5算法并不能检验在所有的属性中是否存在冗余属性，而最终导致决策树过大的情况。例如在本论文的实验中，年级类别是否成为高校学生选课的关键因素之一不得而知，所以C4.5算法仍需改进，以减少属性冗余的情况。参考文献1 王晓燕. 浅析数据挖掘技术. 技术词汇. 2009, (156): 12 李旭. 五种决策树算法的比较研究. 大连理工大学硕士学位论文. 2011: 1-33 林静. 基于决策树的数据挖掘算法研究. 福建电脑. 2012

21、, (11): 604 赵静. 决策树ID3算法的一种改进. 科技传播. 2012: 2275 刘耀南. C4.5算法的分析及应用. 东莞理工学院学报. 2012. 19 (05): 47-496 张宏, 高长松. C4.5算法对ID3算法的改进. 工程技术. 2012, (13): 118附件：XXX高校学生选课调查问卷1. 同学所在年级：A. 大一 B. 大二 C. 大三 D. 大四以下问题将针对您选课情况做深入了解：2. 请问您在选课时会以“教师打分”高低为标准吗？A. 是 B. 否 C. 当其他优先条件不满足时会考虑3. 请问您在选课时会以课程内容“感兴趣”与否为标准吗？A. 是 B. 否 C. 当其他优先条件不满足时会考虑4. 请问您在选课时会以课程内容“与专业相关”与否为标准吗？A. 是 B. 否 C. 当其他优先条件不满足时会考虑5. 请问您在选课时会以是否为“专业必修课”为标准吗？A. 是 B. 否 C. 当其他优先条件不满足时会考虑6. 请问您在选课时会以课程是否热门为标准吗？A. 是 B. 否 C. 当其他优先条件不满足时会考虑

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？