数据挖掘教学大纲文档格式.docx
《数据挖掘教学大纲文档格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘教学大纲文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
本课程主要讲授数据挖掘的基本概念,原理、方法和技术,具体包括:
数据的预处理、分类预测、关联挖掘、聚类分析等内容。
通过学习,使学生理解数据挖掘的基本流程,掌握数据挖掘的基本理论和技术,熟悉数据挖掘成果的表达;
掌握数据挖掘的基本方法,能熟练地应用数据挖掘技术对现实数据进行有效的分析,能够结合Clementine软件从大量统计数据中获取有价值的信息。
三、课程教学目标
数据挖掘是高级数据处理和分析技术。
通过本课程学习,使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与技术,了解数据挖掘的基本理论,掌握重要的数据挖掘方法,掌握如何利用Clementine实现数据分析和挖掘,并使学生具有进一步学习的基础与能力。
四、教学内容与要求
第一章数据挖掘和Clementine使用概述
【教学目的与要求】
本章作为绪论,其目的是让学生对数据挖掘技术有一个总体的认识。
因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括,并熟悉clementine软件的使用环境。
要求学生掌握以下内容:
Ø
数据挖掘的发展
数据挖掘基本知识
数据挖掘功能
数据挖掘应用
数据挖掘的热点问题
熟悉Clementine软件
【教学重点】
1、数据挖掘概念
2、数据挖掘分类
【教学难点】
1、Clementine操作基础
【教学内容】
1、数据挖掘产生的背景
2、数据挖掘的发展
3、数据挖掘概述
3、数据挖掘体系结构
Clementine软件概述
1、Clementine的配置
2、Clementine操作基础
第二章Clementine数据管理
本章中的数据管理主要是指数据挖掘中的数据预处理部分。
对数据进行预处理,不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。
数据预处理一般包括:
数据清理,数据集成,数据变换,数据归约等方法。
要求学生掌握本章讲授的所有数据管理技术。
【教学重点】
1、数据源节点(Sources)
2、记录选项节点(RecordOps)
3、字段选项节点(FieldOps)
【教学内容】
数据源节点(Sources)
1、从开放数据库中导入数据
2、从文本文件中读取数据
3、导入Excel格式的数据
4、用户手动创建数据
记录选项节点(RecordOps)
1、选择节点(Select)
2、对数据的抽样(Sample)
3、修正数据集中的不均匀性(Balance)
4、统计汇总(Aggregate)
5、对节点数据的排序
6、区分节点来清除重复记录
字段选项节点(FieldOps)
1、变量说明
2、变量值的重新计算
3、变量类别值的调整
4、生成新变量
5、变量值的离散化处理
6、生成样本集分割变量
第三章Clementine数据的基本描述分析
基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。
描述集中趋势的描述性统计量一般有均值、中位数和众数;
描述离散程度的描述性统计量一般有方差、标准差和极差。
要求学生掌握Clementine数据的基本分析方法。
1、数据质量探索
2、数据基本描述分析
1、两分类变量相关性的研究
数据质量探索
1、数据的基本描述与质量探索
2、离群点和极端值的修正
3、缺失值的替补
4、数据质量管理的其他功能
基本描述分析
1、计算基本描述统计量
2、绘制散点图
两分类变量相关性的研究
1、两分类变量相关性的图形分析
2、两分类变量相关性的数值分析
两总体的均值比较
变量重要性分析
第四章关联规则挖掘
关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。
其中,关联规则X→Y,存在支持度和信任度。
本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解。
由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、相对比较成熟的分支,因此本章重点在于一些经典理论和算法、热点问题的介绍。
关联规则相关概念
Apriori算法
在Clementine中应用Apriori算法
1、关联规则相关概念
2、Apriori算法
1、序列模式挖掘
关联规则概述
1、基本概念
2、关联规则表示
3、关联规则挖掘算法简介
Apriori算法
1、Apriori算法生成频繁项集的过程
2、Apriori算法从频繁项集产生关联规则
4.3在Clementine中应用Apriori算法
4.4序列模式挖掘
1、序列与序列模式
2、AprioriAll算法
3、在Clementine中应用序列模式挖掘
第五章分类与预测
【教学目的与要求】。
分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。
预测可以涉及数据值预测和类标记预测,但预测通常指值预测。
两者的区别是,分类是用来预测数据对象的类标记,而预测则是估计某些空缺或未知值。
分类与预测在数据挖掘中是一项非常重要的方面,本章对分类与预测的基本概念与步骤、经典的方法以及有关的问题进行了阐述。
要求学生掌握如下内容:
分类和预测数据分析形式
ID3算法
算法
logistic回归分析
1、决策树概述
2、ID3算法
3、算法
1、logistic回归分析
5.1分类与决策树概述
1、分类和预测数据分析形式介绍
2、决策树概述
5.2ID3、与算法及应用
1、信息熵计算
2、决策树归纳策略
3、ID3算法及缺点
4、算法
5、算法及优点
6、在Clementine中应用
5.3二项logistic回归分析
5.4二项logistic回归分析应用
第六章聚类分析
聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
聚类是数据挖掘技术中一个重要组成部分,内容很多,因此要求学生掌握聚类分析原理、基本方法和主要算法。
1、聚类分析原理
2、主要聚类方法分类
1、K-means算法
2、两步聚类算法
6.1聚类分析的一般问题
1、聚类分析介绍
2、聚类分析应用领域
3、聚类分析原理
4、主要聚类方法分类
6.2Clementine的k-means聚类及应用
2、K-means算法的优缺点
3、在Clementine中应用K-Means
6.3Clementine的两步聚类及应用
1、两步聚类算法
2、Clementine的两步聚类应用
五、实践环节
实验1:
一个完整的数据挖掘过程
【实验目的】
1、理解数据挖掘过程
2、熟练掌握Record选项卡中各功能节点的使用
3、熟练掌握Field选项卡中各功能节点的使用
【实验内容】
本实验数据源是“”,以往有大批患有同种疾病的不同病人,在服用了五种药物中的一种之后都取得了同样的治疗效果。
这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据,包括血压(BP,分为高血压High、正常Normal、低血压Low)、胆固醇(Cholesterol,分为正常Normal和高胆固醇High)、唾液中钠元素(Na)和钾元素(K)含量,以及病人年龄(Age)、性别(Sex,包括男M和女F)等。
通过数据分析发现以往处方适用的规律,给出不同临床特征病人更适合服用那种药物的建议,为未来医生填写处方提供参考。
实验2:
在Spss-Clementine中进行关联规则挖掘
1、理解关联规则挖掘原理
2、掌握Apriori节点和GRI节点使用
3、用Spss-Clementine软件实现基本的关联分析
结合老师所提供数据,做如下实验:
1、分析哪些商品会和啤酒一起购买
2、分析不同性别、年龄以及家庭主妇们有怎样的消费偏好
3、探寻不同购买物品之间的联系,为货架的摆放提供依据。
4、探寻购买不同商品(以酒和饮料为例)的顾客的特征,确定促销信息发放的对象。
实验3:
使用BinaryClassifier节点比较不同模型的优劣
1、理解分类挖掘原理
2、掌握“二元分类器”节点的使用
本次实验将使用系统自带数据作为数据源。
从数据上看,在过去的活动中最多的记录数都是在Premiumaccountcampaign下。
Campaign值为整数定义类型节点(例如:
2=Premiumaccount)。
数据中也包含了“响应”(对建议的接受与否)的值域:
(0=no,and1=yes),它将是数据挖掘的目标、预测的对象。
基于顾客的属性,例如收入、年龄、每个月的交易次数等,用这些信息构建或者训练一个模型来预测“响应”率。
希望预测数据中的response,看看预测结果与实际结果匹配的程度。
实验4:
在Clementine中使用K-means进行聚类分析
【实验目的】
1、理解聚类分析挖掘原理
2、掌握K-means节点使用
1、本次实验将使用系统自带DEMO文件夹中的数据作为数据源。
通过使用K-means建立模型,主要是根据收集的个人的一系列属性把人群进行聚类分析,并分为k(这里取5)类的过程。
2、现有数据,收集了16种饮料的热量(calorie)、咖啡因(caffeine)、钠(sodium)及价格(price)四个变量的值。
现在希望利用这四个变量对这16种饮料进行聚类。
3、分析经济发展水平。
这里,以我国31个省市自治区2008年各地区经济发展的数据为例(在“数据与案例”文件夹中),讨论K-Means的具体操作。
变量从x1到x11依次表示:
人口数及分性别人口数,反映各地的人口水平;
出生预期寿命和每万人平均病床数,反映各地区人民健康水平;
大专以上文化程度人口比例反映各地区的教育水平;
人均GDP、第三产业增加值占GDP比例、人均道路面积、省会城市空气质量达到并好于二级的天数以及人均环境污染治理投资额,反映各地区的经济发展和社会环境水平等。
分析目标:
根据所给变量,研究我国31个省市自治区的综合发展水平,分析那些省市自治区处在相同的发展结构水平上。
六、教学方法与手段
本课程采用案例教学法。
教师通过讲解带有一定应用背景的实例,提升学生学习的兴趣,并使学生通过课堂学习了解理论知识,并能带着问题去查阅相关资料,提升学生的自学能力。
作业题均为一些实际问题,要求学生能利用数据挖掘基本原理和方法,结合Clementine软件完成一定量的数据分析。
七、各教学环节学时分配
序号
教学章
理论讲授学时
实验(践)
学时
讨论、测验等学时
1
第1章数据挖掘和Clementine使用概述
第2章Clementine数据管理
4
3
第3章Clementine数据的基本分析
第4章关联规则挖掘
6
5
第5章分类与预测
就6章聚类分析
八、考核方式
考核方法:
阶段测试。
成绩构成:
本课程的总成绩主要由两部分组成:
平时成绩(包括作业情况、出勤情况等)占40%,期末阶段测试实验成绩占60%。
九、推荐教材及参考资料
1、推荐教材
教材名称:
基于Clementine的数据挖掘
编著者:
薛薇陈欢歌
出版单位:
中国人民大学出版社
版次:
2012-3第一版
教材类型:
教育部规划教材
2、参考资料
[1](美)韩家炜(Han,J.) 等著,范明 等译.数据挖掘:
概念与技术(原书第3版).机械工业出版社.2012年8月
大纲制定人:
《数据挖掘》课程组
大纲审定人: