数据挖掘教案.docx

资源描述

数据挖掘教案.docx

《数据挖掘教案.docx》由会员分享，可在线阅读，更多相关《数据挖掘教案.docx（54页珍藏版）》请在冰豆网上搜索。

数据挖掘教案.docx

数据挖掘教案

上课时间

第一周

上课节次

3节

课型

理论

课题

绪论

教学目的

使学生初步认识数据挖掘与数据仓库

教学方法

讲授

重点、难点

数据挖掘与数据仓库的定义及其应用价值

时间分配

教学内容

板书或课件版面设计

1.1初识数据挖掘

1.1.1数据挖掘的产生

数据挖掘产生的前提是需要从多年积累的大量数据中找出隐藏在其中的、有用的信息和规律。

计算机技术和信息技术的发展使其有能力处理这样大量的数据。

1.1.2数据挖掘的应用价值

应用数据挖掘从大量数据中发现规律是面向某一应用的规律，具有具体的指导意义。

早期数据挖掘主要应用于商业领域，随着人们对数据挖掘了解的逐步深入，其应用领域逐步扩大到科学研究、市场营销、金融分析和体育比赛等领域。

1.1.3数据挖掘的发展过程

数据挖掘是20世纪80年代人工智能研究项目失败后，人工智能转入实际应用时提出的，是一个新兴的、面向商业应用的人工智能研究。

1.1.4数据挖掘的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

1.2初识数据仓库

1.2.1数据仓库的产生

20世纪80年代出现了数据仓库的思想，数据仓库是面向主题的、集成的、包含历史的、不可更新的、面向决策支持的、面向全企业的、最明细的数据存储、数据快照式的数据获取。

1.2.2数据仓库的应用价值

传统数据库的处理方式和决策分析中的数据需求在决策处理的系统吸纳供应问题、决策数据需求的问题以及决策数据操作的问题方面不相称，导致企业无法使用现有的业务处理来满足决策分析的需要，因此决策分析需要一个能够不受传统事务处理的约束、高效率处理决策分析数据的支持环境，这就是数据仓库存在的价值。

1.2.3数据仓库的发展过程

数据仓库是一种新的数据处理体系结构，是企业内部各部门业务数据和各种外部数据进行统一和综合的中央数据仓库，为企业决策支持系统提供所需的信息，是一种信息管理技术。

目前世界上最大数据仓库是NRC公司建立的基于其Teradata数据库拥有24TB数据量的Wal-Mart数据仓库系统。

1.2.4数据仓库的定义

数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。

1.2.5数据仓库与数据挖掘的关系

（1）数据仓库系统的数据可以作为数据挖掘的数据源

（2）数据挖掘的数据源不一定必须是数据仓库系统

1.3进一步理解的数据挖掘

1.3.1数据挖掘的功能

数据挖掘的目标是从数据中发现隐含的、有意义的知识，包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析7个方面的功能。

（1）概念描述

对某类对象的内涵进行描述，并概括这类对象的有关特征。

其中，特征性描述用于描述某类对象的共同特征，区别性描述用于描述不同类对象之间的区别。

（2）关联分析

关联分析的目的在于找出数据中隐藏的关联网。

（3）分类与预测

所谓分类就是依照分析对象的属性分门别类、加以定义、建立类组，其关键是确定对数据按照什么标准或什么规则进行分类。

所谓预测就是利用历史数据就爱能力模型，再运用最新数据作为输入值，获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。

（4）聚类分析

又称为无指导的学习，其目的在于客观地按照被处理对象的特征分类，将有相同特征的对象归为一类。

（5）趋势分析

又称为时间序列分析，是从相当长的时间的发展中发现规律和趋势，是时序数据挖掘最基本的内容。

（6）孤立点分析

又称为孤立点挖掘，是指数据库中包含的一些与数据的一般行为或模型不一致的数据。

（7）偏差分析

又称为比较分析，是对差异和极端特例的描述，用于揭示事物偏离常规的异常现象。

1.3.2数据挖掘常用技术

数据挖掘算法是数据挖掘技术的一部分，数据挖掘技术用于执行数据挖掘功能，一个特定的数据挖掘功能只适用于给定的领域。

（1）聚类检测方法

是最早的数据挖掘技术之一，在聚类检测技术中，不是搜寻预先分类的数据，也没有自变量和因变量之分，因此也称为无指导的知识发现或无监督学习。

聚类生成的组叫簇，是数据对象的集合。

聚类检测的过程就是使同一个簇内的任意两个对象之间具有较高的相似性，不同簇的两个对象之间具有较高的向异性。

用于数据挖掘的聚类检测方法有：

划分的方法、层次的方法、基于密度的方法、基于网络的方法和基于模型的方法等。

（2）决策树方法

主要应用于分类和预测，提供了一种展示类似在什么条件下会得到什么值这类规则的方法。

一个决策树表示一系列的问题，每个问题决定了继续下去的问题会是什么。

决策树方法适合于处理费数值型数据。

（3）人工神经网络方法

人工神经网络方法主要用于分类、聚类、特征挖掘、预测等方面。

它通过向一个训练数据集学习和应用所学知识，生成分类和预测的模式。

对于数据是不定性的和没有任何明显模式的情况，应用人工神经网络比较有效。

人工神经网络方法主要有：

前馈式网络、反馈式网络和自组织网络。

（4）遗传算法

该算法模仿人工选择培育良种的思路，从一个初始规则集合开始，迭代地通过交换对象成员产生群体，评估并择优复制，优胜劣汰逐代积累计算，最终得到最有价值的知识集。

繁殖：

从一个旧种群选择出生命力强的个体产生新种群的过程。

交叉：

选择两个不同个体的部分进行交换，形成新个体的过程。

变异：

对某些个体的某些基因进行变异。

（5）关联分析方法

包含关联发现（能够系统地、有效地得到关联规则，找出关联组合，在关联组合中，如果出现某一项，另一项也会出现）、序列模式发现（找到时间上连续的事件）和类似的时序发现模式（先找到一个事件顺序，再推测出其它类似的事件顺序）。

（6）基于记忆的推理算法

即使用一个模型的已知实例来预测未知的实例。

1.3.3数据挖掘的过程

1.4数据挖掘应用实例

某些具有特定的应用问题和应用背景的领域是最能体现数据挖掘作用的应用领域。

1.5数据挖掘的发展趋势

1.5.1数据挖掘研究方向

（1）专门用于知识发现的形式化和标准化的数据挖掘语言。

（2）数据挖掘过程中的便于用户理解的及人机交互的可视化方法。

（3）网络环境下的数据挖掘技术。

（4）加强对各种非结构化数据的挖掘。

1.5.2数据挖掘应用的热点

（1）网站的数据挖掘

（2）生物信息或基因的数据挖掘

（3）文本的数据挖掘

教学后记

本章节的重点是数据挖掘与数据仓库的定义，难点是它们的应用价值，学生对它们的应用领域及案例相对较为感兴趣。

上课时间

第二周

上课节次

3节

课型

理论

课题

数据仓库的定义、结构、说明及其清理

教学目的

使学生初步了解数据仓库

教学方法

讲授

重点、难点

数据仓库的定义及其结构

时间分配

教学内容

板书或课件版面设计

2.1数据仓库的定义

数据仓库是一个环境，而不是一件产品，提供用户用于决策支持的当前和历史的数据，这些数据时在传统的操作型数据库中很难或不能得到的。

数据仓库的4个基本特征：

（1）数据仓库的数据是面向主题的。

（2）数据仓库的数据是集成的。

（3）数据仓库的数据是不可更新的。

（4）数据仓库的数据时随时间不断变化的。

2.1.1数据仓库的数据是面向主题的

面向主题性表示数据仓库中数据组织的基本原则，数据仓库中的所有数据都是围绕着某一主题组织和展开的。

（1）主题的概念

主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象，在逻辑意义上，它是对应企业中某一宏观分析领域所涉及的分析对象。

面向主题的数据组织方式，就是在较高上分析对象的数据的一个完整、一致的描述，能完整、统一地刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。

（2）主题的划分原则

在划分主题是，必须保证每个主题的独立性和完备性。

主题确定后需要确定主题应该包含的数据。

在主题的数据组织中应该注意，不同的主题之间可能出现相互重叠的信息，这种主题间的重叠是逻辑的，而不是同一数据内容的物理存储重复。

2.1.2数据仓库的数据是集成的

在数据进入数据仓库之前，必然要经过转换、统一与综合，这是数据仓库建设中最关键也是最复杂的一步。

2.1.3数据仓库的数据是不可更新的

数据仓库的数据主要供企业决策分析之用，不是用来进行日常操作的，一般只保存过去的数据，而不随源数据的变化而实时更新，数据仓库中的数据一般不再修改。

由于数据仓库的数据是不可更新的，因此也称其具有非易失性。

这种不可更新性可以支持不同的用户在不同的时间查询相同的问题时获得相同的结果。

2.1.4数据仓库的数据是随时间不断变化的

数据仓库的数据随时间的不断变化主要体现在数据仓库随时间变化不断增加新的数据内容。

数据仓库的数据初装完成后，再向数据仓库输入数据的过程称为数据追加。

数据追加的内容仅限于上次向数据仓库输入后元数据库中变化了的数据。

2.2数据仓库的结构

数据仓库中的数据可分为多个级别，不同综合级别称之为“粒度”。

2.2.1元数据

元数据是“关于数据的数据”，可对数据仓库中的各种数据进行详细的描述与说明，说明每个数据的上下文关系，使每个数据具有符合现实的真实含义，使最终用户了解这些数据之间的关系。

（1）元数据在数据仓库中的作用

①为决策支持系统分析员和高层决策人员服务提供便利。

②解决面向应用的操作型环境和数据仓库的复杂关系。

（2）元数据的使用

①元数据在数据仓库开发期间的使用。

②元数据在数据源抽取中的作用。

③元数据在数据清理与综合中的使用。

（3）元数据的分类

按元数据的类型可分为关于基本数据的元数据、用于数据处理的元数据和关于企业组织结构的元数据。

按抽象级别可分为概念级、逻辑级和物理级的元数据。

按元数据承担的任务可分为静态元数据和动态元数据。

从用户的角度对元数据分类没有一个统一的标准，往往与元数据的使用目的有关，一般可分为技术元数据和业务元数据两类。

（4）元数据的内容

①数据源的元数据

②数据模型的元数据

③数据准备区元数据

④数据库管理系统元数据

⑤前台元数据

2.2.2粒度的概念

粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别，它影响存放在数据仓库中的数据量得大小，同时影响数据仓库所能回答查询问题的细节程度。

粒度可分为按时间段综合数据的粒度和按采样率高低划分的样本数据库两种形式。

（1）按时间段综合数据的粒度

按时间段综合数据的粒度是对数据仓库中的数据的综合程度高低的一个度量，一般是按照不同的时间段来综合数据。

它及影响数据仓库中的数据量的多少，也影响数据仓库所能回答询问的种类。

为了适应不同查询的需要，数据仓库中经常建立多重粒度。

（2）样本数据库

样本数据库的粒度级别不是根据综合程度的不同来划分的，而是根据采样率的高低来划分的。

采样粒度不同的样本数据库可以具有相同的综合级别。

样本数据库的抽取可以按照数据的重要程度不同来进行，样本数据库是建立在不同时点上的粒度。

2.2.3分割问题

分割也是数据仓库中的一个重要概念，它是指将数据分散到各自的物理单元中去，以便能分别独立处理，以提高数据处理效率。

数据分割后俄数据单元称为分片。

（1）分割的优越性

①容易重构

②容易重组

③自由索引

④顺序扫描

⑤容易恢复

⑥容易监控

（2）数据分割的标准

数据分割的标准石油开发人员选择的（有时间、商业领域、地理位置、组织单位等），在数据仓库中，按时间总是必需的。

（3）分割的层次

一般分为系统层（由数据库管理系统和操作系统完成分割）和应用层（由应用程序完成分割）两层。

2.2.4数据仓库中的数据组织形式

（1）简单堆积结构

这是数据仓库中最常用、最简单的数据组织形式，它从面向应用的数据库中每天的数据中提取出来，然后按照相应的主题集成为数据仓库中的记录。

（2）轮转综合结构

该结构将数据存储单位分为日、周、月、年几个级别，结构简捷，数据量比简单堆积结构大大减少，但损失了数据细节。

（3）简单直接结构

类似于简单堆积文件，但不是每天集成后放入数据仓库，而是间隔一定时间间隔。

简单直接结构也可以认为是按一定的时间间隔对数据库的采样。

（4）连续结构

通过两个或更多的连续的简单直接结构数据组织形式的文件，可以生成连续结构数据组织形式的文件。

对于各种文件结构的最终实现，关系数据库中仍然要依靠“表”的结构。

2.3数据仓库的说明

数据仓库通过标准手册进行说明，标准手册中包含：

Ø描述什么是数据仓库

Ø描述对数据仓库输送数据的源系统

Ø如何使用数据仓库

Ø有了问题如何获得帮助

Ø谁负责什么

Ø数据仓库的迁入计划

Ø数据仓库数据如何与面向应用的数据相关联

Ø如何为决策分析系统使用数据仓库

Ø什么时候不向数据仓库中加数据

Ø数据仓库中没有什么类型的数据

Ø可利用的元数据的说明

Ø数据仓库的记录系统是什么

2.4数据仓库的清理

数据从数据仓库中“清除”有以下几种形式：

（1）数据加入到失去原有细节的一个轮转综合结构数据组织形式的文件中。

（2）数据从高性能的介质转移到大容量介质上。

（3）数据从数据仓库系统中真正清除。

（4）数据从偶给你体系结构的一个层次转移到另一个层次。

教学后记

本章节的重点是数据仓库的定义，难点是数据仓库的结构，学生掌握情况一般，还需课后多查看相关资料。

上课时间

第三周

上课节次

3节

课型

理论

课题

数据仓库系统的设计、数据的访问及应用

教学目的

使学生学会设计数据仓库系统，并访问其数据

教学方法

讲授

重点、难点

数据仓库系统的设计与素具仓库数据的访问

时间分配

教学内容

板书或课件版面设计

2.5数据仓库系统的设计

2.5.1数据仓库系统设计方案

数据仓库是一个面向数据分析处理的数据环境，数据仓库的数据是面向主体的、集成的、不可更新的、随时间不断变化的。

（1）数据仓库系统设计与数据库系统设计的不同

主要表现在面向的处理类型步步、面向的需求不同、系统设计的目标不同、两者的数据来源或系统的输入不同以及设计的方法和步骤不同等几个方面。

（2）声明周期发SDLC

SDLC有独立的手机需求和分析需求的阶段，一旦进入到构建数据库阶段，系统的需求就基本不变了。

（3）螺旋式卡法方法CLDS

CLDS方法没有独立的收集需求和分析需求的阶段，而是将对需求的过程贯穿整个设计的过程。

（4）数据驱动

创建数据仓库的工作实在原有的数据库的数据基础上进行的，这种从已有数据出发的数据仓库设计方法被称为“数据驱动”的系统设计方案。

其基本思路是：

①利用以前所取得的工作成果

②不再是面向应用

③利用数据模型

数据仓库的系统设计是一个动态的返回和循环的过程。

2.5.2数据仓库设计的三级数据模型

数据模型是对现实世界进行抽象的工具，抽象的程度不同，性阿城的抽象级别层次就不同。

①数据仓库的数据模型中不包含纯操作型的数据。

②数据仓库的数据模型扩充了码结构，增加了时间属性作为码的一部分。

③数据仓库的数据模型中增加了一些导出数据。

在数据仓库设计中存在着概念级数据模型、逻辑数据模型和物理数据模型三级。

（1）概念数据模型

是主观与客观之间的桥梁，最常用的表示方法是实体——联系（E-R）法。

（2）逻辑数据模型

数据仓库中采用的路基数据模型就是关系模型，无论主题还是主题之间的联系都用关系来表示。

数据仓库的逻辑数据模型描述了数据仓库的主题的逻辑实现，即每个主题所对应的关系表的关系模式的定义。

（3）物理数据模型

数据仓库的物理数据模型就是逻辑数据模型在数据仓库中的实现。

（4）高层数据模型、中间层数据模型和低层数据模型

高层数据模型对数据抽象程度最大，使用的主要表达工具是E-R图。

高层数据模型建好后，对高层数据模型中标识的每个主要的主题域或实体，都要建一个中间层数据模型，中间层数据模型有联接数据组（主要用于标识本主题域与其它主题域之间的联系）、基本数据组（基本不会发生变化的数据项）、二次数据组（基本不变化，但又有变化的可能的数据项）和类型数据组（经常变化的数据项）四种基本构造。

底层数据模型就是物理数据模型。

2.5.3提高数据仓库的性能

建立数据仓库过程中一个重要的问题就是如何提高系统的性能，提高系统性能主要就是提高系统的物理I/O性能。

（1）粒度划分

一般要将数据划分为：

详细数据、轻度综合、高度综合三级或更多级粒度，不同粒度级别的数据用于不同类型的分析处理。

划分粒度步骤：

①估算数据仓库中数据的行数和所需占用的空间大小。

②根据估算出的数据行数和所需占用的空间大小，决定是否要划分粒度及如何划分粒度。

（2）分割

①数据仓库中的库中的数据分割与数据库中的数据分片概念相近。

②按时间进行数据分割是最普遍的。

③分割的标准一般要考虑数据量、数据分析处理的实际情况、简单易行以及粒度划分侧率等几方面因素。

（3）其它设计问题

①合并表

②建立时间序列

将数据严格按处理顺序存放到一个或几个连续的物理块中，即所谓的建立数据序列。

建立时间序列可以在同一次调页中处理更多的记录，将物理I/O的次数降到最低。

③引入冗余

引入冗余的目的是减少连接操作，从而减少访问的代价，但引入冗余后需要注意维护数据各个副本间的一致性。

④表的物理分割

⑤生成导出数据

⑥建立广义索引

2.5.4数据仓库设计步骤

数据仓库系统开发时一个经过不断循环、反馈而使系统不断增长与完善的过程，其设计大体上可分为以下几个步骤：

（1）概念模型设计

（2）技术准备工作

（3）逻辑模型设计

（4）物理模型设计

（5）数据仓库生成

（6）数据仓库运行与维护

2.6数据仓库数据的访问

在一些特殊情况下，有可能会出现数据从仓库流向操作性环境的这种数据“回流”现象，当出现“回流”情况时，对数据仓库数据的访问有数据仓库数据的直接访问和间接访问两种方式。

2.6.1数据仓库数据的直接访问

所谓直接访问即操作环境下的一个传统应用向属于数据仓库的数据提出访问请求，在数据仓库环境中查询到所需的数据，再传输到操作型环境中。

2.6.2数据仓库数据的接按揭访问

所谓间接访问即利用程序对数据仓库的数据进行定期的分析，将分析的结果产生新的文件，用来满足操作型应用的需要。

数据仓库数据的访问大多采用间接访问方式。

2.7数据仓库的应用

主要应用领域：

（1）全局应用

主要用于企业在发展过程中形成的多种独立应用的系统，或者用于一些大公司地理位置上分布的多个子公司或部门。

（2）复杂应用

需要将数据分为操作环境数据和分析环境数据量大部分。

教学后记

本章节重点是数据仓库系统的设计和数据仓库数据的访问，难点是数据仓库的应用。

学生并未真正建立和使用过数据仓库，对其设计和使用都还只是停留在理论阶段。

上课时间

第四周

上课节次

3节

课型

理论

课题

数据预处理的目的以及数据的清理、集成和变换

教学目的

使学生掌握数据的基本处理方法

教学方法

讲授

重点、难点

数据的清理、集成和变换

时间分配

教学内容

板书或课件版面设计

3.1数据预处理的目的

3.1.1原始数据中存在的问题

原始数据主要存在以下几个方面问题：

①不一致

②重复

③不完整

④含噪声

噪声是指一个测量变量中的随机错误或偏离期望的孤立点值。

⑤维度高

一个完整的数据挖掘系统应该提供数据预处理模块，此模块的功能是形成供数据挖掘算法使用的目标数据知识基。

3.1.2数据预处理的方法和功能

数据预处理包含数据清洗、数据集成、数据变换和数据归约击中方法。

（1）数据清洗过程即填充空缺值，识别孤立点，去掉原始数据中的噪声和无关数据。

（2）数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储中。

数据集成涉及多个数据源的数据匹配、数值冲突和数据冗余的问题。

（3）数据变换是把原始数据转换成为适合数据挖掘的形式，包括对数据的汇总和聚集、概化、规范化，还可能需要进行属性的构造。

（4）数据归约技术用于产生数据的规约表示，是的数据的范围减小，但更适合于数据挖掘算法的需要，并能够得到和原始数据相同的分析结果。

3.2数据清理

从数据中选取合适的属性作为数据挖掘属性的过程有以下几个参考原则

①尽可能赋予属性名和属性值明确的含义。

②统一多数据源的属性值编码。

③去除唯一属性。

④去除重复属性。

⑤去除可忽略字段。

⑥合理选择关联字段

3.2.1处理空缺值

处理空缺值有以下几种方法：

①忽略该记录

②去掉属性

③手工填写空缺值

④使用默认值

⑤使用属性平均值

⑥使用同类样本平均值

⑦预测最可能的值

3.2.2噪声数据的处理

在测量一个变量时可能产生一些误差或者错误，是的测量值相对于真实值有一定的偏差，这种偏差成为噪声。

去除噪声的方法有：

（1）分箱

分箱方法是一种简单常用的预处理方法，通过考察相邻数据来确定最终值。

所谓“箱子”，实际上就是按照属性值划分的子区间。

在采用分箱技术时，需要确定的两个主要问题就是：

如何分箱以及如何对每个箱子中的数据进行平滑处理。

注意：

分箱之前血药对记录按照目标属性值的大小进行排序。

分箱方法有统一权重（等深分箱法）、统一区间（等宽分箱法）、最小熵和用户自定义区间等。

分箱的目的是对各个箱子中的数据进行处理，所以完成分箱之后，要考虑的就是选择一种方法对数据进行平滑，使得数据尽可能接近。

常使用的数据平滑方法有按平均值怕你规划、按边界值平滑和按中值平滑三种。

（2）聚类

聚类是将物理的或抽象对象的集合分组为由类似的对象组成的多个类的过程。

聚类的结果是生成一组由数据对象组成的集合，称为簇。

同一簇中的所有对象具有相似性，并且一个对象与同簇中任何一个对象之间的相似性一定强于它于其它簇中任何一个对象之间的相似性。

同一簇中的对象用相同的特征来标识，落在簇之外的值称为孤立点，这些孤立点被视为噪声。

聚类的质心即聚类中的平均点。

（3）回归

回归试图发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数据，即通过建立数学模型来预测下一个数值，包括线性回归和非线性回归。

线性回归也称为简单回归，是最简单的回归形式，用直线建模，将一个变量看作另一个变量的线性函数。

多元回归是线性回归的扩展，也成为复回归，有两个火两个以上自变量。

3.3数据集成和变换

数据挖掘所使用的数据通常来自于多个数据存储，所以经常需要把多个数据存储合并起来，这个过程称为数据集成。

而为了是数据符合算法和数据挖掘目标的需要，还学需要对数据进行变换。

3.3.1数据集成

数据集成是将多文件或者多数据库中的异构数据进行合并，然后存放在一个一致的数据存储中，解决语义模型问题，主要工作涉及到数据的冲突问题和不一致数据的处理问题。

在数据集成过程中，通常需要考虑模式匹配、数据冗余和数据值冲突问题。

3.3.2数据变换

（1）平滑

平滑即去除噪声，还可以将连续的数据离散化，增加粒度。

数据平滑的方法包括分箱、聚类、回归等。

（2）聚集

聚集即对数据进行汇总。

聚集常用来构造数据立方体。

（3）数据概化

从原始数据集得到的数据包含一些低层概念的描述，而在数据挖掘中有时并不需要细化到这些概念，可以用它的高层概念替换，所以需要对数据

展开阅读全文