数据仓库与数据挖掘定性归纳.ppt

资源描述

数据仓库与数据挖掘定性归纳.ppt

《数据仓库与数据挖掘定性归纳.ppt》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘定性归纳.ppt（65页珍藏版）》请在冰豆网上搜索。

数据仓库与数据挖掘定性归纳.ppt

数据仓库与数据挖掘数据仓库与数据挖掘蔡永明13589148464Sm_第九章定性归纳提纲n一、基本概念n二、数据泛化（datageneralization）n三、属性相关分析n四、挖掘概念对比描述n五、挖掘大数据库的描述型统计信息3一、基本概念n数据库通常包含了大量细节性数据，然而用户却常常想要得到能以简洁描述性方式所提供的概要性总结（summarized）。

这样的数据摘要能够提供一类数据的整体情况描述；或与其它类别数据相比较的有关情况的整体描述。

此外用户通常希望能轻松灵活地获得从不同角度和分析细度对数据所进行的描述。

描述型数据挖掘又称为概念描述（conceptdescription），它是数据挖掘中的一个重要组成部分本章就将主要介绍如何有效地进行定性归纳以获得概念描述的有关内容。

4一、基本概念n通常一个数据库管理系统会提供多个数据管理与操作工具以帮助用户（或专家）从大型数据库获取各种数据。

这类数据获取工具一般都是利用数据查询语言，q如：

这类工具可以从一个在线电话号码簿上查询出一个人的电话号码；q如：

获得2005年某个商店所进行的事务处理。

n但是这类处理并不是数据挖掘，而是数据查询处理（queryprocessing）负责从数据库中取出数据并在必要时进行一些数据合计处理；n而数据挖掘则对数据进行深度分析并发现隐藏在数据中有意义的模式。

n最简单的描述型数据挖掘就是定性归纳。

定性归纳常常也称为概念描述（conceptdescription）5一、基本概念n概念描述（conceptdescription）如：

商店常客等并不是简单地进行数据合计操作，而是生成对数据的定性描述和对比定性描述q定性概念描述：

提供了一个有关数据整体的简洁清晰描述；q对比定性概念描述（discrimination）则提供了基于多组（不同类别）数据的对比概念描述。

6一、基本概念n概念描述（conceptdescription）q一个概念的描述通常也不是唯一的，但基于不同的主观与客观标准，会有一些概念描述内涵优于其它概念描述。

n客观标准一般指描述的简洁性及其所涵盖的范围；n主观标准则与用户背景知识及其所涉及的有关信念相关7一、基本概念n概念描述与数据仓库及OLAPq数据仓库和OLAP工具是基于多维数据模型的，它是以数据立方形式对数据进行处理的。

其处理内容主要包括两方面：

维（属性）和处理功能（如：

合计）。

而在目前大多数数据仓库系统中，其所能处理的属性类型和处理功能都是有限的l目前许多OLAP所处理的属性只能是非数值类型的；l而处理功能（如：

Sum（）、Average（）、Count（））也仅能用于对数值数据的处理；q与之相比，在概念描述形成过程中，数据库中的数据可以是各种类型，其中包括：

数值型、非数值型、文本型、图像，此外数据处理功能也可以涉及复杂数据类型、非数值数据的合并，因此就OLAP处理所涉及维的类型以及处理功能而言，OLAP是一种简单的数据分析的方法；而数据库概念描述则能够处理复杂数据类型和对复杂数据进行处理。

8一、基本概念n概念描述与数据仓库及OLAPq数据仓库中在线分析处理过程完全是一个用户控制驱使的过程，选择所分析维（属性）和有关操作均是由用户控制的，尽管大多数系统的操作界面友好，但仍然需要用户对每一维的作用都要有较好的理解；q与此相比，概念描述则是一个更加自动化的数据挖掘过程，它的目的就是帮助用户确定数据分析所应包含维（属性），以及数据挖掘应进行到哪一抽象层次以便获得更加有趣的数据摘要。

9二、数据泛化（datageneralization）1、为什么进行数据泛化n直观上讲，若一个属性（维）的取值可以帮助有效地区分不同类别的数据集（class），那么这个属性（维）就被认为是与相应类别数据集密切相关的。

q例如：

一个汽车的颜色不太可能用于区分贵贱汽车（类别）；但是汽车的型号、品牌、风格可能是更相关的属性。

n此外即使同一个属性（维），其不同抽象层次的概念对不同类别数据集的分辨能力也不同。

q例如：

在出生日期（birth_date）维中，birth_day和birth_month都不太可能与雇员的工资相关；而只有birth_year（年龄）可能与雇员的工资salary相关。

q这也就意味着属性（维）相关分析应该在多层次抽象水平上进行，只有最相关的那个层次的属性（维）应被包含到数据分析中。

10二、数据泛化（datageneralization）姓名性别年龄省份城市街道电话成绩张三男18山东济南AAA12391李四女17河北廊坊CCC23477王五男35山东青岛DDD45695赵六男65四川成都BBB43232示例：

寻找好学生这样的数据全部输入模型分析，是得不出结果的二、数据泛化（datageneralization）n数据泛化（datageneralization）q用简洁清晰的高层次抽象泛化名称来描述相应的定性概念q如：

一个商场数据库中，销售主管不用对每个顾客的购买记录进行检查，而只需要对更高抽象层次的数据进行研究即可，q如：

对按地理位置进行划分的顾客购买总额、每组顾客的购买频率以及顾客收入情况进行更高层次的研究分析。

12二、数据泛化（datageneralization）n数据库中数据及对象在基本概念层次包含了许多细节性的数据信息，要顺利完成这一任务就需要一个十分重要的数据挖掘功能：

数据泛化（datageneralization）q如：

在商场销售数据库的商品信息数据中，就包含了许多诸如：

商品编号、商品名称、商品品牌等低层次信息，对这类大量的数据进行更高层次抽象以提供一个概要性描述对于市场和销售主管来讲显然是十分重要的。

n数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。

对大量数据进行有效灵活的概述方法主要有两种：

q数据立方（datacube）方法；q基于属性的归纳方法（Attribute-OrientedInduction，AOI）。

13二、数据泛化（datageneralization）n利用数据立方方法（又称为OLAP方法）进行数据泛化，被分析的数据存放在一个多维数据库（数据立方）中。

通常数据立方中的数据需要经过费时复杂的运算操作（如：

Sum（）、Average（）、Count（）），这些运算与操作结果就被存放这些数据立方中，不同的抽象层次均需要进行这类运算，最终所获得的这些数据立方可用于决策支持、知识发现，或其它许多应用。

n数据立方的维是通过一系列能够形成层次的属性或网格，例如：

日期（date）可以包含属性天（day）、周（week）、月（month）、季（quarter）和年（year），这些属性构成了维的网格。

一个数据立方中存放着预先对部分或所有维（属性）的合计计算结果。

1、数据立方（datacube）方法14图2.6所示的小格内存储的数据为商品的销售量二、数据泛化（datageneralization）1、数据立方（datacube）方法二、数据泛化（datageneralization）n通过对多维数据立方进行rollup或drilldown操作可以完成数据泛化（datageneralization）和数据细化或特化（dataspecialization）工作。

qrollup操作可以消减数据立方中的维数，或将属性值泛化为更高层次的概念。

qdrilldown操作则恰恰相反。

因为在数据分析中有许多合计函数需要进行重复计算，在多维数据立方中存放预先计算好的结果数据可以确保更快的响应时间，以及从不同角度与多种不同抽象层次上提供更为灵活的察看数据方式。

1、数据立方（datacube）方法16二、数据泛化（datageneralization）n数据立方方法被认为是基于数据仓库、预先计算的具体实施方法。

该方法在进行或数据挖掘查询处理之前，就已完成了离线合计计算。

n而AOI方法是一种在线数据分析技术方法。

虽然离线数据处理与在线数据处理并没有根本的区别。

n基于属性归纳的基本思想就是首先利用关系数据库查询来收集与任务相关的数据并通过对任务相关数据集中各属性不同值个数的检查完成数据泛化操作。

数据泛化操作是通过属性消减或属性泛化（又称为概念层次提升）操作来完成的。

通过合并（泛化后）相同行（tuples）并累计它们相应的个数。

这就自然减少了泛化后的数据集大小。

所获（泛化后）结果以图表和规则等多种不同形式提供给用户。

n数据泛化操作是通过属性消减或属性泛化操作来完成的。

2、基于属性的归纳方法（AOI）17二、数据泛化（datageneralization）属性消减q它基于以下规则进行：

若一个属性（在初始数据集中）有许多不同数值，且na.该属性无法进行泛化操作（如：

没有定义相应的概念层次树）nb.它更高层次概念是用其它属性描述的，这时该属性就可以从数据集中消去。

q上述规则实质就是：

一对属性-值代表了泛化后一个规则中的一个合取项。

消去（规则）一个合取项相当于消除了一个约束，因此泛化了相应规则。

如在（a.）情况下，一个属性有许多不同数值但却没有对它的泛化操作，该属性应该被消去，因为无法对它进行泛化。

若保留它则需要保留（规则中）析取项，这就与挖掘简洁清晰规则知识需求相矛盾。

q在另一方面（b.），若一个属性的更高层次可以用其它属性描述，例如街道属性（Street），它的更高层次概念是利用city、province和country三个属性来表示的。

此时消去属性相当于应用泛化操作。

因此属性消减规则对应于（基于示例学习）泛化操作中“消去规则条件项”规则。

2、基于属性的归纳方法（AOI）18二、数据泛化（datageneralization）属性泛化q它是基于以下规则进行：

若一个属性（在初始数据集中）有许多不同数值，且该属性存在一组泛化操作，则可以选择一个泛化操作对该属性进行处理。

q上述规则是基于以下的理由：

在一个数据集中对一个属性的一个值（一行）进行泛化操作，将会使得相应（所产生的）规则覆盖更多数据（行），这也就泛化了它所表示的概念。

因此属性泛化规则对应于（基于示例学习）泛化操作中“沿泛化概念树上升”规则。

2、基于属性的归纳方法（AOI）19二、数据泛化（datageneralization）属性消减和属性泛化两条规则都表明：

若一个属性有许多不同值，则应对其应用泛化操作。

但这也提出一个问题，“究竟一个属性应有多少不同值才能认为是许多究竟一个属性应有多少不同值才能认为是许多呢？

呢？

”。

根据所涉及属性或具体应用情况，一个用户或许选择一些属性仍保留在低层次抽象水平而对其它一些属性进行更高层次的泛化处理。

对泛化抽象层次的控制也是相当主观的主观的，这一控制也称为属性泛化控制。

q若属性被泛化“过高”，就将会导致过分泛化以致所获（结果）规则变得失去意义。

q另一方面，若属性泛化没有到达“足够高的层次”，那么“亚泛化”也可能同样会变得失去意义。

因此在基于属性归纳时掌握泛化平衡是非常重要的。

2、基于属性的归纳方法（AOI）20二、数据泛化（datageneralization）n属性泛化控制q属性泛化阈值控制属性泛化阈值控制：

q泛化关系阈值控制泛化关系阈值控制q这两个技术可以串行使用，即首先应用属性阈值控制来泛化每个属性；然后再应用泛化关系阈值控制来进一步减少泛化关系的（规模）大小。

2、基于属性的归纳方法（AOI）21二、数据泛化（datageneralization）n属性泛化控制q属性泛化阈值控制属性泛化阈值控制：

q该技术就是对所有属性统一设置一个泛化阈值，或每个属性分别设置一个阈值；若一个属性不同取值个数大于属性泛化阈值，就需要对相应属性作进一步的属性消减或属性泛化操作。

q数据挖掘系统通常都有一个缺省属性阈值（一般从28），当然用户或专家可以修改此值。

如果用户认为对一个属性泛化已到达“过高”层次，他可以修改（增加）相应阈值；同样如用户想继续进行一个属性的泛化操作，他可以修改（减少）相应阈值。

2、基于属性的归纳方法（AOI）22二、数据泛化

展开阅读全文