数据挖掘技术吉根林.docx

资源描述

数据挖掘技术吉根林.docx

《数据挖掘技术吉根林.docx》由会员分享，可在线阅读，更多相关《数据挖掘技术吉根林.docx（20页珍藏版）》请在冰豆网上搜索。

数据挖掘技术吉根林.docx

数据挖掘技术吉根林

数据挖掘技术

吉根林1）,2）孙志挥2）

1）（南京师范大学计算机系,南京　210097）　2）（东南大学计算机系,南京　210096）

掘技术的产生.数据挖掘是一门交叉性学科,涉

及到机器学习、模式识别、归纳推理、统计学、数据

库、数据可视化、高性能计算等多个领域.

1989年8月在美国底特律召开的第11届国际

人工智能会议上首先出现KDD这个术语,随后引

起了国际人工智能和数据库等领域专家的广泛关

注.1995年在加拿大蒙特利尔召开了首届KDD&

DataMining国际学术会议,从此以后,KDD&

DataMining国际学术会议每年召开一次.经过十

多年的努力,数据挖掘技术的研究已经取得了丰硕

的成果,不少软件公司已研制出数据挖掘软件产品,

并在北美、欧洲等国家得到应用[1].例如,IBM公司

开发的QUEST和IntelligentMiner;Angoss

Software开发的基于规则和决策树的Knowledge

Seeker,AdvancedSoftwareApplication开发的基

于人工神经网络的DBProfile;加拿大SimonFraser

大学开发的DBMinner;SGI公司开发的MineSet

等.在我国,数据挖掘技术的研究也引起了学术界的

高度重视,已成为信息科学界的热点研究课题.

数据挖掘研究具有广泛的应用前景,因为数据

挖掘产生的知识可以用于决策支持、信息管理、科学

研究等许多领域.Parsaye把决策支持空间从应用

层次上分成数据空间（DataSpace）、聚合空间

（AggregationSpace）、影响空间（InfluenceSpace）

和变化空间（VariationSpace）等4个子空间[2]（见

图1）.

其中,数据空间是用于处理基于关键字的决策

查询,其最典型的是联机事务处理（OLTP）;而对数

据空间中数据元素进行聚合运算（如Sum,

Average,Max,Min等）所形成的空间就是聚合空

间,它主要用于联机分析处理（OLAP）;影响空间则

用于处理逻辑性质的决策支持,比如回答“是什么因

素影响公司的销售情况?

”这样的问题,这些信息就

是通过数据挖掘得到的;变化空间负责回答某种变

化的过程和速度问题.在上述4个空间中,数据挖掘

处于影响空间中,从中可以看出数据挖掘在决策支

持中所处的重要地位.

1　数据挖掘技术的分类

数据挖掘技术有根据发现知识的种类分类、根

据挖掘的数据库种类分类、根据采用的技术分类等

几种分类方法[3].

其中,根据发现知识的种类分类有关联规则挖

掘、分类规则挖掘、特征规则挖掘、离群数据挖掘、聚

类分析、数据总结、趋势分析、偏差分析、回归分析、

序列模式分析等;根据挖掘的数据库种类分类有关

系型、事务型、面向对象型、时间型、空间型、文本型、

多媒体型、主动型和异构数据库等;根据采用的技术

分类,最常用的数据挖掘技术有如下7种:

（1）规则归纳　即通过统计方法归纳、提取有价

值的if-then规则,例如关联规则挖掘.

（2）决策树方法[4]　即用树形结构表示决策集

合,这些决策集合是通过对数据集的分类来产生规

则.决策树方法是首先利用信息熵来寻找数据库中

具有最大信息量的字段,从而建立决策树的一个结

点,再根据字段的不同取值来建立树的分支;然后在

每个分支子集中,重复建立树的下层结点和分支,即

可建立决策树.国际上最有影响的决策树方法是由

Quinlan研制的ID3方法.具体算法参见文献[4].

其典型的应用是分类规则挖掘.

（3）人工神经网络[5]　这种方法主要是模拟人

脑神经元结构,也是一种通过训练来学习的非线性

预测模型.它可以完成分类、聚类、特征规则等多种

数据挖掘任务,同时它又以MP模型和HEBB学习

规则为基础,来建立前馈式网络、反馈式网络、自组

织网络3类神经网络模型.

（4）遗传算法[6]　这是一种模拟生物进化过程

的算法,最早由Holland于20世纪70年代提出.它

是基于群体的、具有随机和定向搜索特征的迭代过

程,这些过程有基因组合、交叉、变异和自然选择4

种典型算子.遗传算法作用于一个由问题的多个潜

在解（个体）组成的群体上,并且群体中的每个个体

都由一个编码表示,同时每个个体均需依据问题的

目标函数而被赋予一个适应值.另外,为了应用遗传

算法,还需要把数据挖掘任务表达为一种搜索的问

题,以便发挥遗传算法的优势搜索能力.

（5）模糊技术[7]　即利用模糊集合理论对实际

问题进行模糊评判、模糊决策、模糊模式识别和模糊

716中国图象图形学报第6卷（A版）

分析.这种模糊性是客观存在的,且系统的复杂

性越高,模糊性越强,一般模糊集合理论是用隶属度

来刻画模糊事物的亦此亦彼性的,而李德毅教授在

传统模糊理论和概率统计的基础上,提出了定性定

量不确定性转换模型——云模型[8],并形成了云理

论.云模型是用期望值、熵和超熵来表达定性概念,

同时将概念的模糊性和随机性结合在一起,因而它

为数据挖掘提供了一种概念和知识表达、定性定量

转换、概念的综合和分解的新方法.

（6）粗（Rough）集方法[9]　它是1982年由波兰

逻辑学家Pawlak提出的一种全新的数据分析方

法,近年来在机器学习和KDD等领域获得了广泛

的重视和应用.这种粗集方法是一种研究信息系统

中不确定、不精确问题的有效手段,其基本原理是基

于等价类的思想,而这种等价类中的元素在粗集中

被视为不可区分的,其基本方法是首先用粗集近似

的方法来将信息系统（关系）中的属性值进行离散

化;然后对每一个属性划分等价类,再利用集合的等

价关系来进行信息系统（关系）的约简;最后得到一

个最小决策关系,从而便于获得规则.

（7）可视化技术[10]　即采用直观的图形方式来

将信息模式、数据的关联或趋势呈现给决策者,这样

决策者就可以通过可视化技术来交互地分析数据关

系,而可视化技术主要包括数据、模型和过程3方面

的可视化,其中,数据可视化主要有直方图、盒须图和

散点图;模型可视化的具体方法则与数据挖掘采用的

算法有关,例如,决策树算法采用树形表示;而过程可

视化则采用数据流图来描述知识的发现过程.

上述数据挖掘技术虽各有各的特点和适用范

围,但它们发现知识的种类不尽相同,其中规则归纳

法一般适用于关联规则、特征规则、序列模式和离群

数据的挖掘;决策树方法、遗传算法和粗集方法一般

适用于分类模式的构造;而神经网络方法则可以用

于实现分类、聚类、特征规则等多种数据挖掘;模糊

技术通常被用来挖掘模糊关联、模糊分类和模糊聚

类规则.

2　关联规则的挖掘

2.1　什么是关联规则

关联规则的挖掘[11]是数据挖掘领域中一个非

常重要的研究课题,它是由Agrawal等人首先提出

的.关联规则的挖掘问题可形式化描述如下:

设I={i1,i2,…,im}是由m个不同的项目组成

的集合,给定一个事务数据库D,其中的每一个事务

T是I中一组项目的集合,即TI,T有唯一的标识

符TID.一条关联规则就是一个形如XY的蕴含

式,其中,XI,YI,X∩Y=.关联规则XY成

立的条件是:

①它具有支持度S,即事务数据库D中

至少有S%的事务包含X∪Y;②它具有置信度C,

即在事务数据库D所包含X的事务中,至少有C%

的事务同时也包含Y,关联规则的挖掘问题就是在

事务数据库D中找出具有用户给定的最小支持度

Smin和最小置信度Cmin的关联规则.

挖掘关联规则可以分解为以下两个子问题:

①找出存在于事务数据库中的所有大项集.大

项集是指支持度不小于用户给定的最小支持度的

项集.

②利用大项集生成关联规则.对于每个大项集

A,若aA,a≠,且Support（A）/Support（a）≥

Cmin,则aA-a.这里,Support（A）、Support（a）分

别表示A和a的支持度.

第②个子问题比较容易,其生成算法可参见文

献[11].目前大多数研究均集中在第一个子问题上,

因为这个问题的主要挑战性在于数据量巨大,所以

算法的效率是关键.

3.2　关联规则的研究现状及研究领域

如今,关联规则的挖掘已经取得了令人瞩目的

成果,到目前为止,主要研究工作有:

（1）多循环方式的挖掘算法[12]

多循环方式的挖掘算法是关联规则挖掘的基本

方法.此类算法包括Agrawal等人提出的AIS;

Apriori和AprioriHybrid,Park等人提出的DHP算

法和分割算法Partition以及Toivonen提出的抽样

算法Sampling等等.其中,Apriori算法的基本思想

是重复扫描数据库,并在第K次扫描时产生出长度

为K的大项集LK,而在第K+1次扫描时,只考虑

由LK中的K项集产生长度为K+1的备选集

CK+1;DHP算法是使用Hashing技术来改进备选集

CK的产生过程;Partition算法是将数据库进行分

割,以减少挖掘过程中I/O操作次数;Sampling算

法则是首先对数据库进行抽样,然后对抽样数据库

进行挖掘,从而提高了挖掘效率.国内研究人员还提

出了一些Apriori算法的改进算法.

（2）并行挖掘算法

目前已经提出的有关并行挖掘关联规则的算法

717第8期吉根林等:

数据挖掘技术

Agrawal等人提出的CD（CountDistribution）算

法、CaD（CandidateDistribution）算法、DD（Data

Distribution）算法[13]和由Park等人提出的PDM算

法,以及由Chueng等人提出的算法DMA[14]算法和

FDM算法,虽然这些算法均是基于分布式数据库的

挖掘算法,但也适用于并行挖掘.

（3）增量式更新算法

关联规则的增量式更新问题主要有两种情况:

①在给定的最小支持度和最小置信度条件下,当数

据库添加了新记录后,如何生成数据库中的关联规

则;②给定一个数据库,在最小支持度和最小置信度

发生变化时,如何生成数据库中的关联规则.文献

[15],[16]已对关联规则更新问题进行了讨论,并提

出了相应算法FUP、IUA、PIUA和NEWIUA.

（4）基于约束条件的关联规则挖掘

基于约束条件的关联规则挖掘的主要目的就是

发现更有趣、更实用、更特别的关联规则,文献[17]

就研究了在提供布尔表达式约束情况下的关联规则

发现问题.

（5）挖掘多值属性关联规则

关联规则可分为布尔型关联规则和多值属性关

联规则,而多值属性又可分为数量关联规则和类别

关联规则,其中数量关联规则是指同时包含布尔属

性和连续属性的关联规则,如Agrawal等人扩展布

尔属性的关联规则算法,就将其应用于数量关联规

则的挖掘,并提出了基于支持度的部分K度完全方

法;Fukuda提出了等深度划分的实现方法[18];苑森

淼教授提出的在数量关联规则挖掘中的聚类方法

PKCCA[19]等.目前提出的类别属性关联规则的挖

掘算法,大多是将类别属性关联规则的挖掘问题转

化为布尔型关联规则的挖掘问题[20],即将类别属性

中的每一个类别当作一个属性.

2.3　关联规则衡量标准的不足

目前,生成关联规则的标准主要有如下两个,即

支持度和置信度,但如果仅仅使用用户给定的最小

支持度和置小置信度来生成关联规则,则往往会生

成大量冗余的、虚假的和用户不感兴趣的关联规则.

下面用一个例子来说明这个问题.如表1所示,

设有3个项目数据集分别为X,Y和Z,则可以发现

关联规则XY和XZ,其支持度与信任度见表1.

但从表1中可看出,事实上Z与X之间并不相

关,即XZ是一个虚假规则.奇怪的是,虚假规则

XZ的支持度和信任度却分别超过规则XY的

表1　X、Y、Z数据集及其相应的支持度、信任度

数据集

XYZ

规则支持度

（%）

信任度

（%）

110

111XY2537.5

101

001

001XZ5075

001

支持度和信任度,然而,还不可能找到合适的最低支

持度和最低信任度,使得仅生成XY,而不生成虚

假规则XZ.

这种问题已经引起了不少学者的注意,并提出

在关联规则生成时要加限制条件,如将兴趣度这个

标准加入到关联规则的定义之中.

3　分类规则的挖掘

3.1　分类的基本概念

分类是数据挖掘的一种非常重要的任务,它是

在已有数据的基础上学会一个分类函数或构造一个

分类模型（即通常所说的分类器）,而且该函数或模

型能够把数据库中的数据记录映射到给定类别中的

某一个,从而可以应用于数据预测;若要构造分类模

型,则需要有一个训练样本数据集作为输入,该训练

样本数据集由一组数据库记录或元组构成,其一个

具体的样本记录形式可以表示为（V1,V2,…,Vn,

C）,其中,Vi表示样本的属性值,C表示类别.

3.2　分类模型的构造方法

分类模型的构造方法通常有统计方法（如贝叶

斯方法）、机器学习方法（如决策树方法）、神经网络

方法和等.其中,基于统计方法的分类算法包括

NaiveBayes,K-nearestNeighbor,Kerneldensity,

Lineardiscriminant,Quadraticdiscriminant,

Logisticregression,Projectionpursuit,Bayesian

network等算法;而基于机器学习的分类算法则包

括CART,C4.5,NewID,AC2,CAL5,CN2,

Itrule等;基于神经网络的分类算法包括

Backpropagation,Radialbasisfunction,Kohonen

等;另外,基于粗集方法的分类方法国内外有关学者

也提出了一些算法,如RSBIDM[21]等.

其中,决策树方法、神经网络方法和粗集方法的

718中国图象图形学报第6卷（A版）

基金项目:

国家自然科学基金项目（79970092）

收稿日期:

2000-06-22;改回日期:

2000-12-14

数据挖掘技术

吉根林1）,2）孙志挥2）

1）（南京师范大学计算机系,南京　210097）　2）（东南大学计算机系,南京　210096）

摘　要　数据挖掘技术是当前数据库和人工智能领域研究的热点课题,为了使人们对该领域现状有个概略了解,

在消化大量文献资料的基础上,首先对数据挖掘技术的国内外总体研究情况进行了概略介绍,包括数据挖掘技术

的产生背景、应用领域、分类及主要挖掘技术;结合作者的研究工作,对关联规则的挖掘、分类规则的挖掘、离群数

据的挖掘及聚类分析作了较详细的论述;介绍了关联规则挖掘的主要研究成果,同时指出了关联规则衡量标准的

不足及其改进方法,提出了分类模式的准确度评估方法;最后,描述了数据挖掘技术在科学研究、金融投资、市场营

销、保险业、制造业及通信网络管理等行业的应用情况,并对数据挖掘技术的应用前景作了展望.

关键词　数据挖掘　决策支持　关联规则　分类规则　KDD

中图法分类号:

TP391　TP182　　文献标识码:

A　　文章编号:

1006-8961（2001）08-0715-07

SurveyoftheDataMiningTechniques

JIGen-lin1,2）,SUNZhi-hui2）

1）（Departmentofcomputer,NanjingNormalUniversity,Nanjing210097）

2）（Departmentofcomputer,SoutheastUniversity,Nanjing210096）

Abstract　Dataminingisanemergingresearchfieldindatabaseandartificialintelligence.Inthispaper,thedata

miningtechniquesareintroducedbroadlyincludingitsproducingbackground,itsapplicationanditsclassification.

Theprincipaltechniquesusedinthedataminingaresurveyedalso,whichincluderuleinduction,decisiontree,

artificialneuralnetwork,geneticalgorithm,fuzzytechnique,roughsetandvisualizationtechnique.Association

rulemining,classificationrulemining,outlierminingandclusteringmethodarediscussedindetail.Theresearch

achievementsinassociationrule,theshortcomingsofassociationrulemeasurestandardsanditsimprovement,the

evaluationmethodsofclassificationrulesarepresented.Existingoutlierminingapproachesareintroducedwhich

includeoutlierminingapproachbasedonstatistics,distance-basedoutlerminingapproach,datadetectionmethod

fordeviation,rule-basedoutlierminingapproachandmulti-strategymethod.Finally,theapplicationsofdata

miningtoscienceresearch,financialinvestment,market,insurance,manufacturingindustryandcommunication

networkmanagementareintroduced.Theapplicationprospectsofdataminingaredescribed.

Keywords　Datamining,Decisionsupport,Associationrule,Classificationrule,KDD

0　引　言

数据挖掘（DataMining）,也称数据库中的知识

发现（KDD:

KnowledgeDiscoveryinDatabase）,是

指从大型数据库或数据仓库中提取人们感兴趣的知

识,这些知识是隐含的、事先未知的潜在有用信息,

提取的知识一般可表示为概念（Concepts）、规则

（Rules）、规律（Regularities）、模式（Patterns）等形

式[1].大家知道,如今已可以用数据库管理系统来存

储数据,还可用机器学习的方法来分析数据和挖掘

大量数据背后的知识,而这两者的结合就促成了数

思想已在前面介绍,而贝叶斯方法的基本思想

是:

假定对研究对象已有一定的认识,那么即可先用

先验概率分布来描述这种认识,然后用样本来修正

已有的认识,得后验概率分布,最后通过后验概率分

布来建立分类函数,其具体方法参见文献[22].

3.3　分类模式的准确度评估方法

由于分类模式正确率与训练集的记录数量、属

性的数目及待测记录的分布等因素有关,且通常训

练集越大,分类模式就越可靠,而属性数目越多,则

生成分类模式的难度就越大,其需要的时间也越长,

有时还会将分类器引入歧途,致使构造出不准确的

分类模式,因此,如果可以通过常识确认某个属性与

分类无关,则应将它从训练集中移走.

对产生的分类模式,可以用如下两种方法来进

行准确度评估[23]:

①保留方法（Holdout）,即将数据

库中的一部分（通常是2/3）作为训练集,而保留剩

余的部分用作测试集,分类器是首先使用2/3的数

据来构造分类模式,然后再使用该分类模式对测试

集进行分类,其得出的正确率就是评估的正确率;②

交叉纠错方法,即将数据集分成K个没有交叉数据

的子集,且使所有子集的大小大致相同,这种分类器

训练和测试共K次,且每一次,分类器使用其中

（K-1）个子集来作为训练集,然后在另一个子集上

进行测试,最后把所有得到的正确率的平均值作为

评估正确率.

4　聚类分析

聚类是数理统计中研究“物以类聚”的一种方

法,它的任务是把一组个体按照相似性归成若干类,

其目的是使得属于同一个类别数据之间的相似性尽

可能大,而不同类别的数据之间的相似性尽可能小.

它与分类分析不同,聚类分析输入的是一组未分类

的记录,并且这些记录应分成几类事先也不知道.聚

类分析就是首先通过分析数据库中的数据,合理地

来划分记录,然后再确定每个记录所在类别.另外,

从技术上看,聚类分析可以采用统计方法、机器学习

方法、人工神经网络方法、模糊技术来加以实现.其

中,在统计方法中,聚类算法一般分为基于概率的聚

类算法和基于距离的聚类算法两种[22],如欧氏距离

等.其中,基于概率的聚类算法在挖掘海量数据集合

时效率非常低;而基于距离的聚类算法在数据挖掘

领域应用则相当广泛,而且其基本思想是属于同一

类别的个体之间的距离尽可能小,而不同类别上的

个体间距离尽可能大.

5　离群数据挖掘

所谓离群数据,是指明显偏离其它数据,不满足

数据一般模式或行为,即与存在的其他数据不一致

的数据.离群数据的挖掘是数据挖掘的重要内容,它

包括离群数据的发现和离群数据的分析,其中离群

数据的发现往往可以使人们发现一些真实的,但又

出乎意料的知识;而离群数据的分析则可能比一般

数据所包含的信息更有价值.

据研究,离群数据挖掘有着广阔的应用前景,例

如,在数据分析时,错误数据的查找;金融、通信领域

的欺诈分析与检测;网络安全管理中,网络入侵的检

测;市场分析中,分析消费极高或极低的客户的行

为;治疗过程中,异常反映的发现等.目前这一领域

正逐渐引起数据库、机器学习和统计学等方面学者

的研究兴趣.离群数据的发现主要有下列几种方

法[24,25]:

（1）基于统计的离群数据发现方法

它是根据已知的数据分布模型,使用不一致性

检验（discordancetest）来确定离群数据,但它的应

用需要事先知道数据集参数（如正态分布）、分布参

数（如均值、标准差）和离群数据的个数,而且这种方

法通常对数值型数据有效,而对高维、周期性数据、

分类数据则较难进行挖掘.

（2）基于距离的离群数据发现方法

通过数据间距离的计算,即可求得离群数据.设

数据集T,T=t1,t2,…,tn;o为数据对象,如果数据集

T中有p部分数据S,远离于对象o及与之距离为d

的邻域,则o即为基于

展开阅读全文