数据挖掘技术吉根林.docx

上传人:b****6 文档编号:7911597 上传时间:2023-01-27 格式:DOCX 页数:20 大小:31.99KB
下载 相关 举报
数据挖掘技术吉根林.docx_第1页
第1页 / 共20页
数据挖掘技术吉根林.docx_第2页
第2页 / 共20页
数据挖掘技术吉根林.docx_第3页
第3页 / 共20页
数据挖掘技术吉根林.docx_第4页
第4页 / 共20页
数据挖掘技术吉根林.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

数据挖掘技术吉根林.docx

《数据挖掘技术吉根林.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术吉根林.docx(20页珍藏版)》请在冰豆网上搜索。

数据挖掘技术吉根林.docx

数据挖掘技术吉根林

数据挖掘技术

吉根林1),2)孙志挥2)

1)(南京师范大学计算机系,南京 210097) 2)(东南大学计算机系,南京 210096)

掘技术的产生.数据挖掘是一门交叉性学科,涉

及到机器学习、模式识别、归纳推理、统计学、数据

库、数据可视化、高性能计算等多个领域.

1989年8月在美国底特律召开的第11届国际

人工智能会议上首先出现KDD这个术语,随后引

起了国际人工智能和数据库等领域专家的广泛关

注.1995年在加拿大蒙特利尔召开了首届KDD&

DataMining国际学术会议,从此以后,KDD&

DataMining国际学术会议每年召开一次.经过十

多年的努力,数据挖掘技术的研究已经取得了丰硕

的成果,不少软件公司已研制出数据挖掘软件产品,

并在北美、欧洲等国家得到应用[1].例如,IBM公司

开发的QUEST和IntelligentMiner;Angoss

Software开发的基于规则和决策树的Knowledge

Seeker,AdvancedSoftwareApplication开发的基

于人工神经网络的DBProfile;加拿大SimonFraser

大学开发的DBMinner;SGI公司开发的MineSet

等.在我国,数据挖掘技术的研究也引起了学术界的

高度重视,已成为信息科学界的热点研究课题.

数据挖掘研究具有广泛的应用前景,因为数据

挖掘产生的知识可以用于决策支持、信息管理、科学

研究等许多领域.Parsaye把决策支持空间从应用

层次上分成数据空间(DataSpace)、聚合空间

(AggregationSpace)、影响空间(InfluenceSpace)

和变化空间(VariationSpace)等4个子空间[2](见

图1).

其中,数据空间是用于处理基于关键字的决策

查询,其最典型的是联机事务处理(OLTP);而对数

据空间中数据元素进行聚合运算(如Sum,

Average,Max,Min等)所形成的空间就是聚合空

间,它主要用于联机分析处理(OLAP);影响空间则

用于处理逻辑性质的决策支持,比如回答“是什么因

素影响公司的销售情况?

”这样的问题,这些信息就

是通过数据挖掘得到的;变化空间负责回答某种变

化的过程和速度问题.在上述4个空间中,数据挖掘

处于影响空间中,从中可以看出数据挖掘在决策支

持中所处的重要地位.

1 数据挖掘技术的分类

数据挖掘技术有根据发现知识的种类分类、根

据挖掘的数据库种类分类、根据采用的技术分类等

几种分类方法[3].

其中,根据发现知识的种类分类有关联规则挖

掘、分类规则挖掘、特征规则挖掘、离群数据挖掘、聚

类分析、数据总结、趋势分析、偏差分析、回归分析、

序列模式分析等;根据挖掘的数据库种类分类有关

系型、事务型、面向对象型、时间型、空间型、文本型、

多媒体型、主动型和异构数据库等;根据采用的技术

分类,最常用的数据挖掘技术有如下7种:

(1)规则归纳 即通过统计方法归纳、提取有价

值的if-then规则,例如关联规则挖掘.

(2)决策树方法[4] 即用树形结构表示决策集

合,这些决策集合是通过对数据集的分类来产生规

则.决策树方法是首先利用信息熵来寻找数据库中

具有最大信息量的字段,从而建立决策树的一个结

点,再根据字段的不同取值来建立树的分支;然后在

每个分支子集中,重复建立树的下层结点和分支,即

可建立决策树.国际上最有影响的决策树方法是由

Quinlan研制的ID3方法.具体算法参见文献[4].

其典型的应用是分类规则挖掘.

(3)人工神经网络[5] 这种方法主要是模拟人

脑神经元结构,也是一种通过训练来学习的非线性

预测模型.它可以完成分类、聚类、特征规则等多种

数据挖掘任务,同时它又以MP模型和HEBB学习

规则为基础,来建立前馈式网络、反馈式网络、自组

织网络3类神经网络模型.

(4)遗传算法[6] 这是一种模拟生物进化过程

的算法,最早由Holland于20世纪70年代提出.它

是基于群体的、具有随机和定向搜索特征的迭代过

程,这些过程有基因组合、交叉、变异和自然选择4

种典型算子.遗传算法作用于一个由问题的多个潜

在解(个体)组成的群体上,并且群体中的每个个体

都由一个编码表示,同时每个个体均需依据问题的

目标函数而被赋予一个适应值.另外,为了应用遗传

算法,还需要把数据挖掘任务表达为一种搜索的问

题,以便发挥遗传算法的优势搜索能力.

(5)模糊技术[7] 即利用模糊集合理论对实际

问题进行模糊评判、模糊决策、模糊模式识别和模糊

716中国图象图形学报第6卷(A版)

分析.这种模糊性是客观存在的,且系统的复杂

性越高,模糊性越强,一般模糊集合理论是用隶属度

来刻画模糊事物的亦此亦彼性的,而李德毅教授在

传统模糊理论和概率统计的基础上,提出了定性定

量不确定性转换模型——云模型[8],并形成了云理

论.云模型是用期望值、熵和超熵来表达定性概念,

同时将概念的模糊性和随机性结合在一起,因而它

为数据挖掘提供了一种概念和知识表达、定性定量

转换、概念的综合和分解的新方法.

(6)粗(Rough)集方法[9] 它是1982年由波兰

逻辑学家Pawlak提出的一种全新的数据分析方

法,近年来在机器学习和KDD等领域获得了广泛

的重视和应用.这种粗集方法是一种研究信息系统

中不确定、不精确问题的有效手段,其基本原理是基

于等价类的思想,而这种等价类中的元素在粗集中

被视为不可区分的,其基本方法是首先用粗集近似

的方法来将信息系统(关系)中的属性值进行离散

化;然后对每一个属性划分等价类,再利用集合的等

价关系来进行信息系统(关系)的约简;最后得到一

个最小决策关系,从而便于获得规则.

(7)可视化技术[10] 即采用直观的图形方式来

将信息模式、数据的关联或趋势呈现给决策者,这样

决策者就可以通过可视化技术来交互地分析数据关

系,而可视化技术主要包括数据、模型和过程3方面

的可视化,其中,数据可视化主要有直方图、盒须图和

散点图;模型可视化的具体方法则与数据挖掘采用的

算法有关,例如,决策树算法采用树形表示;而过程可

视化则采用数据流图来描述知识的发现过程.

上述数据挖掘技术虽各有各的特点和适用范

围,但它们发现知识的种类不尽相同,其中规则归纳

法一般适用于关联规则、特征规则、序列模式和离群

数据的挖掘;决策树方法、遗传算法和粗集方法一般

适用于分类模式的构造;而神经网络方法则可以用

于实现分类、聚类、特征规则等多种数据挖掘;模糊

技术通常被用来挖掘模糊关联、模糊分类和模糊聚

类规则.

2 关联规则的挖掘

2.1 什么是关联规则

关联规则的挖掘[11]是数据挖掘领域中一个非

常重要的研究课题,它是由Agrawal等人首先提出

的.关联规则的挖掘问题可形式化描述如下:

设I={i1,i2,…,im}是由m个不同的项目组成

的集合,给定一个事务数据库D,其中的每一个事务

T是I中一组项目的集合,即TI,T有唯一的标识

符TID.一条关联规则就是一个形如XY的蕴含

式,其中,XI,YI,X∩Y=.关联规则XY成

立的条件是:

①它具有支持度S,即事务数据库D中

至少有S%的事务包含X∪Y;②它具有置信度C,

即在事务数据库D所包含X的事务中,至少有C%

的事务同时也包含Y,关联规则的挖掘问题就是在

事务数据库D中找出具有用户给定的最小支持度

Smin和最小置信度Cmin的关联规则.

挖掘关联规则可以分解为以下两个子问题:

①找出存在于事务数据库中的所有大项集.大

项集是指支持度不小于用户给定的最小支持度的

项集.

②利用大项集生成关联规则.对于每个大项集

A,若aA,a≠,且Support(A)/Support(a)≥

Cmin,则aA-a.这里,Support(A)、Support(a)分

别表示A和a的支持度.

第②个子问题比较容易,其生成算法可参见文

献[11].目前大多数研究均集中在第一个子问题上,

因为这个问题的主要挑战性在于数据量巨大,所以

算法的效率是关键.

3.2 关联规则的研究现状及研究领域

如今,关联规则的挖掘已经取得了令人瞩目的

成果,到目前为止,主要研究工作有:

(1)多循环方式的挖掘算法[12]

多循环方式的挖掘算法是关联规则挖掘的基本

方法.此类算法包括Agrawal等人提出的AIS;

Apriori和AprioriHybrid,Park等人提出的DHP算

法和分割算法Partition以及Toivonen提出的抽样

算法Sampling等等.其中,Apriori算法的基本思想

是重复扫描数据库,并在第K次扫描时产生出长度

为K的大项集LK,而在第K+1次扫描时,只考虑

由LK中的K项集产生长度为K+1的备选集

CK+1;DHP算法是使用Hashing技术来改进备选集

CK的产生过程;Partition算法是将数据库进行分

割,以减少挖掘过程中I/O操作次数;Sampling算

法则是首先对数据库进行抽样,然后对抽样数据库

进行挖掘,从而提高了挖掘效率.国内研究人员还提

出了一些Apriori算法的改进算法.

(2)并行挖掘算法

目前已经提出的有关并行挖掘关联规则的算法

717第8期吉根林等:

数据挖掘技术

Agrawal等人提出的CD(CountDistribution)算

法、CaD(CandidateDistribution)算法、DD(Data

Distribution)算法[13]和由Park等人提出的PDM算

法,以及由Chueng等人提出的算法DMA[14]算法和

FDM算法,虽然这些算法均是基于分布式数据库的

挖掘算法,但也适用于并行挖掘.

(3)增量式更新算法

关联规则的增量式更新问题主要有两种情况:

①在给定的最小支持度和最小置信度条件下,当数

据库添加了新记录后,如何生成数据库中的关联规

则;②给定一个数据库,在最小支持度和最小置信度

发生变化时,如何生成数据库中的关联规则.文献

[15],[16]已对关联规则更新问题进行了讨论,并提

出了相应算法FUP、IUA、PIUA和NEWIUA.

(4)基于约束条件的关联规则挖掘

基于约束条件的关联规则挖掘的主要目的就是

发现更有趣、更实用、更特别的关联规则,文献[17]

就研究了在提供布尔表达式约束情况下的关联规则

发现问题.

(5)挖掘多值属性关联规则

关联规则可分为布尔型关联规则和多值属性关

联规则,而多值属性又可分为数量关联规则和类别

关联规则,其中数量关联规则是指同时包含布尔属

性和连续属性的关联规则,如Agrawal等人扩展布

尔属性的关联规则算法,就将其应用于数量关联规

则的挖掘,并提出了基于支持度的部分K度完全方

法;Fukuda提出了等深度划分的实现方法[18];苑森

淼教授提出的在数量关联规则挖掘中的聚类方法

PKCCA[19]等.目前提出的类别属性关联规则的挖

掘算法,大多是将类别属性关联规则的挖掘问题转

化为布尔型关联规则的挖掘问题[20],即将类别属性

中的每一个类别当作一个属性.

2.3 关联规则衡量标准的不足

目前,生成关联规则的标准主要有如下两个,即

支持度和置信度,但如果仅仅使用用户给定的最小

支持度和置小置信度来生成关联规则,则往往会生

成大量冗余的、虚假的和用户不感兴趣的关联规则.

下面用一个例子来说明这个问题.如表1所示,

设有3个项目数据集分别为X,Y和Z,则可以发现

关联规则XY和XZ,其支持度与信任度见表1.

但从表1中可看出,事实上Z与X之间并不相

关,即XZ是一个虚假规则.奇怪的是,虚假规则

XZ的支持度和信任度却分别超过规则XY的

表1 X、Y、Z数据集及其相应的支持度、信任度

数据集

XYZ

规则支持度

(%)

信任度

(%)

110

111XY2537.5

101

101

001

001XZ5075

001

001

支持度和信任度,然而,还不可能找到合适的最低支

持度和最低信任度,使得仅生成XY,而不生成虚

假规则XZ.

这种问题已经引起了不少学者的注意,并提出

在关联规则生成时要加限制条件,如将兴趣度这个

标准加入到关联规则的定义之中.

3 分类规则的挖掘

3.1 分类的基本概念

分类是数据挖掘的一种非常重要的任务,它是

在已有数据的基础上学会一个分类函数或构造一个

分类模型(即通常所说的分类器),而且该函数或模

型能够把数据库中的数据记录映射到给定类别中的

某一个,从而可以应用于数据预测;若要构造分类模

型,则需要有一个训练样本数据集作为输入,该训练

样本数据集由一组数据库记录或元组构成,其一个

具体的样本记录形式可以表示为(V1,V2,…,Vn,

C),其中,Vi表示样本的属性值,C表示类别.

3.2 分类模型的构造方法

分类模型的构造方法通常有统计方法(如贝叶

斯方法)、机器学习方法(如决策树方法)、神经网络

方法和等.其中,基于统计方法的分类算法包括

NaiveBayes,K-nearestNeighbor,Kerneldensity,

Lineardiscriminant,Quadraticdiscriminant,

Logisticregression,Projectionpursuit,Bayesian

network等算法;而基于机器学习的分类算法则包

括CART,C4.5,NewID,AC2,CAL5,CN2,

Itrule等;基于神经网络的分类算法包括

Backpropagation,Radialbasisfunction,Kohonen

等;另外,基于粗集方法的分类方法国内外有关学者

也提出了一些算法,如RSBIDM[21]等.

其中,决策树方法、神经网络方法和粗集方法的

718中国图象图形学报第6卷(A版)

基金项目:

国家自然科学基金项目(79970092)

收稿日期:

2000-06-22;改回日期:

2000-12-14

数据挖掘技术

吉根林1),2)孙志挥2)

1)(南京师范大学计算机系,南京 210097) 2)(东南大学计算机系,南京 210096)

摘 要 数据挖掘技术是当前数据库和人工智能领域研究的热点课题,为了使人们对该领域现状有个概略了解,

在消化大量文献资料的基础上,首先对数据挖掘技术的国内外总体研究情况进行了概略介绍,包括数据挖掘技术

的产生背景、应用领域、分类及主要挖掘技术;结合作者的研究工作,对关联规则的挖掘、分类规则的挖掘、离群数

据的挖掘及聚类分析作了较详细的论述;介绍了关联规则挖掘的主要研究成果,同时指出了关联规则衡量标准的

不足及其改进方法,提出了分类模式的准确度评估方法;最后,描述了数据挖掘技术在科学研究、金融投资、市场营

销、保险业、制造业及通信网络管理等行业的应用情况,并对数据挖掘技术的应用前景作了展望.

关键词 数据挖掘 决策支持 关联规则 分类规则 KDD

中图法分类号:

TP391 TP182  文献标识码:

A  文章编号:

1006-8961(2001)08-0715-07

SurveyoftheDataMiningTechniques

JIGen-lin1,2),SUNZhi-hui2)

1)(Departmentofcomputer,NanjingNormalUniversity,Nanjing210097)

2)(Departmentofcomputer,SoutheastUniversity,Nanjing210096)

Abstract Dataminingisanemergingresearchfieldindatabaseandartificialintelligence.Inthispaper,thedata

miningtechniquesareintroducedbroadlyincludingitsproducingbackground,itsapplicationanditsclassification.

Theprincipaltechniquesusedinthedataminingaresurveyedalso,whichincluderuleinduction,decisiontree,

artificialneuralnetwork,geneticalgorithm,fuzzytechnique,roughsetandvisualizationtechnique.Association

rulemining,classificationrulemining,outlierminingandclusteringmethodarediscussedindetail.Theresearch

achievementsinassociationrule,theshortcomingsofassociationrulemeasurestandardsanditsimprovement,the

evaluationmethodsofclassificationrulesarepresented.Existingoutlierminingapproachesareintroducedwhich

includeoutlierminingapproachbasedonstatistics,distance-basedoutlerminingapproach,datadetectionmethod

fordeviation,rule-basedoutlierminingapproachandmulti-strategymethod.Finally,theapplicationsofdata

miningtoscienceresearch,financialinvestment,market,insurance,manufacturingindustryandcommunication

networkmanagementareintroduced.Theapplicationprospectsofdataminingaredescribed.

Keywords Datamining,Decisionsupport,Associationrule,Classificationrule,KDD

0 引 言

数据挖掘(DataMining),也称数据库中的知识

发现(KDD:

KnowledgeDiscoveryinDatabase),是

指从大型数据库或数据仓库中提取人们感兴趣的知

识,这些知识是隐含的、事先未知的潜在有用信息,

提取的知识一般可表示为概念(Concepts)、规则

(Rules)、规律(Regularities)、模式(Patterns)等形

式[1].大家知道,如今已可以用数据库管理系统来存

储数据,还可用机器学习的方法来分析数据和挖掘

大量数据背后的知识,而这两者的结合就促成了数

思想已在前面介绍,而贝叶斯方法的基本思想

是:

假定对研究对象已有一定的认识,那么即可先用

先验概率分布来描述这种认识,然后用样本来修正

已有的认识,得后验概率分布,最后通过后验概率分

布来建立分类函数,其具体方法参见文献[22].

3.3 分类模式的准确度评估方法

由于分类模式正确率与训练集的记录数量、属

性的数目及待测记录的分布等因素有关,且通常训

练集越大,分类模式就越可靠,而属性数目越多,则

生成分类模式的难度就越大,其需要的时间也越长,

有时还会将分类器引入歧途,致使构造出不准确的

分类模式,因此,如果可以通过常识确认某个属性与

分类无关,则应将它从训练集中移走.

对产生的分类模式,可以用如下两种方法来进

行准确度评估[23]:

①保留方法(Holdout),即将数据

库中的一部分(通常是2/3)作为训练集,而保留剩

余的部分用作测试集,分类器是首先使用2/3的数

据来构造分类模式,然后再使用该分类模式对测试

集进行分类,其得出的正确率就是评估的正确率;②

交叉纠错方法,即将数据集分成K个没有交叉数据

的子集,且使所有子集的大小大致相同,这种分类器

训练和测试共K次,且每一次,分类器使用其中

(K-1)个子集来作为训练集,然后在另一个子集上

进行测试,最后把所有得到的正确率的平均值作为

评估正确率.

4 聚类分析

聚类是数理统计中研究“物以类聚”的一种方

法,它的任务是把一组个体按照相似性归成若干类,

其目的是使得属于同一个类别数据之间的相似性尽

可能大,而不同类别的数据之间的相似性尽可能小.

它与分类分析不同,聚类分析输入的是一组未分类

的记录,并且这些记录应分成几类事先也不知道.聚

类分析就是首先通过分析数据库中的数据,合理地

来划分记录,然后再确定每个记录所在类别.另外,

从技术上看,聚类分析可以采用统计方法、机器学习

方法、人工神经网络方法、模糊技术来加以实现.其

中,在统计方法中,聚类算法一般分为基于概率的聚

类算法和基于距离的聚类算法两种[22],如欧氏距离

等.其中,基于概率的聚类算法在挖掘海量数据集合

时效率非常低;而基于距离的聚类算法在数据挖掘

领域应用则相当广泛,而且其基本思想是属于同一

类别的个体之间的距离尽可能小,而不同类别上的

个体间距离尽可能大.

5 离群数据挖掘

所谓离群数据,是指明显偏离其它数据,不满足

数据一般模式或行为,即与存在的其他数据不一致

的数据.离群数据的挖掘是数据挖掘的重要内容,它

包括离群数据的发现和离群数据的分析,其中离群

数据的发现往往可以使人们发现一些真实的,但又

出乎意料的知识;而离群数据的分析则可能比一般

数据所包含的信息更有价值.

据研究,离群数据挖掘有着广阔的应用前景,例

如,在数据分析时,错误数据的查找;金融、通信领域

的欺诈分析与检测;网络安全管理中,网络入侵的检

测;市场分析中,分析消费极高或极低的客户的行

为;治疗过程中,异常反映的发现等.目前这一领域

正逐渐引起数据库、机器学习和统计学等方面学者

的研究兴趣.离群数据的发现主要有下列几种方

法[24,25]:

(1)基于统计的离群数据发现方法

它是根据已知的数据分布模型,使用不一致性

检验(discordancetest)来确定离群数据,但它的应

用需要事先知道数据集参数(如正态分布)、分布参

数(如均值、标准差)和离群数据的个数,而且这种方

法通常对数值型数据有效,而对高维、周期性数据、

分类数据则较难进行挖掘.

(2)基于距离的离群数据发现方法

通过数据间距离的计算,即可求得离群数据.设

数据集T,T=t1,t2,…,tn;o为数据对象,如果数据集

T中有p部分数据S,远离于对象o及与之距离为d

的邻域,则o即为基于

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 生产经营管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1