数据挖掘研究现状综述王立伟.docx

上传人:b****6 文档编号:7536259 上传时间:2023-01-24 格式:DOCX 页数:17 大小:26.41KB
下载 相关 举报
数据挖掘研究现状综述王立伟.docx_第1页
第1页 / 共17页
数据挖掘研究现状综述王立伟.docx_第2页
第2页 / 共17页
数据挖掘研究现状综述王立伟.docx_第3页
第3页 / 共17页
数据挖掘研究现状综述王立伟.docx_第4页
第4页 / 共17页
数据挖掘研究现状综述王立伟.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

数据挖掘研究现状综述王立伟.docx

《数据挖掘研究现状综述王立伟.docx》由会员分享,可在线阅读,更多相关《数据挖掘研究现状综述王立伟.docx(17页珍藏版)》请在冰豆网上搜索。

数据挖掘研究现状综述王立伟.docx

数据挖掘研究现状综述王立伟

数据挖掘研究现状综述

王立伟(上海社会科学院图书馆上海200235)

1995年在加拿大蒙特利尔召开了首届KDD国际学术年会,会

上把数据挖掘技术分为工程领域的数据挖掘与科研领域的

知识发现。

[2]

此后,此类会议每年召开一次,数量和规模逐渐

扩大,从专题研讨会一直发展到国际学术大会,并成为当前计

算机领域的研究方向和研究热点。

目前对KDD的研究主要围

绕理论、技术和应用这三个方面展开。

据统计显示,从1995年至2007年召开的13次KDD国际学

术大会中,9次都在美国主要城市(如纽约、芝加哥、华盛顿

等)举办,其余4次均在加拿大举办(见表1),从未在北美以外

地区举办过。

表1KDD(KnowledgeDiscoveryandDataMining)Meetings

[3]

International

ConferenceonKDD

DateCity

13

th

August2007SanJose,CA,USA

12

th

August2006Philadelphia,PA,USA

11

th

August2005Chicago,IL,USA

10

th

August2004Seattle,WA,USA

9

th

August2003Washington,DC,USA

8

th

August2002Edmonton,Alberta,Canada

7

th

August2001SanFrancisco,CA,USA

6

th

August2000Boston,MA,USA

5

th

August1999SanDiego,CA,USA

4

th

August1998NewYork,NY,USA

3

th

August1997NewportBeach,CA

2

th

August1996Portland,OR

1

th

August1995Montreal,Canada

(2)PAKDD(Pacific-AsiaConferenceonKDD)学术会议

1997年,也就是首届蒙特利尔KDD国际学术大会召开之

后的2年,PAKDD学术会议(Pacific-AsiaConferenceonKDD)

在亚太地区顺利召开,这标志着亚太地区数据挖掘研究进入

发展时期。

PAKDD会议每年召开一次,从1997年至2007年

的11年中,亚洲和大洋洲的主要国家都成功举办过该项会

议(见表2)。

其中,新加坡第十届PAKDD会议除了进行数据

挖掘学术研究外,还与新加坡统计协会(SIS)、新加坡模式识

别和机器智能协会(PREMIA)共同组织了一场基于解决电信

运营商问题的数据挖掘竞赛。

其内容为“如何区分移动通讯

网客户中使用第二代(2G)和第三代(3G)服务的用户”,旨在

明确目前2G网络用户中哪些使用者具有巨大的潜在可能性

转移到使用移动运营商的3G移动网络和服务上。

表2Pacific-AsiaConferenceonKDD(PAKDD)

[4][5]

PAKDDDateCity

11

th

May2007Nanjing,China

10

th

April2006Singapore

9

th

May2005Hanoi,Vietnam

8

th

May2004Sydney,Australia

7

th

April2003Seoul,Korea

6

th

May2002Taipei,Taiwan

5

th

April2001HongKong,China

4

th

April2000Kyoto,Japan

3

th

April1999Beijing,China

2

th

April1998Melbourne,Australia

1

th

1997Singapore

与KDD国际学术会议(ACMSIGKDDInternationalCon-

ferenceonKnowledgeDiscoveryandDataMining)或ECML/

PKDD学术会议(EuropeanConferenceonMachineLearning&

EuropeanConferenceonPrinciplesandPracticeofKnowledge

DiscoveryinDatabases)定期举办竞赛模式不同,新加坡

PAKDD会议是继2000年第四届京都PAKDD会议后,第二次举

办类似的比赛。

之前,京都PAKDD会议曾有过使用医学数据

进行数据挖掘比赛的历史记录。

[6]

2001~2007共7年时间中,PAKDD会议依次由香港、台北、

首尔、悉尼、河内、新加坡和南京主办。

根据对主办方出版的

论文集(AdvancesinKnowledgeDiscoveryandDataMining)统

计显示,7年中共有32个国家和地区共计593篇参会论文被收

录论文集。

其中澳大利亚、韩国、加拿大、美国、日本、台湾、香

港和中国内地每届被收录的论文总和超过论文总数的60%。

2001年香港会议收录论文最多的为美国和香港,所占比例均

为12.70%;2002年台北会议收录论文最多的为台湾,所占比

例为21.43%;2003年首尔会议收录论文最多的为韩国,占

20.00%;2004年悉尼会议收录论文最多的为澳大利亚,占

19.28%;2005年河内会议收录论文最多的为中国,占19.00%;

2006年新加坡会议收录论文最多的为美国,占18.81%;2007

年南京会议收录论文最多的为中国,占45.38%(见表3)。

见,PAKDD会议的主办权对一个国家数据挖掘研究具有非常

积极的促进作用。

统计显示,上述国家和地区中,仅美国每届被收录的参会

论文比重超过10%,最高时为2006年新加坡会议,比重为

王立伟:

数据挖掘研究现状综述

42表4数据挖掘应用领域比重统计表

[9][10][11]

Industries/fields

Proportion(%)

2003~2005

Proportion(%)

June2006

Proportion(%)

June2007

CRM34.9038.7426.10

Banking34.230.9023.90

DirectMarketing/

Fundraising

22.8219.8220.30

Science11.4110.8118.80

FraudDetection20.8121.6218.80

Telecom15.4412.6115.20

CreditScoring23.4918.9213.80

Other7.3813.5113.00

Biotech/Genomics7.3815.3211.60

Webusagemining10.8110.10

Retail16.789.9110.10

Medical/Pharma8.057.219.40

Insurance16.1110.818.70

Healthcare/HR10.074.507.20

Government/Military8.056.317.20

Financials/Leading7.20

Webcontentmining/

Search

13.516.50

Manufacturing12.756.316.50

E-commerce7.385.415.80

Entertainment/Music2.681.804.30

SocialPolicy/Survey

analysis

3.60

Security/Anti-terrorism3.364.503.60

Investment/Stocks3.369.912.90

Travel/Hospitality5.374.502.20

Junkemail/Anti-spam3.361.802.20

Web6.04

Gambling1.34

Voters149111138

注:

本文基于调查源数据对2003~2005和2006年数据做了修正,

修正公式:

比重(Proportion)=单项选择数(Reply)/有效样本数(Vot-

ers)。

第二代数据挖掘软件系统与数据库管理系统(DBMS)集

成,支持数据库和数据仓库,具有高性能的接口,具有较高的

可扩展性。

能够挖掘大数据集以及更复杂的数据集和高维数

据,但这一代的数据挖掘软件只注重模型的生成,典型代表有

DBMiner和SASEnterpriseMiner。

表52007年不同领域应用数据挖掘技术较2006年的增长率

[12]

Industries/fieldsProportionofgrowthfrom2006to2007

Banking3200%

Entertainment/Music200%

Science117%

Healthcare/HR100%

Medical/Pharma63%

Junkemail/Anti-spam50%

Telecom50%

Government/Military43%

E-commerce33%

Manufacturing29%

DirectMarketing/Fundraising27%

Retail27%

Other20%

Webusagemining17%

FraudDetection8%

Insurance0%

Security/Anti-terrorism0%

Biotech/Genomics-6%

CreditScoring-10%

CRM-16%

Travel/Hospitality-40%

Webcontentmining/Search-40%

Investment/Stocks-64%

第三代数据挖掘系统的特点是和预言模型系统之间能够

实现无缝的集成,使得由数据挖掘软件产生的模型的变化能

够及时反映到语言模型系统中,由数据挖掘软件产生的预言

模型能够自动地被操作型系统吸收,从而与操作型系统中的

语言模型相联合提供决策支持的功能。

它能够挖掘网络环境

下(Internet/Intranet/Extranet)的分布式和高度异质的数据,并

且能够有效地和操作型系统集成。

其缺点是不能支持移动环

境。

这一代数据挖掘系统关键的技术之一是提供对建立在异

质系统上的多个预言模型以及管理这些预言模型的元数据提

供第一级别的支持。

SPSSClementine就是属于这一代的产

品。

第四代软件能够挖掘嵌入式系统、移动系统和普遍存在

王立伟:

数据挖掘研究现状综述

442008年第5期

18.81%,可见美国数据挖掘研究实力和研究水平。

中国对数

据挖掘研究起步晚于美国,在2001-2003年中被收录论文比

重较为稳定,为6%~7%。

2004年比重有明显提高,较上年上升

80%,并在2005年河内会议论文收录比重首次超过美国(美国

为13.00%,中国为19.00%),在2007年南京会议中收录比重达

到顶峰,比重接近50%。

其余5个国家和地区每次收录论文比

重多为10%以下,鲜有较高的收录比重。

通过对2001~2007年参会论文集进行目录词频分析“,算

法和最优算法”研究从2001年开始一直成为PAKDD学术会议

参会论文的重要组成部分,也是被选最多的论文主题。

和算

法相关的论文2001年有10篇,2002年有9篇,2003年有8篇,

2004年有4篇,2005年有15篇,2006年有5篇,2007年有20篇。

支持向量机(SupportVectorMachines)和支持向量回归(Sup-

portVectorRegression)成为近年来研究的新方向,相关论文

2005年收录4篇,2006年收录6篇,2007年收录10篇。

2.2应用研究

(1)应用领域

数据挖掘应用研究是指开发各种数据挖掘系统和工具,

并在各个行业中的应用。

目前的典型应用领域包括:

①市场

分析和预测;如英国BBC广播公司进行的收视率调查、大型超

市销售分析与预测、销售渠道与价格分析等;②工业生产:

要用于发现最佳生产过程;③金融;采用统计回归式神经网

络构造预测模型,如自动投资系统(AutomatedInvestor)、可预

测最佳投资时机;④科学研究;贝克(Bacon)对于天文定理的

发现、地震发现者(Quakefinder)用于分析地壳的构造活动

等;⑤Web数据挖掘;站点访问模式分析、网页内容自动分类、

聚类等;⑥工程诊断。

数据挖掘作为一种新的知识发现手段,

还引起了工程诊断领域的重视,许多国家和研究机构都在监

测诊断项目中加入了对数据挖掘的研究。

[7]

根据KDnuggets公司做的调查统计显示(见表4),2003~

2005年期间,数据挖掘技术应用领域比重排在前3位的依次

是CRM(客户关系管理)占34.90%,Banking(银行业)占34.23%

和CreditScoring(信用得分)占23.49%。

2006年,数据挖掘技术

应用领域比重前3位略有变化,除CRM仍然占据首位位置外

(占38.74%),第二和第三依次是FraudDetection(欺诈检测)占

21.62%和DirectMarketing/Fundraising(直销/募款)占19.82%。

2007年数据挖掘应用领域比重首位仍然是CRM(占26.10%),

第二位回归于银行业(占23.90%),第三位为直销/募款(占

20.30%)。

随着数据挖掘研究的不断深入,数据挖掘应用领域的规

模正在逐步扩大,其中较为显著的依次为Banking(银行业),

Entertainment/Music(娱乐/音乐),Science(科学)和Healthcare/

HR(卫生保健/人力资源),它们在2007年的应用比重较2006

年增长100%以上,增长比率依次为3200%,200%,117%和

100%(见表5)。

(2)软件产业

由于数据挖掘技术在各领域被广泛应用,其软件市场需

求量也变得很大。

因此,包括国际知名公司在内的软件公司

纷纷加入数据挖掘工具研发的行列中来。

根据NationalCenterforDataMiningatUIC(Universityof

IllinoisatChicago)的R.Grossman观点,数据挖掘软件的发展

经历了4个时代:

[8]

第一代数据挖掘软件,支持一个或少数几个数据挖掘算

法,这些算法设计用于数据向量挖掘,多用于商业系统。

Sal-

fordSystems公司早期的CART系统就属于这种系统。

新加坡

国立大学研制的CBA,其基于关联规则的分类算法,能从关系

数据或者交易数据中挖掘关联规则,利用关联规则进行分类

和预测。

2001年香港2002年台北2003年首尔2004年悉尼2005年河内2006年新加坡2007年南京

澳大利亚11.11%3.57%10.00%19.28%8.00%4.95%8.46%

韩国20.00%3.61%5.00%5.94%6.92%

加拿大4.76%12.50%6.67%1.20%2.00%2.97%0.77%

美国12.70%12.50%15.00%14.46%13.00%18.81%10.00%

日本7.94%8.93%8.33%6.02%9.00%6.93%3.85%

台湾9.52%21.43%3.33%3.61%3.00%9.90%4.62%

香港12.70%10.71%6.67%7.23%1.00%2.97%2.31%

中国内地6.35%7.14%6.67%12.05%19.00%11.88%45.38%

总和65.08%76.78%76.67%67.46%60%64.35%82.31%

表32001-2007年主要国家和地区被收录论文比重表

43摘要:

数据挖掘作为情报学最常用的分析手段得到各个领域的广泛关注,每年KDD、PAKDD和ECML/PKDD三大学术会议的召开也给各国

家和地区进行学术交流提供便利。

文章基于PAKDD学术会议和KDnuggets公司的统计数据对当前数据挖掘现状进行综述分析。

关键词:

数据挖掘PAKDD

中图分类号:

351.11文献标识码:

A文章编号:

1003-6938(2008)05-0041-06

TheSummarizationofPresentSituationofDataMiningResearch

WangLiwei(TheLibraryofShanghaiAcademyofSocialSciences,Shanghai,200235)

Abstract:

Thedatamining,asthemostusefulanalysismeansoftheinformationstudies,ishighlyconcernedfromallthefields.

Annually,thetopthreeacademicconferenceswhichareKDD,PAKDDandECMLPKDDalsooffertheconvenienceforthedifferent

countriesandreligionstocommunicatewitheachotheracademically.ThisthesisisbasedonthePAKDDacademicconferenceand

thestatisticsfromKDnuggetscompany,analyzingthepresentsituationofdataminingcomprehensively.

Keywords:

datamining;PAKDD

CLCnumber:

G351.11Documentcode:

AArticleID:

1003-6938(2008)05-0041-062008年第5期

的计算设备产生的各种类型的数据。

2001~2006年Kargupta作

为马里兰巴尔的摩州立大学(UniversityofMarylandBaltimore

County)正在研制的CAREER数据挖掘项目的负责人,其研

究目的是开发挖掘分布式和异质数据的第四代数据挖掘系

统。

目前国外已有很多技术成熟、有较强产业化能力的数据

挖掘软件,其中主要的有:

①SASEnterpriseMiner:

SAS系统全称为StatisticsAnaly-

sisSystem,是美国使用最为广泛的三大著名统计分析软件

(SAS,SPSS和SYSTAT)之一,被誉为统计分析的标准软件。

1997年SAS发布了SASEnterpriseMiner,这个工具为用户提供

了用于建模的一个图形化流程处理环境,并且它有一组常用

的数据挖掘算法,包括决策树、神经网络、回归、关联等,还支

持文本挖掘。

②SPSSClementine:

SPSS是世界上最早的统计分析软件

之一。

1998年末SPSS收购了英国ISL公司,通过继承获得了这

家公司的Clementine数据挖掘包。

Clementine是首次引入数据

挖掘流概念的产品之一。

它允许用户在同一个工作流环境中

清理数据、转换数据和构建模型。

③IBMIntelligentMiner:

包括分析软件工具Intelligent

MinerforData和IntelligentMinerforText,不仅可以寻找包含

于传统文件、数据库、数据仓库和数据中心中的隐含信息,更

允许企业从文本信息中获取有价值的客户信息。

Intelligent

Miner使用预测模型标记语言(PredictiveModelingMarkup

Language,PMML)来导出挖掘模型,这种语言由数据挖掘协会

(DataMiningGroup,DMG)定义。

④InsightfulMine(rI-Miner):

由美国Insightful公司开发的

具有高度可扩展性的数据分析和数据挖掘软件。

目前在金融、

生物科技、政府机构等企事业单位应用非常广泛。

此外,还有Oracle公司从ThinkingMachines公司取得的

Darwin;Unica公司开发的AffiniumModel;AngossSoftware所开

发的KnowledgeSEEKER;加拿大SimonFraser大学开发的DB-

Miner;SGI公司和美国Standford大学联合开发的Minset;HNC

公司开发的用于信用卡诈骗分析的DatabaseMiningWorksta-

tion;IBM公司Almaden研究中心开发的Quest;NeoVista开发的

DecisionSeries;以及KEFIR系统、SKICAT系统等。

国内也有不少新兴的数据挖掘软件:

①DMiner:

由上海复旦德门软件公司开发的具有自主知

识产权的数据挖掘平台。

②iDMiner:

由海尔青大公司开发的具有自主知识产权的

数据挖掘系统。

其对国际通用业界标准的大胆采用,为该软

件今后的发展预留了很大的空间,同时也为国内同类软件融

入世界及开发提供了一条新的思路。

③MSMiner:

由中科院计算技术研究所智能信息处理实

验室开发的多策略数据挖掘平台。

除此之外,也有一些相关数据挖掘产品的报道,如复旦德

门公司开发的ARMiner和CIAS、东北大学开发的面向先进制

造企业的综合数据挖掘系统ScopeMiner、东北大学软件中心

基于SAS开发的OpenMiner以及长春工业大学开发的数据挖

掘工具软件等。

根据Kdnuggets公司2007年5月做的调查统计显示,商业

数据挖掘软件使用比重较高的前5种数据挖掘软件均为国外

软件,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1