ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:26.41KB ,
资源ID:7536259      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7536259.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘研究现状综述王立伟.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据挖掘研究现状综述王立伟.docx

1、数据挖掘研究现状综述王立伟数据挖掘研究现状综述王立伟 ( 上海社会科学院图书馆 上海 200235)1995年在加拿大蒙特利尔召开了首届KDD国际学术年会, 会上把数据挖掘技术分为工程领域的数据挖掘与科研领域的知识发现。 2此后, 此类会议每年召开一次, 数量和规模逐渐扩大, 从专题研讨会一直发展到国际学术大会, 并成为当前计算机领域的研究方向和研究热点。目前对KDD的研究主要围绕理论、技术和应用这三个方面展开。据统计显示, 从1995年至2007年召开的13次KDD国际学术大会中, 9次都在美国主要城市( 如纽约、芝加哥、华盛顿等) 举办, 其余4次均在加拿大举办( 见表1) , 从未在北美

2、以外地区举办过。表1 KDD(KnowledgeDiscoveryandDataMining) Meetings3InternationalConference on KDDDate City13thAugust 2007 San Jose, CA, USA12thAugust 2006 Philadelphia, PA, USA11thAugust 2005 Chicago, IL, USA10thAugust 2004 Seattle, WA, USA9thAugust 2003 Washington, DC, USA8thAugust 2002 Edmonton, Alberta, Ca

3、nada7thAugust 2001 San Francisco, CA, USA6thAugust 2000 Boston, MA, USA5thAugust 1999 San Diego, CA, USA4thAugust 1998 New York, NY, USA3thAugust 1997 Newport Beach, CA2thAugust 1996 Portland, OR1thAugust 1995 Montreal, Canada( 2) PAKDD( Pacific- Asia Conference on KDD) 学术会议1997年, 也就是首届蒙特利尔KDD国际学术大会

4、召开之后的2年, PAKDD学术会议( Pacific- Asia Conference on KDD)在亚太地区顺利召开, 这标志着亚太地区数据挖掘研究进入发展时期。PAKDD会议每年召开一次, 从1997年至2007年的11年中, 亚洲和大洋洲的主要国家都成功举办过该项会议( 见表2) 。其中, 新加坡第十届PAKDD会议除了进行数据挖掘学术研究外, 还与新加坡统计协会( SIS) 、新加坡模式识别和机器智能协会( PREMIA) 共同组织了一场基于解决电信运营商问题的数据挖掘竞赛。其内容为“ 如何区分移动通讯网客户中使用第二代( 2G) 和第三代( 3G) 服务的用户”, 旨在明确目前2

5、G网络用户中哪些使用者具有巨大的潜在可能性转移到使用移动运营商的3G移动网络和服务上。表2 Pacific- Asia Conference on KDD(PAKDD)45PAKDD Date City11thMay 2007 Nanjing, China10thApril 2006 Singapore9thMay 2005 Hanoi, Vietnam8thMay 2004 Sydney, Australia7thApril 2003 Seoul, Korea6thMay 2002 Taipei, Taiwan5thApril 2001 Hong Kong, China4thApril 20

6、00 Kyoto, Japan3thApril 1999 Beijing, China2thApril 1998 Melbourne, Australia1th1997 Singapore与KDD国际学术会议 ( ACM SIGKDD International Con-ference on Knowledge Discovery and Data Mining) 或ECML/PKDD学术会议 ( European Conference on Machine Learning &European Conference on Principles and Practice of Knowledg

7、eDiscovery in Databases) 定期举办竞赛模式不同, 新加坡PAKDD会议是继2000年第四届京都PAKDD会议后, 第二次举办类似的比赛。之前, 京都PAKDD会议曾有过使用医学数据进行数据挖掘比赛的历史记录。 620012007共7年时间中, PAKDD会议依次由香港、台北、首尔、悉尼、河内、新加坡和南京主办。根据对主办方出版的论文集( Advances in Knowledge Discovery and Data Mining) 统计显示, 7年中共有32个国家和地区共计593篇参会论文被收录论文集。其中澳大利亚、韩国、加拿大、美国、日本、台湾、香港和中国内地每届被

8、收录的论文总和超过论文总数的60%。2001年香港会议收录论文最多的为美国和香港, 所占比例均为12.70%; 2002年台北会议收录论文最多的为台湾, 所占比例为21.43%; 2003年首尔会议收录论文最多的为韩国, 占20.00%; 2004年悉尼会议收录论文最多的为澳大利亚, 占19.28%; 2005年河内会议收录论文最多的为中国, 占19.00%;2006年新加坡会议收录论文最多的为美国, 占18.81%; 2007年南京会议收录论文最多的为中国, 占45.38%( 见表3) 。可见, PAKDD会议的主办权对一个国家数据挖掘研究具有非常积极的促进作用。统计显示, 上述国家和地区中

9、, 仅美国每届被收录的参会论文比重超过10%, 最高时为2006年新加坡会议, 比重为王立伟: 数据挖掘研究现状综述42表4 数据挖掘应用领域比重统计表9 10 11 Industries/fieldsProportion (%)20032005Proportion(%)June 2006Proportion(%)June 2007CRM 34.90 38.74 26.10Banking 34.23 0.90 23.90Direct Marketing/Fundraising22.82 19.82 20.30Science 11.41 10.81 18.80Fraud Detection 20

10、.81 21.62 18.80Telecom 15.44 12.61 15.20Credit Scoring 23.49 18.92 13.80Other 7.38 13.51 13.00Biotech/Genomics 7.38 15.32 11.60Web usage mining 10.81 10.10Retail 16.78 9.91 10.10Medical/Pharma 8.05 7.21 9.40Insurance 16.11 10.81 8.70Health care/HR 10.07 4.50 7.20Government/Military 8.05 6.31 7.20Fin

11、ancials/Leading 7.20Web content mining/Search13.51 6.50Manufacturing 12.75 6.31 6.50E- commerce 7.38 5.41 5.80Entertainment/Music 2.68 1.80 4.30Social Policy/Surveyanalysis3.60Security/Anti- terrorism 3.36 4.50 3.60Investment/Stocks 3.36 9.91 2.90Travel/Hospitality 5.37 4.50 2.20Junk email/Anti- spa

12、m 3.36 1.80 2.20Web 6.04Gambling 1.34Voters 149 111 138注: 本文基于调查源数据对20032005和2006年数据做了修正,修正公式: 比重( Proportion) =单项选择数( Reply) /有效样本数( Vot-ers) 。第二代数据挖掘软件系统与数据库管理系统( DBMS) 集成, 支持数据库和数据仓库, 具有高性能的接口, 具有较高的可扩展性。能够挖掘大数据集以及更复杂的数据集和高维数据, 但这一代的数据挖掘软件只注重模型的生成, 典型代表有DB Miner和SAS Enterprise Miner。表5 2007年不同领域应

13、用数据挖掘技术较2006年的增长率12Industries/fields Proportion of growth from 2006 to 2007Banking 3200%Entertainment/Music 200%Science 117%Health care/HR 100%Medical/Pharma 63%Junk email/Anti- spam 50%Telecom 50%Government/Military 43%E- commerce 33%Manufacturing 29%Direct Marketing/Fundraising 27%Retail 27%Other

14、20%Web usage mining 17%Fraud Detection 8%Insurance 0%Security/Anti- terrorism 0%Biotech/Genomics - 6%Credit Scoring - 10%CRM - 16%Travel/Hospitality - 40%Web content mining/Search - 40%Investment/Stocks - 64%第三代数据挖掘系统的特点是和预言模型系统之间能够实现无缝的集成, 使得由数据挖掘软件产生的模型的变化能够及时反映到语言模型系统中, 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸

15、收, 从而与操作型系统中的语言模型相联合提供决策支持的功能。它能够挖掘网络环境下( Internet/Intranet/Extranet) 的分布式和高度异质的数据, 并且能够有效地和操作型系统集成。其缺点是不能支持移动环境。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别的支持。SPSS Clementine 就是属于这一代的产品。第四代软件能够挖掘嵌入式系统、移动系统和普遍存在王立伟: 数据挖掘研究现状综述442008 年第 5 期18.81%, 可见美国数据挖掘研究实力和研究水平。中国对数据挖掘研究起步晚于美国, 在2001-

16、 2003年中被收录论文比重较为稳定, 为6%7%。2004年比重有明显提高, 较上年上升80%, 并在2005年河内会议论文收录比重首次超过美国( 美国为13.00%, 中国为19.00%) , 在2007年南京会议中收录比重达到顶峰, 比重接近50%。其余5个国家和地区每次收录论文比重多为10%以下, 鲜有较高的收录比重。通过对20012007年参会论文集进行目录词频分析“, 算法和最优算法”研究从2001年开始一直成为PAKDD学术会议参会论文的重要组成部分, 也是被选最多的论文主题。和算法相关的论文2001年有10篇, 2002年有9篇, 2003年有8篇,2004年有4篇, 2005

17、年有15篇, 2006年有5篇, 2007年有20篇。支持向量机( Support Vector Machines) 和支持向量回归( Sup-port Vector Regression) 成为近年来研究的新方向, 相关论文2005年收录4篇, 2006年收录6篇, 2007年收录10篇。2.2 应用研究( 1) 应用领域数据挖掘应用研究是指开发各种数据挖掘系统和工具,并在各个行业中的应用。目前的典型应用领域包括: 市场分析和预测;如英国BBC广播公司进行的收视率调查、大型超市销售分析与预测、销售渠道与价格分析等; 工业生产: 主要用于发现最佳生产过程; 金融; 采用统计回归式神经网络构造预

18、测模型, 如自动投资系统( Automated Investor) 、可预测最佳投资时机; 科学研究; 贝克( Bacon) 对于天文定理的发现、地震发现者( Quake finder) 用于分析地壳的构造活动等; Web数据挖掘; 站点访问模式分析、网页内容自动分类、聚类等; 工程诊断。数据挖掘作为一种新的知识发现手段,还引起了工程诊断领域的重视, 许多国家和研究机构都在监测诊断项目中加入了对数据挖掘的研究。 7根据KDnuggets公司做的调查统计显示 ( 见表4) , 20032005年期间, 数据挖掘技术应用领域比重排在前3位的依次是CRM( 客户关系管理) 占34.90%, Bank

19、ing( 银行业) 占34.23%和Credit Scoring( 信用得分) 占23.49%。2006年, 数据挖掘技术应用领域比重前3位略有变化, 除CRM仍然占据首位位置外( 占38.74%) , 第二和第三依次是Fraud Detection( 欺诈检测) 占21.62%和Direct Marketing/Fundraising( 直销/募款) 占19.82%。2007年数据挖掘应用领域比重首位仍然是CRM( 占26.10%) ,第二位回归于银行业 ( 占23.90%) , 第三位为直销/募款 ( 占20.30%) 。随着数据挖掘研究的不断深入, 数据挖掘应用领域的规模正在逐步扩大,

20、其中较为显著的依次为Banking( 银行业) ,Entertainment/Music( 娱乐/音乐) , Science( 科学) 和Health care/HR( 卫生保健/人力资源) , 它们在2007年的应用比重较2006年增长100%以上, 增长比率依次为3200%, 200%, 117%和100%( 见表5) 。( 2) 软件产业由于数据挖掘技术在各领域被广泛应用, 其软件市场需求量也变得很大。因此, 包括国际知名公司在内的软件公司纷纷加入数据挖掘工具研发的行列中来。根据National Center for Data Mining at UIC( University ofIl

21、linois at Chicago) 的R.Grossman观点, 数据挖掘软件的发展经历了4个时代: 8第一代数据挖掘软件, 支持一个或少数几个数据挖掘算法, 这些算法设计用于数据向量挖掘, 多用于商业系统。Sal-ford Systems公司早期的CART系统就属于这种系统。新加坡国立大学研制的CBA, 其基于关联规则的分类算法, 能从关系数据或者交易数据中挖掘关联规则, 利用关联规则进行分类和预测。2001 年香港 2002 年台北 2003 年首尔 2004 年悉尼 2005 年河内 2006 年新加坡 2007 年南京澳大利亚 11.11% 3.57% 10.00% 19.28% 8

22、.00% 4.95% 8.46%韩国 20.00% 3.61% 5.00% 5.94% 6.92%加拿大 4.76% 12.50% 6.67% 1.20% 2.00% 2.97% 0.77%美国 12.70% 12.50% 15.00% 14.46% 13.00% 18.81% 10.00%日本 7.94% 8.93% 8.33% 6.02% 9.00% 6.93% 3.85%台湾 9.52% 21.43% 3.33% 3.61% 3.00% 9.90% 4.62%香港 12.70% 10.71% 6.67% 7.23% 1.00% 2.97% 2.31%中国内地 6.35% 7.14% 6.

23、67% 12.05% 19.00% 11.88% 45.38%总和 65.08% 76.78% 76.67% 67.46% 60% 64.35% 82.31%表3 2001- 2007年主要国家和地区被收录论文比重表43摘 要: 数据挖掘作为情报学最常用的分析手段得到各个领域的广泛关注, 每年KDD、PAKDD和ECML/PKDD三大学术会议的召开也给各国家和地区进行学术交流提供便利。文章基于PAKDD学术会议和KDnuggets公司的统计数据对当前数据挖掘现状进行综述分析。关键词: 数据挖掘 PAKDD中图分类号: 351.11 文献标识码: A 文章编号: 1003- 6938( 2008

24、) 05- 0041- 06The Summarization of Present Situation of Data Mining ResearchWang Liwei (The Library of Shanghai Academy of Social Sciences, Shanghai, 200235)Abstract: The data mining, as the most useful analysis means of the information studies, is highly concerned from all the fields.Annually, the

25、top three academic conferences which are KDD, PAKDD and ECMLPKDD also offer the convenience for the differentcountries and religions to communicate with each other academically. This thesis is based on the PAKDD academic conference andthe statistics from KDnuggets company, analyzing the present situ

26、ation of data mining comprehensively.Key words: data mining; PAKDDCLC number: G351.11 Document code: A Article ID: 1003- 6938(2008)05- 0041- 062008 年第 5 期的计算设备产生的各种类型的数据。20012006年Kargupta作为马里兰巴尔的摩州立大学( University of Maryland BaltimoreCounty) 正在研制的CAREER 数据挖掘项目的负责人, 其研究目的是开发挖掘分布式和异质数据的第四代数据挖掘系统。目前国外已

27、有很多技术成熟、有较强产业化能力的数据挖掘软件, 其中主要的有:SAS Enterprise Miner: SAS系统全称为Statistics Analy-sis System, 是美国使用最为广泛的三大著名统计分析软件( SAS, SPSS和SYSTAT) 之一, 被誉为统计分析的标准软件。1997年SAS发布了SAS Enterprise Miner, 这个工具为用户提供了用于建模的一个图形化流程处理环境, 并且它有一组常用的数据挖掘算法, 包括决策树、神经网络、回归、关联等, 还支持文本挖掘。SPSS Clementine: SPSS是世界上最早的统计分析软件之一。1998年末SPSS

28、收购了英国ISL公司, 通过继承获得了这家公司的Clementine数据挖掘包。Clementine是首次引入数据挖掘流概念的产品之一。它允许用户在同一个工作流环境中清理数据、转换数据和构建模型。IBM Intelligent Miner: 包括分析软件工具IntelligentMiner for Data和Intelligent Miner for Text, 不仅可以寻找包含于传统文件、数据库、数据仓库和数据中心中的隐含信息, 更允许企业从文本信息中获取有价值的客户信息。IntelligentMiner使用预测模型标记语言 ( Predictive Modeling MarkupLangu

29、age, PMML) 来导出挖掘模型, 这种语言由数据挖掘协会( Data Mining Group, DMG) 定义。Insightful Mine(r I- Miner) : 由美国Insightful公司开发的具有高度可扩展性的数据分析和数据挖掘软件。目前在金融、生物科技、政府机构等企事业单位应用非常广泛。此外, 还有Oracle公司从Thinking Machines公司取得的Darwin; Unica公司开发的Affinium Model; Angoss Software所开发的Knowledge SEEKER; 加拿大Simon Fraser大学开发的DB-Miner; SGI公司

30、和美国Standford大学联合开发的Minset; HNC公司开发的用于信用卡诈骗分析的Database Mining Worksta-tion; IBM公司Almaden研究中心开发的Quest; Neo Vista开发的Decision Series; 以及KEFIR系统、SKICAT系统等。国内也有不少新兴的数据挖掘软件:DMiner: 由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘平台。iDMiner: 由海尔青大公司开发的具有自主知识产权的数据挖掘系统。其对国际通用业界标准的大胆采用, 为该软件今后的发展预留了很大的空间, 同时也为国内同类软件融入世界及开发提供了一条新的思路。MSMiner: 由中科院计算技术研究所智能信息处理实验室开发的多策略数据挖掘平台。除此之外, 也有一些相关数据挖掘产品的报道, 如复旦德门公司开发的AR Miner和CIAS、东北大学开发的面向先进制造企业的综合数据挖掘系统Scope Miner、东北大学软件中心基于SAS开发的Open Miner以及长春工业大学开发的数据挖掘工具软件等。根据Kdnuggets公司2007年5月做的调查统计显示, 商业数据挖掘软件使用比重较高的前5种数据挖掘软件均为国外软件,

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1