数据挖掘在中国的现状和发展研究.docx

资源描述

数据挖掘在中国的现状和发展研究.docx

《数据挖掘在中国的现状和发展研究.docx》由会员分享，可在线阅读，更多相关《数据挖掘在中国的现状和发展研究.docx（13页珍藏版）》请在冰豆网上搜索。

数据挖掘在中国的现状和发展研究.docx

数据挖掘在中国的现状和发展研究

导读：

本文以科学引文索引数据库（SCI）、工程索引数据库（EI）以及清华全文数据库（CNKI）中有关“数据挖掘”研究文章的统计数据为研究基础，对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。

本文分析了数据挖掘在我国的发展，并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。

关键字：

数据挖掘

0引言

　　近年来，随着计算机对数据的生成、收集、存贮和处理能力的大大提高，数据量与日俱增，传统的数据分析工具对海量数据的处理力不从心，数据挖掘技术应运而生。

　　中国科研工作者近几年来积极开展了对数据挖掘的研究，并在理论研究和实际应用上取得了一定的成绩，但是有关数据挖掘的成功应用还比较少。

本文通过对中国有关数据挖掘研究文章数量的统计，对数据挖掘在中国发展的现状及发展趋势进行分析和研究，通过分析有关论文的发表，对数据挖掘在中国的理论研究和实际应用提出建议。

　　1数据挖掘的应用与研究发展

　　数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。

数据挖掘是一门新兴的边缘学科，近年来引起了中国学术界和产业界的广泛关注。

　　数据挖掘出现于20世纪80年代后期，90年代有了突飞猛进的发展。

2001年，GartnerGroup的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首，并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。

美国麻省理工学院在2001年1月份的《科技评论》（TechnologyReview）提出将在未来5年对人类产生重大影响的10大新兴技术，其中第3项就是数据挖掘。

　　数据挖掘技术已被广泛的应用于各个领域，其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统，能够帮助天文学家发现遥远的类星体，是人工智能技术在天文学和空间科学上的第一批成功应用之一；生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式，对客户进行了分析；对银行或商业上经常发生的诈骗行为进行预测IBM公司开发的AS（AdvancedScout）系统针对NBA的数据，帮助教练优化战术组合等。

　　数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学以及管理信息系统等学科的成果。

多学科的相互交融和相互促进，使得数据挖掘这一新学科得以蓬勃发展。

　　2数据挖掘在中国的研究趋势分析

　　1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议，由于数据库中的数据被形象地比喻为矿床，数据挖掘一词很快流传开来。

1995年以来，国外在数据挖掘和知识发现方面形成了热门研究方向，其中发表论文比较集中的期刊如：

（DataMiningandKnowledgeDiscovery）（数据挖掘和知识发现），（ArtificialIntelligenceReview）（人工智能评论）等。

　　国内学者也对数据挖掘的理论和应用进行了许多研究。

本文通过对发表论文的研究成果进行统计研究，以分析数据挖掘的在中国的研究与应用，这实质上也是一种数据挖掘思想的体现，这个过程就类似于数据挖掘过程。

　　为了比较全面地反映中国在数据挖掘方面的研究成果及现状，笔者分别对科学引文数据库（SCI）、工程索引数据库（El）以及清华全文期刊数据库（CNKI）进行了检索，检索内容为在中国期刊发表的相关文章以及被SCI和El检索的中国有关数据挖掘方面的研究文章。

这些检索的统计结果是本文研究分析的基础。

　　通过检索并对各年所发表的有关数据挖掘的文章进行分类归总，可以得到表1的结果。

表1有关“数据挖掘”的论文发表统计

　　通过对检索结果的分析，可以得到以下4点结论：

　　1）国内期刊正式发表有关数据挖掘的文章是在1997年，共发表了3篇文章，同年SCI共检索了2篇中国的数据挖掘的研究文章，在SCI数据库能够检索到的国际上发表最早的有关数据挖掘的文章是在1993年，这表明中国关于数据挖掘方面的研究在时间上与国际上差距并不大。

　　2）国内发表的有关数据挖掘论文的数目近年来逐年快速上升，SCI和El所检索的文章数目也在逐年快速增加，这说明中国数据挖掘的研究近几年来迅速加强。

　　3）对数据挖掘的研究可以大致分为两方面：

理论研究和应用研究。

理论研究正在逐步深人并与解决实际问题相结合。

　　4）数据挖掘是一门应用性很强的学科，数据挖掘应用的领域非常广阔，几乎涉及到各个行业，包括天文学、生物学、经济管理、金融、保险、电力、石油化工、地理地质等领域。

这些应用的需求就更进一步地推动了理论研究的发展。

　　3数据挖掘技术的研究

　　对数据挖掘的理论研究主要在以下六个方面：

OLAP技术、面向属性的归纳法、关联规则、分类和预测、聚类和与数据仓库的集成技术。

有关研究成果见表2。

表2有关数据挖掘技术统计表

　　3.1OLAP技术

　　联机分析处理（On-LineAnalyticalProcessing，OLAP）是关系数据库之父E.F.Codd博士在1993年提出的。

OLAP可以在使用多维数据模型的数据仓库或数据集市上进行，使用数据立方体结构，OLAP操作可以有效地实现。

OLAP技术主要是应用隐含在数据里的领域背景知识对数据进行操作，为用户在不同的抽象层上提供数据。

OLAP技术一般都是集成在数据仓库中实现的。

　　国内关于OLAP技术的综述性文章较多，缺少较深入的理论研究。

其中一个主要原因是由于受到国内数据仓库技术的发展限制，缺少具体的实现环境。

国内的研究内容主要集中在对技术和概念的介绍以及简单系统的构造应用等方面，如对OLAP、数据立方体等基本概念的介绍；对SQLserver2000中提供的OLAP的查询组件的使用等。

　　3.2面向属性的归纳方法

　　1991年，JiaweiHan等提出了面向属性的归纳方法（Attribute-Oriented，AO），这是一种有效的、完整的知识发现算法，算法的一个关键就是攀升属性所对应的概念层次树，把原始数据集的数据泛化到用户感兴趣的概念层上，减少数据集的大小，从而降低知识发现过程的计算复杂度。

　　国内对面向属性的归纳方法的研究比较少，研究内容主要集中在以下三方面：

　　1）对面向属性的归纳方法进行改进。

通过引入记录阈值的概念，利用属性闹值和记录阑值同时进行控制，从而产生更好的效果。

　　2）减少扫描次数以提高算法效率。

目前有基于规则的面向属性知识发现的无回溯算法，把背景知识理解为特殊的逻辑程序，并把它的子句展开为完全归结子句，再按用户要求，定义并确定各属性的恰当层次，各属性的多个值归纳为恰当层次中的值，只需一遍扫描，无需回溯。

　　3）对概念层次进行研究，提出了概念层次的自动生成方法。

　　3.3关联规则

　　关联规则的挖掘最早是由R.Agrawal等人于1993年提出。

在关联规则算法的研究中，生成所有的频繁项目集是核心问题。

表2中有关关联规则的文章数量较多，技术相对比较成熟，是数据挖掘领域的重点研究方向之一。

根据分析，目前国内对关联规则的研究主要集中在以下3方面：

　　1）提高原有算法的效率

　　在解决最大频繁项目集的生成问题上，为了提高对空间和时间的利用效率，对数据库的扫描次数进行了缩减，由最初的两次扫描减少为一次就可以生成最大频繁集，提高了算法的效率。

　　2）结合其它理论对关联规则进行研究

　　引入粗糙集概念，使关联规则发现的模式具有较高的解释能力和精确度。

为了解决数量关联规则提取过程中的连续属性离散化问题采用了聚类方法，通过引入神经网络的概念，提出用相互激活与竞争网络来进行数据库中的关联规则的发现等。

可以看出通过引入其他领域的先进理论，丰富了关联规则研究的内容，提高了算法的有效性。

　　3）不同形式关联规则的研究

　　关联规则最早是由购物篮分析开始的，但是随着研究的扩展和深入，关联规则的应用范围不断扩大，因此出现了多种形式关联规则的研究。

由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。

在基本关联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法，由单层的关联规则扩展为多层次关联规则的研究，提出了基于多维标度关联规则算法，其他类型的关联规则如借助正态模糊数模型，软化数量属性的划分边界，生成语言值关联规则，引入正态云模型来替代对属性论域的划分，提出了挖掘正态云关联规则的方法，基于关联规则的不足，还提出了转移规则及其算法。

另外对于关联规则挖掘指导思想也出现了变化，提出了概念指导的关联规则的挖掘算法和基于概念格的关联规则的提取算法。

　　3.4分类和预测

　　分类和预测是两种数据分析形式，可以用于提取描述重要数据类的模型或预测未来的数据趋势。

主要的分类方法有：

决策树归纳分类法、贝叶斯分类法、后向传播分类法等。

　　国内对于分类和预测方法的分析和研究近几年逐渐增多，并逐渐深入。

国内的分类方法研究主要集中在以下内容：

　　1）研究贝叶斯网络在分类方法中的应用

　　利用贝叶斯网络可以找出数据之间潜在的关系，并且可以将简单贝叶斯方法应用于增量分类中，这样可以增量地修正分类器参数和增t地分类测试样本。

　　2）结合其他理论进行算法研究

　　通过遗传算法，对单个分类器进行优化并对多个分类器进行组合优化。

通过不同的相似性度量方法，复用完全相似或者条件相似的历史序列，提出一种多策略的基于CBR的趋势预测方法。

　　分类及预测中，神经网络技术的优点是其对噪声数据具有较高的承受能力，对未经训练的数据具有分类识别的能力。

但是它的主要缺点是可解释性差，这影响了神经网络技术的使用。

相对于神经网络技术，决策树技术的优点比较易于理解和解释，而它受到的典型批评是由于递归划分方式导致数据子集变小，失去了进一步划分的意义。

贝叶斯分类方法从理论上讲具有最小的出错率，还可以用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。

其缺点主要来自于贝叶斯分类的假定，当假定成立时，与其它分类算法相比是最精确的，然而，在实践中，假定不一定总是成立。

　　从以上分析可以看出，不同的数据挖掘技术各有其优缺点，在实际的应用中，需要根据具体的条件选择合适的算法。

　　3.5聚类

　　聚类是一个活跃的研究领域，聚类就是将数据对象分组成为多个类或簇，在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象则差别较大，聚类算法具体可以分为：

划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等。

聚类分析可以用作独立的数据挖掘工具，来获得对数据分布的了解，也可以作为其它数据挖掘算法的预处理步骤。

　　国内对于聚类的研究与和分类预测的研究情况类似，开展比较晚，研究主要方向包括：

　　1）对已经提出来的聚类算法进行分析和完善

　　在原有的DBSCAN算法的基础上，以核心对象邻域中所有对象的代表对象为种子对象来扩展类，提出了FDBSCAN算法，该算法能够有效地对大规模数据库进行聚类，速度上数倍于DBSCAN，对原DBSCAN算法进行改进，提出了基于数据分区的DBSCAN算法，提高了聚类速度，改善了聚类质量。

　　2）概念聚类的研究

　　概念聚类适用于领域知识不完整或领域知识缺乏时的数据挖掘任务。

通过定义一种基于语义的距离判定函数，提出了一种动态概念聚类的算法，该算法能够自动确定聚类数目，依据聚类内部属性值的频繁程度修正聚类中心，通过概念归纳处理，用概念合取表达式解释聚类输出。

　　3）孤立点分析

　　孤立点是指一些不符合数据的一般模型的数据对象。

常用的方法有基于统计的方法、基于距离的方法和基于偏离的方法。

一种基于超图模型的离群点定义，同时给出了HOT（hypergraph-basedoutliertest）算法，通过计算每个点的支持度、隶属度和规模偏差来检测离群点。

该算法既能够处理数值属性，又能够处理类别属性。

　　4）复杂聚类方法的研究

　　目前聚类研究主要集中在对复杂聚类方法上，如对高维数据的可视化聚类方法，以及墓于大规模交易数据库的二次聚类聚类算法——CATD。

该算法只需扫描一次数据库，聚类过程在内存中进行，因此能处理大规模的数据库。

　　聚类的各种方法的主要区别在于实现算法的思想不同，聚类的各种方法各有其优缺点，算法的选择取决于数据的类型、聚类的目的和应用。

一些聚类算法可能集成了多种聚类算法的思想，此外，某些应用可能有特定的聚类标准，要求综合使用多种聚类技术。

　　3.6与数据仓库的集成技术研究

　　目前比较通用的对数据仓库的定义是W.H.Inmon在1996年提出的，他认为数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理部门的决策过程。

　　数据仓库为数据挖掘提供了更广阔的活动空间。

数据仓库完成了数据的收集、集成、存储、管理等工作，数据挖掘面对的是经初步加工的数据，使得数据挖掘能更专注于知识的发现。

数据仓库具有不同于数据库的新特点，并对数据挖掘技术提出了更高的要求，数据挖掘技术要充分发挥潜力，就必须和数据仓库的发展结合起来。

　　国内在该领域的研究时间较短，相关的研究集中在简单介绍和一般系统的结构设计上。

　　目前数据仓库的供应商很多，比较著名的有IBM、Oracle、Sybase、微软等。

IBM和Oracle等公司的数据仓库技术中含有不同的策略和算法，以IBM和Oracle为例，IBM在其数据仓库系统中集成了IntelligentMiner能够进行典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现，它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。

Oracle集成了OracleDarwin系统，这是基于数据仓库的数据挖掘工具，具有简单易用的图形化界面，能够提供决策树、神经网络等多种数据挖掘方法，支持海量数据的并行处理，分析结果可以和现有系统集成应用。

这些表明了数据挖掘技术集成应用是十分必要的，也是今后发展的大趋势。

　　4数据挖掘研究分支方向

　　在现实世界中，数据具有各种各样的复杂形式，对于结构化数据的挖掘处理，已经进行了很多研究，技术相对比较成熟。

近年来，复杂数据的挖掘引起了研究人员的重视，并成为数据挖掘中日益重要的研究内容，数据挖掘研究因此衍生了一些研究分支方向。

　　国内在该领域研究的文章较少，通过对数据库进行查询，可以得到表3。

表3数据挖掘研究分支研究统计表

　　4.1空间数据挖掘

　　空间数据挖掘是指从对空间数据库中非显式存在的知识、空间关系或其他有意义的模式等提取。

空间数据挖掘包括空间数据描述、分类、关联、聚类、和空间趋势和孤立点分析。

　　通过SCI检索能够查到的最早的关于空间数据挖掘的文章是1995年发表的，所收录的最早的中国相关的文章是在2001年发表的，通过El检索能够查到的最早的关于空间数据挖掘的文章是1997年发表的，所收录的最早的中国相关的文章是在2000年发表的。

　　国内在该领域的研究中，概念介绍性文章比较多，这一方面的研究还有待加强。

　　4.2多媒体数据挖掘

　　多媒体数据挖掘是指从多媒体数据库中发现有意义的模式，多媒体数据库存储和管理大量多媒体对象，包括音频数据、图像数据、视频数据、序列数据以及包含有文本、文本标记、链接的超文本数据。

多媒体数据挖掘研究的问题，包括基于内容的检索和相似度搜索、概化和多维分析、分类和预测分析，以及多媒体数据中的关联挖掘。

　　通过SCI检索能够查到的最早的关于多媒体数据挖掘的文章是1998年发表的，通过EI检索能够查到的最早的关于多媒体数据挖掘的文章是1997年发表的，所收录的最早的中国相关的文章是在2001年发表的。

　　国内对于多媒体数据挖掘的研究比较少，多媒体数据挖掘、文本挖掘和Web挖掘既有区别又有联系，多媒体文本数据挖掘过程有自己的模型及特征。

　　4.3时序数据和序列数据的挖掘

　　时序数据库是指由随时间变化的序列值或事件组成的数据库，序列数据库是指由有序事件序列组成的数据库。

时序和序列数据挖掘的研究内容包括趋势分析、在时序分析中的相似度搜索、和与时间相关数据中序列模式和循环模式的挖掘。

　　通过SCI检索能够查到的最早的关于时序数据和序列数据挖掘的文章是1997年发表的，所收录的最早的中国相关的文章是在1999年发表的，通过EI检索能够查到的最早的关于时序数据和序列数据的挖掘的文章是1998年发表的，所收录的最早的中国相关的文章是在1998年发表的。

　　国内对于时序数据的研究比较少，使用的方法和技术主要有工神经网络技术，利用它预测和处理混沌观测时间序列能达到较高的精度。

此外还有通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间，将时序数据映射为多维空间的点，在此基础上，提出一种新的基于距离的离群数据挖掘算法。

　　国内对于序贯模式的研究起步较早，在单层序贯模式的基础上将序贯模式的发现从单层概念扩展到多层概念，提出了发现广义序贯模式的自顶向下逐层递进的方法。

为了解决由于最低支持的改变而引起了广义序贯模式的维护问题，提出了一种称为FAST的增量式更新技术。

　　4.4文本数据挖掘

　　大量可获得的信息是存储在文本或文档数据库中，包含丰富的文档内容，如新闻文章、技术论文、书籍、数字图书馆、电子邮件信息等。

文本挖掘超出了基于关键字和基于相似度的信息检索范畴，它利用基于关键字的关联和文档分类的方法从半结构化文本数据中发现知识。

　　通过SCI检索能够查到的最早的关于文本数据挖掘的文章是1997年发表的，所收录的最早的中国相关的文章是在2001年发表的，通过El检索能够查到的最早的关于文本数据挖掘的文章是1998年发表的，所收录的最早的中国相关的文章是在2000年发表的。

　　国内在该领域的研究文章数量很少，一般的研究思路是在结构化数据挖掘技术的基础上将半结构化和非结构化的数据转化为结构化数据再进行挖掘分析，如树形分层数据库方法等。

　　4.5Web数据挖掘

　　Web数据挖掘涉及新闻、消费信息、金融管理、教育、政府等等服务，包含了丰富的动态链接信息和访问及使用信息。

Web挖掘包括Web链接结构、Web内容和Web访问模式的挖掘。

　　通过SCI检索能够查到的最早的关于Web数据挖掘的文章是1997年发表的，所收录的最早的中国相关的文章是在2001年发表的，通过El检索能够查到的最早的关于Web数据挖掘的文章是1998年发表的，所收录的最早的中国相关的文章是在1999年发表的。

　　国内对于Web数据挖掘的研究较少，主要集中在方法的探讨上，如针对超文本结构中的结构特征，提出了用NaiveBaye。

方法进行分类的方法，基于时态数据库，以Web数据拟周期采掘任务为背景，提出了属性趋势、趋势惯量和峰谷链、抗干扰的惯性趋势算法和峰谷算法，对拟周期采掘给出一种解决方法；利用服务器日志文件，运用N元（Ngram）预测模型对用户未来可能进行的Web访问请求进行预测等。

　　5促进数据挖掘在中国发展的建议

　　通过上述分析研究，可以看出国内学者己对数据挖掘进行了多方面的研究，并取得了一定的研究成果。

为进一步推动数据挖掘在中国的理论研究与实践应用，本文提出以下建议：

　　1）加强对复杂数据的挖掘技术的研究，目前数据挖掘所处理的数据类型已经由简单的结构化数据发展到复杂的半结构化数据及非结构化数据，并且由单维、低维上升为多维、高维。

数据挖掘技术发展的整体趋势由处理简单的挖掘问题逐步到解决复杂的挖掘问题。

　　2）加强对数据挖掘应用系统和对算法测试的研究。

目前国内关于数据挖掘理论研究较多，但对数据挖掘应用系统和算法测试的研究方面较少，在算法的性能改进方面，可以采用国际上相关研究所采用的相同数据集对现有的算法和新改进的算法进行对比测试，以检验新算法的合理性和有效性。

除了选择人工测试数据集外最好能够采用真实测试数据集。

　　3）加强对挖掘结果的有效性研究。

由于计算机软硬件技术的快速发展，今后的算法研究将更多的集中在挖掘结果的有效性上，现在的一些算法所花费的时间已以秒计算了，但是其挖掘结果的数量却远远超出了可以理解的范围。

对于挖掘结果的有效性需要有科学的方法加以评估。

此外提高算法的可伸缩性、对算法的动态维护和基于约束的挖掘算法等也都是主要的研究方向。

　　4）多种数据挖掘方法的结合使用。

数据挖掘的方法各有其优缺点，很多模式特别是与分类有关的模式，可以用不同的算法来实现，以适应不同的需求环境。

因此集成的数据挖掘系统应该能够提供多种途径来解决复杂问题。

　　5）重视数据挖掘技术的实际应用。

目前国内有关应用的成功案例较少。

有关方面可以借鉴其他先进国家的经验，引入成功系统进行本土化研究等。

实际数据挖掘应用的开发有助于对数据挖掘的理解，从而更好地改进数据挖掘的技术。

　　6）随着数据仓库技术的进一步发展，并行分布式数据挖掘算法的研究需要加强。

　　7）加强人机交互能力的完善解释机制。

需要把用户所要解决的问题方便地转化为数据挖掘技术人员能够理解并解决的问题，并将挖掘结果以用户能理解的方式表达出来。

对算法的研究也将趋向于简单化和易于理解。

　　8）多语言挖掘，对于处理多种语言的工具研究。

　　9）保护隐私权的研究。

数据挖掘能从不同的角度及层次上看待数据，这将有可能影响数据的私有性和安全性，如何在保护隐私权的情况下又能够进行充分的数据挖掘是一个重要的研究方向。

　　另外需要指出的是，中国在技术研究中对技术本身研究较多，而对技术经济问题研究较少。

数据挖掘技术归根结底是一种手段或工具，对于数据挖掘技术的研究是为了更好的促进社会经济的发展。

如何对数据挖掘技术系统进行有效的管理和利用是一个值得关注的重要问题。

　　6结束语

　　数据挖掘技术是一个年轻而充满希望的研究领域，商业利益的强大驱动力将会不停地促进它的发展，每年都有新的数据挖掘方法和模型问世，人们对它的研究正日益广泛和深入。

　　本文通过对科学引文数据库SCI、工程索引数据库EI以及清华全文期刊数据库CNKI进行全面查询，通过对有关数据挖掘的文章的统计，分析和研究了国内数据挖掘技术的现状，并对未来发展提了建议。

　　通过本文的研究可以看出，中国数据挖掘技术的研究取得了一定的成果，但是数据挖掘技术研究仍然面临着许多问题和挑战，还存在许多问题等待我们去探索和研究。

展开阅读全文