数据挖掘技术及其应用现状王斌会.docx

上传人:b****2 文档编号:12664661 上传时间:2023-04-21 格式:DOCX 页数:20 大小:21.66KB
下载 相关 举报
数据挖掘技术及其应用现状王斌会.docx_第1页
第1页 / 共20页
数据挖掘技术及其应用现状王斌会.docx_第2页
第2页 / 共20页
数据挖掘技术及其应用现状王斌会.docx_第3页
第3页 / 共20页
数据挖掘技术及其应用现状王斌会.docx_第4页
第4页 / 共20页
数据挖掘技术及其应用现状王斌会.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

数据挖掘技术及其应用现状王斌会.docx

《数据挖掘技术及其应用现状王斌会.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术及其应用现状王斌会.docx(20页珍藏版)》请在冰豆网上搜索。

数据挖掘技术及其应用现状王斌会.docx

数据挖掘技术及其应用现状王斌会

数据挖掘技术及其应用现状

王斌会

(暨南大学经济学院,广州,510632)

摘要:

本文对数据挖掘技术进行了回顾,介绍了目前在数据挖掘中常用的方法和工具,列举了

它的一些应用,指出了数据挖掘中存在的一些问题。

关键词:

数据挖掘;数据仓库;统计技术;

中图分类号:

234

文献标识码:

&

文章编号:

5""!

6#784(!

""#)"$6"5!

!

6"3

统计与决策

!

""#

$

月(下)

分类和预测。

如常用的算法

%&’(

%)&*+

*+,

%-.$

%$."

等。

$

)神经网络:

模拟人的神经元功能,经过输入层,隐藏

层,输出层等,对数据进行调整,计算,最后得到结果,用于分

类和归纳。

#

)遗传算法:

基于自然进化理论,模拟基因联合、突变、

选择等过程的一种优化技术。

/

)关联规则挖掘算法:

关联规则是描述数据之间存在

关系的规则,形式为“

&0!

&!

!

...&12340!

4!

!

...41

”。

一般

分为两个步骤:

!

求出大数据项集。

"

用大数据项集产生

关联规则。

除了上述的常用方法外,还有粗集方法,模糊集合方法,

贝叶斯方法

5

最邻近算法等。

由于数据挖掘一开始就是面向应用的,是为决策服务,

而决策者又不一定具备太多的技术知识,目前许多公司和研

究机构开发了一系列的工具用于数据挖掘,见表

0

从表

0

可以看出,目前的数据挖掘软件较多,主流的数

据挖掘软件包括

6766

公司的

%89:

91;<19

6&6

公司的

=1>

;9?

@?

=B

)和

*4B

公司的

*1;988

等,这些软

件的使用不仅需要计算机技术,而且还需熟悉统计方法等技

术,但它们基本上能满足各项数据挖掘任务。

!

数据挖掘的实施步骤

前面我们讨论了数据挖掘的定义,方法和工具,现在关

键的问题是如何实施,其一般的步骤如下:

问题理解和提出—

3

数据准备—

3

数据整理—

3

立模型—

3

评价和解释

0

)问题理解和提出:

在开始数据挖掘之前最基本的就

是理解数据和实际的业务问题,在这个基础之上提出问题,

对目标有明确的定义。

!

)数据准备:

获取原始的数据,并从中抽取一定数量的

子集,建立数据挖掘库,其中一个问题是如果企业原来的数

据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖

掘库。

)数据整理:

由于数据可能是不完全的、有噪声的、随

机的,有

复杂的数

据结构,

就要对数

据进行初

步的整

理,清洗

不完全的数据,做初步的描述分析,选择与数据挖掘有关的

变量,或者转换变量。

-

)建立模型:

根据数据挖掘的目标和数据的特征,选择

合适的模型。

$

)评价和解释:

对数据挖掘的结果进行评价,选择最优

的模型,作出评价,运用于实际问题,并且要和专业知识结合

对结果进行解释。

以上的步骤不是一次完成的,可能其中某些步骤或者全

部要反复进行(见图

0

)。

许多研究机构和公司结合自己的数据挖掘软件,提出数

据挖掘过程模型,值得借鉴的是

6&6

研究所提出的方案。

6&6

研究所认为数据挖掘是

对数据进行选择,探索,调整和建

模来揭示数据中未知的模式

D6=BB&E

,开发了图形界面的

6&6F=B

来进行数据挖掘:

D0E6G:

@89

———抽样:

从大量

的数据中抽取与探索问题有关的

数据子集,这个样本应该包含足

够的信息,又易于处理。

D!

E=H@8I?

9

———探索:

对数据

子集进行探索,寻找出期望的关

系和未知的模式。

D,EBIJ

———调整:

对数据

进行探索后,有了初步的了解,就

必须对数据进行增减,选择,转

化,量化,保证有效进行

D-EBIJ98

———建模:

应用分

析软件工具,建立模型,进行预

测。

D$E&MM9AA

———评价:

评价数

据挖掘结果的有效性和可靠性。

0常用数据挖掘工具及其比较

0数据挖掘技术实施步骤流程图

知识丛林

0!

统计与决策

!

""#

$

月(下)

摘要:

本文对数据挖掘技术进行了回顾,介绍了目前在数据挖掘中常用的方法和工具,列举了

它的一些应用,指出了数据挖掘中存在的一些问题。

关键词:

数据挖掘;数据仓库;统计技术;

%&%’()

%*%%’+,-.-/01/-

中图分类号:

234

文献标识码:

&

文章编号:

5""!

6#784

!

""#

"$6"5!

!

6"3

数据挖掘技术及其应用现状

王斌会

(暨南大学经济学院,广州

$5"#3!

!

数据挖掘的含义、功能和内容

数据挖掘的历史虽然较短,但从

!

"

世纪

9"

年代以来,

它的发展速度很快,加之它是多学科综合的产物,目前还没

有一个完整的定义,提出了多种数据挖掘的定义,例如:

%&%

研究所(

5994

):

“在大量相关数据基础之上进行数

据探索和建立相关模型的先进方法”。

:

;<=

5999

):

“使用模式识别技术、统计和数学技术,

在大量的数据中发现有意义的新关系、模式和趋势的过程”。

>

-0<,

!

"""

):

“数据挖掘就是在大型数据库中寻找

有意义、有价值信息的过程”。

我们认为:

数据挖掘就是从海量的数据中挖掘出可能有

潜在价值的信息的技术,用以支持决策,可以为企业带来利

益,或者为科学研究寻找突破口。

现今资料流通量之巨大已到了令人咂舌地步,就实际限

制而言,便遇到了诸如巨量的记录,高维的资料,这些都增加

了传统分析技术上的困难,搜集到的资料仅有

$@

5"@

来分析,以及资料搜集过程中并不探讨特性等问题,这就让

我们不得不利用

A<0<)1/1/B

技术。

数据挖掘综合了各个学科技术,有很多的功能,当前的

主要功能如下:

5

)分类:

按照分析对象的属性、特征,建立不同的组类

来描述事物。

!

)聚类:

识别出分析对内在的规则,按照这些规则把对

象分成若干类。

3

)关联规则和序列模式的发现:

关联是某种事物发生

时其他事物会发生的这样一种联系。

7

)预测:

把握分析对象发展规律,对未来的趋势作出预

见。

$

)偏差的检测:

对分析对象的少数的、极端的特例的描

述,揭示内在的原因。

内在因素,减小以后经营的风险。

需要注意的是:

数据挖掘的各项功能并不是独立存在

的,在数据挖掘中互相联系,发挥着作用。

从统计角度看,统计数据挖掘的主要内容包括:

!

时间

序列数据库的挖掘;

"

截面数据库的挖掘;

#

统计信息数据

库的挖掘;

$

统计普查数据库的挖掘;

%

抽样调查数据库的

挖掘;

&C-D

统计资源数据库的挖掘。

当然,还有各种企业和

公司的经营数据资料的挖掘。

"

数据挖掘的方法及工具

数据挖掘通过对数据的总结、分类、聚类、关联等分析,

实现对数据内在结构特征的理解和对未知数据的预测。

作为

一门处理数据的新兴技术,数据挖掘有许多新特征。

首先,数

据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。

其次,数据可能是不完全的、有噪声的、随机的,有复杂的数

据结构,维数大。

最后,数据挖掘是许多学科的交叉,运用了

统计学,计算机,数学等学科的技术。

以下是常见和应用最广

泛的算法和模型:

5

)传统统计方法:

!

抽样技术:

我们面对的是海量的

数据,对所有的数据进行分析是不可能的也是没有必要的,

这就要求在理论的指导下进行合理的抽样。

"

多元统计分

析:

由于数据结构复杂、维数高,必不可少的要用到诸如因子

分析,聚类分析等方法。

#

统计预测方法,如回归分析,时间

序列分析等。

!

)可视化技术:

用图表等方式把数据特征直观地表述

出来,如直方图、散点图、三维曲面图等都需要可视化方法。

可视化技术面对的一个难题是高维数据的可视化。

3

)联机分析处理(

EF&*

):

EF&*

是一种联机的多维数

据分析方法。

联机体现在分析过程需要用户积极参与,并动

态地提出分析要求,选择分析算法,实现对数据由浅至深的

探索性分析;多维体现在它将数据库中的各种属性看作是描

述数据属性的“维”。

7

)决策树:

利用一系列规则划分,建立树状图,可用于

基金项目:

广东省自然科学基金项目

G"7"5"79"H

知识丛林

5!

!

!

数据挖掘应用现状

数据挖掘所要处理的问题,就是在庞大的数据库中找出

有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳

出有用的结构,作为企业进行决策的依据。

因而其应用非常

广泛,只要该企业有分析价值与需求的数据库,皆可利用

%&’&’(

工具进行有目的的发掘分析。

常见的应用案例多发生

在零售业、制造业、财务金融保险、通讯及医疗服务,例如:

)*+

在营销方面的应用:

如客户关系管理(

-%

)的系统

分析;不同商品在每个分店的销售趋势分析,使购买趋势、时

令特点和定价策略一目了然;零售商也可从顾客购买商品中

发现一定的关系,提供打折购物券等,提高销售额。

)!

+

在保险业中的应用:

对保险行业日益增长的各种查

询、统计和市场进行分析,有效利用数据来实现经营目标,预

测保险业的发展趋势。

保险公司可通过数据挖掘建立预测模

型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高

利润。

).+

在证券业的应用:

可处理客户分析,账户分析,证券

交易数据分析,非资金交易分析等多个业界关心的主题。

)/+

在银行领域的应用:

主要使银行了解自身的经营风

险,开发新产品,拓展新市场,实现科学管理及决策。

)$+

在制造业中,半导体的生产和测试中都产生大量的

数据,就必须对这些数据进行分析,找出存在的问题,提高质

量。

)#+

电子商务的作用越来越大,可以用数据挖掘对网站

进行分析,识别用户的行为模式,保留客户,提供个性化服

务,优化网站设计。

)0+

在税务领域的应用:

如查出应税未报者和瞒税漏税

者,并对其进行跟踪,也可对不同行业中纳税人的行为特征

进行描述,找出普遍规律,为税务征稽提供策略。

下面是一些公司运用数据挖掘的成功案例,显示了数据

挖掘的强大生命力:

美国

1234567896:

;4<

是世界上最大的汽车销售站点,每

天都会有大量的用户对网站上的信息点击,寻求信息,其运

用了

=1=

软件进行数据挖掘,每天对数据进行分析,找出用

户的访问模式,对产品的喜欢程度进行判断,并设特定服务

器,取得了成功。

-923969>

是世界著名的金融信息服务公司,其利用的数

据大都是外部的数据,这样数据的质量就是公司生存的关键

所在,必须从数据中检测出错误的成分。

-923969>

=?

==

数据挖掘工具

=?

==@,A9<9’3&’9

,建立数据挖掘模型,极大地

提高了错误的检测,保证了信息的正确和权威性。

B7>>CDE463

是世界最大的啤酒进出口商之一,在海外

F"

多个市场从事交易,每个星期传送

!

."""

份定单,这就需

要了解每个客户的习惯,如品牌的喜好等,

B7>>CDE463

GB%

G’99AA&(9’3%&’96

很好的解决了上述问题。

GH,

预测分析,从

*II0J!

""!

年,整个数据挖掘市场

将以平均每年

!

":

$K

的速度增长,到

!

""!

年将超过

!

I"

亿

美元,相信随着现代商业模式的进一步变革,数据挖掘应用

将成为企业获得竞争优势的有力武器。

"

数据挖掘中存在的问题

尽管数据挖掘有如此多的优点,但数据挖掘也面临着许

多的问题,这也为数据挖掘的未来的发展提供了更大的空

间。

*

)数据挖掘的基本问题就在于数据的数量和维数,数

据结构也因此显得非常复杂,如何进行探索,选择分析变量,

也就成为首先要解决的问题。

!

)面对如此大的数据,现有的统计方法等都遇到了问

题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽

取多大的样本,又怎样评价抽样的效果,这些都是值得研究

的难题。

.

)既然数据是海量的,那么数据中就会隐含一定的变

化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评

价。

/

)各种不同的模型如何应用,其效果如何评价。

不同的

人对同样的数据进行挖掘,可能产生不同的结果,甚至差异

很大,这就涉及到可靠性的问题。

$

)当前互联网的发展迅速,如何进行互联网的数据挖

掘,还有文本、声音、图象等非标准数据的挖掘,都引起了极

大的兴趣。

#

)由于数据是如此的大,其中隐含的信息是非常丰富

的,挖掘出来的信息是否完全,是否还有对决策更加有利的

信息,这都不得而知了。

0

)数据挖掘涉及到数据也就碰到了数据的私有性和保

密性。

F

)数据挖掘的结果是不确定的,要和专业知识相结合

才能对其做出判断。

总之,数据挖掘只是一个工具和方法,不是万能的,它可

以发现一些潜在的用户,但是不会告诉你为什么,也不能保

证这些潜在的用户成为现实。

数据挖掘的成功要求对期望解

决问题的领域有深刻的了解,理解数据,了解其过程,才能对

数据挖掘的结果找出合理的解释。

例如曾经用数据挖掘找出

的啤酒与尿布的例子,如何去解释这种现象,是应该将两者

放在一起还是分开销售,这还需要对消费心理学有所研究才

能做出决定,而不是数据挖掘能力所及的了。

参考文献:

L*M李雪胜编译:

利用=1=系统进行数据挖掘LNM:

数理统计与管理O

*II0O)!

+:

L!

M郑之开O张广凡O邵惠鹤:

数据采掘和知识发现:

回顾和展望LNM:

信息

与控制

O*IIIO)$+:

L.M-4P963Q643R:

H737%&’&’(:

B2&A8&’(,4

?

69’3&;9T7AA?

5-*III:

(责任编辑

@

李友平)

知识丛林

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 经济学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1