———调整:
对数据
进行探索后,有了初步的了解,就
必须对数据进行增减,选择,转
化,量化,保证有效进行
D-EBIJ98
———建模:
应用分
析软件工具,建立模型,进行预
测。
D$E&MM9AA
———评价:
评价数
据挖掘结果的有效性和可靠性。
表
0常用数据挖掘工具及其比较
图
0数据挖掘技术实施步骤流程图
知识丛林
0!
统计与决策
!
""#
年
$
月(下)
摘要:
本文对数据挖掘技术进行了回顾,介绍了目前在数据挖掘中常用的方法和工具,列举了
它的一些应用,指出了数据挖掘中存在的一些问题。
关键词:
数据挖掘;数据仓库;统计技术;
%&%’()
;
%*%%’+,-.-/01/-
中图分类号:
234
文献标识码:
&
文章编号:
5""!
6#784
(
!
""#
)
"$6"5!
!
6"3
数据挖掘技术及其应用现状
王斌会
(暨南大学经济学院,广州
$5"#3!
)
!
数据挖掘的含义、功能和内容
数据挖掘的历史虽然较短,但从
!
"
世纪
9"
年代以来,
它的发展速度很快,加之它是多学科综合的产物,目前还没
有一个完整的定义,提出了多种数据挖掘的定义,例如:
%&%
研究所(
5994
):
“在大量相关数据基础之上进行数
据探索和建立相关模型的先进方法”。
:
;<=1
(
5999
):
“使用模式识别技术、统计和数学技术,
在大量的数据中发现有意义的新关系、模式和趋势的过程”。
>?
-0<,
(
!
"""
):
“数据挖掘就是在大型数据库中寻找
有意义、有价值信息的过程”。
我们认为:
数据挖掘就是从海量的数据中挖掘出可能有
潜在价值的信息的技术,用以支持决策,可以为企业带来利
益,或者为科学研究寻找突破口。
现今资料流通量之巨大已到了令人咂舌地步,就实际限
制而言,便遇到了诸如巨量的记录,高维的资料,这些都增加
了传统分析技术上的困难,搜集到的资料仅有
$@
至
5"@
用
来分析,以及资料搜集过程中并不探讨特性等问题,这就让
我们不得不利用
A<0<)1/1/B
技术。
数据挖掘综合了各个学科技术,有很多的功能,当前的
主要功能如下:
(
5
)分类:
按照分析对象的属性、特征,建立不同的组类
来描述事物。
(
!
)聚类:
识别出分析对内在的规则,按照这些规则把对
象分成若干类。
(
3
)关联规则和序列模式的发现:
关联是某种事物发生
时其他事物会发生的这样一种联系。
(
7
)预测:
把握分析对象发展规律,对未来的趋势作出预
见。
(
$
)偏差的检测:
对分析对象的少数的、极端的特例的描
述,揭示内在的原因。
内在因素,减小以后经营的风险。
需要注意的是:
数据挖掘的各项功能并不是独立存在
的,在数据挖掘中互相联系,发挥着作用。
从统计角度看,统计数据挖掘的主要内容包括:
!
时间
序列数据库的挖掘;
"
截面数据库的挖掘;
#
统计信息数据
库的挖掘;
$
统计普查数据库的挖掘;
%
抽样调查数据库的
挖掘;
&C-D
统计资源数据库的挖掘。
当然,还有各种企业和
公司的经营数据资料的挖掘。
"
数据挖掘的方法及工具
数据挖掘通过对数据的总结、分类、聚类、关联等分析,
实现对数据内在结构特征的理解和对未知数据的预测。
作为
一门处理数据的新兴技术,数据挖掘有许多新特征。
首先,数
据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。
其次,数据可能是不完全的、有噪声的、随机的,有复杂的数
据结构,维数大。
最后,数据挖掘是许多学科的交叉,运用了
统计学,计算机,数学等学科的技术。
以下是常见和应用最广
泛的算法和模型:
(
5
)传统统计方法:
!
抽样技术:
我们面对的是海量的
数据,对所有的数据进行分析是不可能的也是没有必要的,
这就要求在理论的指导下进行合理的抽样。
"
多元统计分
析:
由于数据结构复杂、维数高,必不可少的要用到诸如因子
分析,聚类分析等方法。
#
统计预测方法,如回归分析,时间
序列分析等。
(
!
)可视化技术:
用图表等方式把数据特征直观地表述
出来,如直方图、散点图、三维曲面图等都需要可视化方法。
可视化技术面对的一个难题是高维数据的可视化。
(
3
)联机分析处理(
EF&*
):
EF&*
是一种联机的多维数
据分析方法。
联机体现在分析过程需要用户积极参与,并动
态地提出分析要求,选择分析算法,实现对数据由浅至深的
探索性分析;多维体现在它将数据库中的各种属性看作是描
述数据属性的“维”。
(
7
)决策树:
利用一系列规则划分,建立树状图,可用于
基金项目:
广东省自然科学基金项目
G"7"5"79"H
知识丛林
5!
!
!
数据挖掘应用现状
数据挖掘所要处理的问题,就是在庞大的数据库中找出
有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳
出有用的结构,作为企业进行决策的依据。
因而其应用非常
广泛,只要该企业有分析价值与需求的数据库,皆可利用
%&’&’(
工具进行有目的的发掘分析。
常见的应用案例多发生
在零售业、制造业、财务金融保险、通讯及医疗服务,例如:
)*+
在营销方面的应用:
如客户关系管理(
-%
)的系统
分析;不同商品在每个分店的销售趋势分析,使购买趋势、时
令特点和定价策略一目了然;零售商也可从顾客购买商品中
发现一定的关系,提供打折购物券等,提高销售额。
)!
+
在保险业中的应用:
对保险行业日益增长的各种查
询、统计和市场进行分析,有效利用数据来实现经营目标,预
测保险业的发展趋势。
保险公司可通过数据挖掘建立预测模
型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高
利润。
).+
在证券业的应用:
可处理客户分析,账户分析,证券
交易数据分析,非资金交易分析等多个业界关心的主题。
)/+
在银行领域的应用:
主要使银行了解自身的经营风
险,开发新产品,拓展新市场,实现科学管理及决策。
)$+
在制造业中,半导体的生产和测试中都产生大量的
数据,就必须对这些数据进行分析,找出存在的问题,提高质
量。
)#+
电子商务的作用越来越大,可以用数据挖掘对网站
进行分析,识别用户的行为模式,保留客户,提供个性化服
务,优化网站设计。
)0+
在税务领域的应用:
如查出应税未报者和瞒税漏税
者,并对其进行跟踪,也可对不同行业中纳税人的行为特征
进行描述,找出普遍规律,为税务征稽提供策略。
下面是一些公司运用数据挖掘的成功案例,显示了数据
挖掘的强大生命力:
美国
1234567896:
;4<
是世界上最大的汽车销售站点,每
天都会有大量的用户对网站上的信息点击,寻求信息,其运
用了
=1=
软件进行数据挖掘,每天对数据进行分析,找出用
户的访问模式,对产品的喜欢程度进行判断,并设特定服务
器,取得了成功。
-923969>
是世界著名的金融信息服务公司,其利用的数
据大都是外部的数据,这样数据的质量就是公司生存的关键
所在,必须从数据中检测出错误的成分。
-923969>
用
=?
==
的
数据挖掘工具
=?
==@,A9<9’3&’9
,建立数据挖掘模型,极大地
提高了错误的检测,保证了信息的正确和权威性。
B7>>CDE463
是世界最大的啤酒进出口商之一,在海外
F"
多个市场从事交易,每个星期传送
!
."""
份定单,这就需
要了解每个客户的习惯,如品牌的喜好等,
B7>>CDE463
用
GB%
的
G’99AA&(9’3%&’96
很好的解决了上述问题。
据
GH,
预测分析,从
*II0J!
""!
年,整个数据挖掘市场
将以平均每年
!
":
$K
的速度增长,到
!
""!
年将超过
!
I"
亿
美元,相信随着现代商业模式的进一步变革,数据挖掘应用
将成为企业获得竞争优势的有力武器。
"
数据挖掘中存在的问题
尽管数据挖掘有如此多的优点,但数据挖掘也面临着许
多的问题,这也为数据挖掘的未来的发展提供了更大的空
间。
(
*
)数据挖掘的基本问题就在于数据的数量和维数,数
据结构也因此显得非常复杂,如何进行探索,选择分析变量,
也就成为首先要解决的问题。
(
!
)面对如此大的数据,现有的统计方法等都遇到了问
题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽
取多大的样本,又怎样评价抽样的效果,这些都是值得研究
的难题。
(
.
)既然数据是海量的,那么数据中就会隐含一定的变
化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评
价。
(
/
)各种不同的模型如何应用,其效果如何评价。
不同的
人对同样的数据进行挖掘,可能产生不同的结果,甚至差异
很大,这就涉及到可靠性的问题。
(
$
)当前互联网的发展迅速,如何进行互联网的数据挖
掘,还有文本、声音、图象等非标准数据的挖掘,都引起了极
大的兴趣。
(
#
)由于数据是如此的大,其中隐含的信息是非常丰富
的,挖掘出来的信息是否完全,是否还有对决策更加有利的
信息,这都不得而知了。
(
0
)数据挖掘涉及到数据也就碰到了数据的私有性和保
密性。
(
F
)数据挖掘的结果是不确定的,要和专业知识相结合
才能对其做出判断。
总之,数据挖掘只是一个工具和方法,不是万能的,它可
以发现一些潜在的用户,但是不会告诉你为什么,也不能保
证这些潜在的用户成为现实。
数据挖掘的成功要求对期望解
决问题的领域有深刻的了解,理解数据,了解其过程,才能对
数据挖掘的结果找出合理的解释。
例如曾经用数据挖掘找出
的啤酒与尿布的例子,如何去解释这种现象,是应该将两者
放在一起还是分开销售,这还需要对消费心理学有所研究才
能做出决定,而不是数据挖掘能力所及的了。
参考文献:
L*M李雪胜编译:
利用=1=系统进行数据挖掘LNM:
数理统计与管理O
*II0O)!
+:
L!
M郑之开O张广凡O邵惠鹤:
数据采掘和知识发现:
回顾和展望LNM:
信息
与控制
O*IIIO)$+:
L.M-4P963Q643R:
H737%&’&’(:
B2&A8&’(,4?
69’3&;9T7AA?
5-*III:
(责任编辑
@
李友平)
知识丛林