最新数据挖掘课件PPT 获奖作品图文.ppt
《最新数据挖掘课件PPT 获奖作品图文.ppt》由会员分享,可在线阅读,更多相关《最新数据挖掘课件PPT 获奖作品图文.ppt(227页珍藏版)》请在冰豆网上搜索。
数据挖掘,1概述,1.1背景1.2数据挖掘定义1.3基本概念1.4主要功能1.5数据挖掘模型1.6实现流程1.7数据挖掘的应用1.8未来趋势,1.1背景,二十世纪末以来,全球信息量以惊人的速度急剧增长据估计,每二十个月将增加一倍。
许多组织机构的IT系统中都收集了大量的数据(信息)。
目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。
为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。
1.1背景,数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。
它是一个新兴的,面向商业应用的AI研究。
(AI(ArtificialIntelligence,人工智能)1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)这一术语。
随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。
最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。
1.1背景,现在,人们往往不加区别地使用两者。
KDD常常被称为数据挖掘(DataMining),实际两者是有区别的。
一般将KDD中进行知识学习的阶段称为数据挖掘(DataMining),数据挖掘是KDD中一个非常重要的处理步骤。
数据挖掘是近年来出现的客户关系管理(CustomerRelationshipManagement,CRM)、商业智能(BusinessIntelligence,BI)等热点领域的核心技术之一。
1.2数据挖掘定义,技术角度的定义数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
与数据挖掘相近的同义词包括:
数据融合、数据分析和决策支持等。
这一定义包括好几层含义:
数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
1.2数据挖掘定义,商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。
简言之,数据挖掘其实是一类深层次的数据分析方法。
因此,数据挖掘可以描述为:
按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。
数据挖掘的演化,数据挖掘与其他科学的关系,DataMining,DatabaseTechnology,Statistics,OtherDisciplines,InformationScience,MachineLearning,Visualization,数据挖掘与其他科学的关系,数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。
此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。
数据挖掘与统计学的关系,近几年,人们逐渐发现数据挖掘中有许多工作都是由统计方法来完成的。
甚至有些人(尤其是统计学家)认为数据挖掘是统计学的一个分支,当然大多数人(包括绝大多数数据挖掘研究人员)并不这么认为。
但是,统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。
数据挖掘与传统数据分析方法区别,
(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;
(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。
即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”里面的数据几乎不再被访问。
也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。
因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
数据挖掘与传统数据分析方法区别,国外数据挖掘的现状,IEEE的KnowledgeandDataEngineering会刊率先在1993年出版了KDD技术专刊。
并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。
数据挖掘已经成了国际学术研究的重要热点之一。
此外,在Internet上还有不少KDD电子出版物,其中以半月刊KnowledgeDiscoveryNuggets最为权威(http:
/subscribe.html)。
在网上还有许多自由论坛,如DMEmailClub等。
国外数据挖掘的现状,自1989年KDD术语出现以来,由美国人工智能协会主办的KDD国际研讨会已经召开了10次以上,规模由原来的专题讨论会发展到国际学术大会。
而亚太地区也从1997开始举行PAKDD年会。
国内数据挖掘研究现状,与国外相比,国内对数据挖掘的研究起步稍晚,但发展势头强劲。
1993年,国家自然科学基金首次资助复旦大学对该领域的研究项目。
目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。
数据挖掘的发展趋势,近年来,数据挖掘的研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。
例如,1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。
数据挖掘的本质,一种深层次的数据分析方法。
数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。
现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。
实施数据挖掘的目的,不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。
所有企业面临的一个共同问题是:
企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。
1.3基本概念,信息是事物运动的状态和状态变化的方式。
数据指一个有关事实F的集合(如学生档案数据库中有关学生基本情况的各条记录),用来描述事物有关方面的信息。
一般而言,这些数据都是准确无误的。
数据可能存储在数据库、数据仓库和其他信息资料库中。
1.3基本概念,知识人们实践经验的结晶且为新的实践所证实的;是关于事物运动的状态和状态变化的规律;是对信息加工提炼所获得的抽象化产物。
知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。
1.3基本概念,模式对于集合F中的数据,我们可以用语言L来描述其中数据的特性,得出一个表达式E,E所描述的数据是集合F的一个子集FE。
只有当表达式E比列举所有FE中元素的描述方法更为简单时,我们才可称之为模式。
如:
“如果成绩在81-90之间,则成绩优良”可称为一个模式,而“如果成绩为81、82、83、84、85、86、87、88、89或90,则成绩优良”则不能称之为一个模式。
1.4主要功能,1.概念/类别描述(Concept/ClassDescription)概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。
例1:
我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:
3550岁,有工作,月收入5000元以上,拥有良好的信用度;,1.4主要功能,例2:
对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。
利用数据挖掘可作出如下描述:
移动电话月消费额超出1000元的客户80以上年龄在3550岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60以上要么年龄过大要么年龄过小,且月收入2000元以下。
1.4主要功能,2.关联分析(AssociationAnalysis)从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性值条件元组。
例如:
关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。
关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。
1.4主要功能,3.分类与估值(ClassificationandEstimation)分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。
该分类模型可以表现为多种形式:
分类规则(IF-THEN),决策树或者数学公式,乃至神经网络。
估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。
1.4主要功能,4.聚类分析(ClusteringAnalysis)聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。
相似性可以由用户或者专家定义的距离函数加以度量。
好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。
1.4主要功能,5.时间序列分析(Time-SeriesAnalysis)时间序列分析即预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。
预测的目的是对未来的情况作出估计。
1.4主要功能,6.其它功能包括:
偏差分析(DeviationAnalysis)、孤立点分析(OutlierAnalysis)等。
随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。
1.5数据挖掘模型,为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。
CRISP-DM模型最先在1996年被提出,当前的白皮书版本是1.0。
CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,1.5数据挖掘模型,CRISP-DM模型中,数据挖掘包括六个步骤:
1.业务理解(BusinessUnderstanding)阶段具体地,包括:
确定业务目标项目可行性分析确定数据挖掘目标提出初步的项目计划,1.5数据挖掘模型,确定业务目标:
分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;项目可行性分析:
分析拥有的资源,条件和限制,风险估计,成本和效益估计;确定数据挖掘目标:
明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等;提出项目计划:
对整个项目做一个计划,初步估计用到的工具和技术。
1.5数据挖掘模型,2数据理解(DataUnderstanding)阶段具体地,包括