1、在商业智能软件市场,在商业智能软件市场,2007年已有过多起并购交易:如年已有过多起并购交易:如IBM并购并购Cognos,SAP 并购并购Business Objects,Oracle并并购购Hyperion。消息:Oracle2007/4/18Oracle2007/4/18以以2929亿美元收购商业智能软件亿美元收购商业智能软件商商Hyperion SolutionsHyperion Solutions。它将该公司软件与自己的商业智它将该公司软件与自己的商业智能和分析工具软件整合起来,以提高客户的规划、预算、能和分析工具软件整合起来,以提高客户的规划、预算、运营分析等管理能力。运营分析等管
2、理能力。10/28/20225 二二、商业智能体系的构成、商业智能体系的构成1.理论基础,如理论基础,如CRM中的八大理论中的八大理论2.三项技术:数据仓库和数据集市产品,三项技术:数据仓库和数据集市产品,OLAP工具,工具,数据挖掘软件数据挖掘软件3.应用界面:终端用户查询和报告工具应用界面:终端用户查询和报告工具 10/28/20226 三、数据挖掘概念三、数据挖掘概念1.定义定义:DM就是应用一系列技术从数据仓库中提取就是应用一系列技术从数据仓库中提取人们感兴趣的信息人们感兴趣的信息概念、规则、规律、模式概念、规则、规律、模式概念、规则、规律、模式概念、规则、规律、模式。它是深层次的数据
3、分析它是深层次的数据分析,是分析型是分析型是分析型是分析型CRMCRMCRMCRM的核心的核心的核心的核心。Data Mining is the application of artificial intelligence(AI)techniques(Neural network,fuzzy Logic,genetic arithmetic,etc)to large quantities of data,to discovery hidden trends,patterns,and relationships-Meta Group 10/28/202282.DM 与与KDD(知识发现知识发现)
4、的关系。)的关系。KDD:Knowledge discovery in database is the non-trivial process of identifying valid,novel,potential,useful,and ultimately understandable pattern in data.等价:人工智能领域习惯称知识发现,数据库等价:人工智能领域习惯称知识发现,数据库领域称领域称DM。核心:把核心:把DM当作当作KDD的最核心部分。的最核心部分。10/28/202291.市场营销:预测顾客购买行为,划分顾客群体。市场营销:2.银行业:侦测欺诈行为;客户信誉度分
5、析。银行业:3.零售业:预测销售额;决定库存量,批发点分布。零售业:4.制造业:预测机器故障;发现生产力的关键因素。制造业:5.经纪业和安全交易:预测债券价格、确定交易时间。经纪业和安全交易:6.电信:评估客户群;综合效益分析;网络性能评估。电信:7.经营管理:评估客户信誉、部门业绩、员工业绩等。经营管理:四、四、DMDM的应用的应用10/28/2022121.技术部要求:就某钢种找到一组生产条件,通过调整技术部要求:就某钢种找到一组生产条件,通过调整化学成分或轧制参数,化学成分或轧制参数,提高断裂延伸率,降低抗拉强度提高断裂延伸率,降低抗拉强度。2.数据预处理:从数据集市中,找出数据预处理:
6、从数据集市中,找出15000条质量记录。条质量记录。3.DM方法:聚类分析。方法:4.结论:结论:(1)钢材两项性能指标与温度和两种元素含量有关。)钢材两项性能指标与温度和两种元素含量有关。(2)增加该两项元素含量可实现)增加该两项元素含量可实现两项目标两项目标。5.效益:技术部工程师建议:效益:(1)结合工程现状,保持温度不变。结合工程现状,保持温度不变。(2)将某一元素(成本高)减少将某一元素(成本高)减少50%以降低成本。以降低成本。(3)另元素含量客户需求加调整。另元素含量客户需求加调整。例:宝钢的例:宝钢的DM10/28/202213五、五、DM技术的分类技术的分类1.根据发现的知识
7、种类分类根据发现的知识种类分类(1)总结(总结(summarizing):概括数据,做一般性结论):概括数据,做一般性结论(2)特征()特征(characteristics):描述数据的分布特征。):(3)分类()分类(Classification):生成一分类函数或分类树。(4)聚集()聚集(Clustering):聚集和分类的区别。(5)数据可视化()数据可视化(Description and Visualization)(6)关联规则()关联规则(association rules)(7)序列分析()序列分析(Sequence Analysis)(8)偏差分析偏差分析(Deviation
8、 Analysis)10/28/202214六、六、DMDM在在CRMCRM中的作用中的作用1、发现最有价值客户和新客户10/28/2022172、使交叉销售更有效率10/28/2022183、客户保持:客户流失预警模型个性化营销和服务10/28/2022194、欺诈发现返回10/28/202220五、五、DM的流程的流程(一)(一)一般一般流程流程数据准备数据准备 数据挖掘数据挖掘 结果表达和解释结果表达和解释10/28/202222转转换换数数据据预处理后的数据理后的数据数据准数据准备 数据挖掘数据挖掘 结果表达和解果表达和解释 数据预处理数据预处理 数据选择数据选择 目标数据目标数据 数
9、据集成数据集成数据源数据源数据转换数据转换数据挖掘数据挖掘 模式模式 结果表达和转换结果表达和转换知识知识 数据数据 10/28/202223(二)(二)CRISP-DMCRISP-DM流程流程简介简介 1、CRISPDM是是CRoss-Industry Standard ProcessData Mining的缩写,由的缩写,由SPSS、NCR、Daimler-Benz在在1996年制定,是数据挖掘的年制定,是数据挖掘的标准之一。标准之一。2、CRISPDM过程:过程:10/28/2022251.商业理解商业理解2.数据理解数据理解3.数据准备数据准备4.建立模型建立模型5.模型评估模型评估6
10、.模型发布模型发布返回10/28/202226第二节第二节 关联规则关联规则(association rules)Old=MotoV730Female&Young=Siemens Minnie 8008一、实例与问题一、实例与问题实例实例1:关联规则关联规则让繁杂的数据指示重要信息让繁杂的数据指示重要信息.10/28/202228实例实例2 2:某商店出售数码商品:Dell D820,Sony BX145,Sony FJ68C,HP 1010,HP 4300,Canon LBP5200,Canon EOS-20D,Canon IXUS 700,Sony DSC-V3。记录如下:购买规律?10/
11、28/202229商品间不存在关联规则商品间不存在关联规则 品牌间存在着关联品牌间存在着关联规则规则10/28/202230实例实例3:购物篮里有什么购物篮里有什么?事事务项T100T100I1,I2,I5,I1,I2,I5,I3I3T200T200I2,I4,I2,I4,I1I1T300T300I2,I3,I2,I3,I5I5T400T400I1,I2,I4I1,I2,I4T500T500I1,I3I1,I3T600T600I2,I3I2,I3T700T700I1,I3I1,I3T800T800I1,I2,I3,I5I1,I2,I3,I5T900T900I1,I2,I3I1,I2,I3l顾客
12、购物篮中各种商品之间顾客购物篮中各种商品之间的关系:如买牛奶,也购买的关系:如买牛奶,也购买面包的可能性有多大?面包的可能性有多大?买铁买铁锤的顾客中有多少人同时也锤的顾客中有多少人同时也买铁钉?买铁钉?l数学表达:设事务数据库中数学表达:设事务数据库中有有9个事务,如右图。试按个事务,如右图。试按最小支持度最小支持度2 次、最小可信次、最小可信度度70%的标准寻找关联规则。的标准寻找关联规则。10/28/2022311.项集:项的集合称为项集。项集:设设I=I,I2,.,In是一个项集,其中是一个项集,其中Ii(i=1,2,3,n)可以是购物可以是购物篮中的一物品,或保险公司的顾客。篮中的一
13、物品,或保险公司的顾客。K项集项集-包含包含K个项的项集被成为个项的项集被成为K项集。项集。2.事务:事务是项的集合,设有事务事务:事务是项的集合,设有事务T,则,则T I.对应每个事对应每个事务有唯一的标识,如务有唯一的标识,如TID。又设。又设A是是I中项的集合,如果中项的集合,如果A T,则称则称A为事务为事务T的子集。的子集。3.事务集:事务的集合称为事务集。设某事务集为事务集:设某事务集为D,则,则D=T1,T2,,Tp,4.逻辑蕴涵:逻辑蕴涵:A B,其中其中A,B是项集,是项集,A I,B I,A B=。二、基本概念二、基本概念 10/28/202232设设A,B是项集,对于事务集是项集,对于事务集D,AD,BD,A B=,则,则
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1