数据挖掘(DM).pptx

资源描述

数据挖掘(DM).pptx

《数据挖掘(DM).pptx》由会员分享，可在线阅读，更多相关《数据挖掘(DM).pptx（67页珍藏版）》请在冰豆网上搜索。

数据挖掘(DM).pptx

Datamining&BusinessIntelligenceDatamining&BusinessIntelligence数据挖掘与商务智能数据挖掘与商务智能22课程内容课程内容预备知识预备知识1数据挖掘（数据挖掘（DM）2商业智能（商业智能（BI）3数据挖掘的含义数据挖掘的含义&任务任务数据质量数据质量数据预处理数据预处理汇总统计、数据可视化汇总统计、数据可视化&OLAP&OLAP分类、分类、关联分析、聚类分析、异常检测关联分析、聚类分析、异常检测关联分析、聚类分析、异常检测关联分析、聚类分析、异常检测各类数据挖掘工具简介各类数据挖掘工具简介BIBI的含义的含义&案例案例数据挖掘技术在数据挖掘技术在BIBI中的应用中的应用面向服务架构面向服务架构&BI&BI参考书籍：

参考书籍：

IntroductiontoDataMiningIntroductiontoDataMining美美P.N.Tanet.al.P.N.Tanet.al.参考书籍：

参考书籍：

MaterialsfromtheInternetMaterialsfromtheInternet商务智能与数据挖掘商务智能与数据挖掘MicrosoftMicrosoftSQLserverSQLserver应用，应用，谢邦昌课件下载邮箱：

课件下载邮箱：

Psw:

gdutwwPsw:

gdutww3322数据挖掘具体方法数据挖掘具体方法2.32.3关联分析关联分析关联分析关联分析怎样进行怎样进行关联规则挖掘关联规则挖掘基本概念基本概念44基本概念：

关联规则挖掘基本概念：

关联规则挖掘l关联规则：

关联规则是形如关联规则：

关联规则是形如X-YX-Y的蕴涵表达式，其中的蕴涵表达式，其中XX和和YY是不相交的是不相交的项集，即项集，即。

l关联规则挖掘：

从一个数据集中发现关联规则，该规则显示了给定数关联规则挖掘：

从一个数据集中发现关联规则，该规则显示了给定数据集中经常一起出现的属性值条件元组。

据集中经常一起出现的属性值条件元组。

Market-Basket事务集事务集ExampleofAssociationRulesDiaperBeer,Milk,BreadEggs,Coke,Beer,BreadMilk,注意：

两个事务组相互关联，只是两者经常同时发生，而并不一定是两者一定具有因果关系。

2.3.12.3.155实例实例通过发现顾客放入其购物篮中不同通过发现顾客放入其购物篮中不同商品之间的联系，分析顾客的购买习商品之间的联系，分析顾客的购买习惯。

通过了解哪些商品频繁地被顾客惯。

通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助同时购买，这种关联的发现可以帮助零售商制定营销策略。

例如，在同一零售商制定营销策略。

例如，在同一次购物中，如果顾客购买牛奶的同时，次购物中，如果顾客购买牛奶的同时，也购买面包（和什么类型的面包）的也购买面包（和什么类型的面包）的可能性有多大？

可能性有多大？

这种信息可以引导销售，可以帮这种信息可以引导销售，可以帮助零售商有选择地经销和安排货架。

助零售商有选择地经销和安排货架。

例如，将牛奶和面包尽可能放近一些，例如，将牛奶和面包尽可能放近一些，可以进一步引导客户在商店里同时购可以进一步引导客户在商店里同时购买这些商品。

买这些商品。

CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer“啤酒与尿布啤酒与尿布”的关联规则的关联规则2.3.12.3.166一些基本定义一些基本定义l项集Q一个或多个项的集合如:

Milk,Bread,DiaperQk-项集包含有k个子项的项集l支持度计数（）Q一个项集在事务集中出现的频率QE.g.（Milk,Bread,Diaper）=2l支持度Q包含某个项集的事务数量比例QE.g.s（Milk,Bread,Diaper）=2/5l频繁项集Q支持度高于或等于阈值minsup的项集2.3.12.3.1为什么要使用支持度？

支持为什么要使用支持度？

支持度是一种重要的度量，因为支持度是一种重要的度量，因为支持度很低的规则只是偶然出现，从度很低的规则只是偶然出现，从商业角度来看，低支持度的规则商业角度来看，低支持度的规则多半也不是令人感兴趣的，因为多半也不是令人感兴趣的，因为对顾客很少同时购买的商品进行对顾客很少同时购买的商品进行促销可能并无益处。

促销可能并无益处。

77一些基本定义一些基本定义Example:

l关联规则Q形如XY的蕴涵式，其中X和Y是项集。

Q例如:

Milk,DiaperBeerl关联规则强度的衡量指标Q支持度（缩写：

s）同时包含X和Y的事务比例Q置信度（缩写：

c）Y在包含X的事务中出现的频繁程度。

2.3.12.3.188怎样进行关联规则挖掘怎样进行关联规则挖掘l给定事务集给定事务集T,T,关联规则挖掘的任务就关联规则挖掘的任务就是寻找满足以下条件的关联规则。

是寻找满足以下条件的关联规则。

Q支持度minsupthresholdQ置信度minconfthresholdl一种一种“原始野蛮原始野蛮”的方法的方法:

Q列出所有的规则Q分别计算每条规则的置信度和支持度Q剔除未达到minsup阈值和minconf阈值的规则Computationallyprohibitive!

2.3.22.3.2整体上是经常出现的，整体上是经常出现的，整体上是经常出现的，整体上是经常出现的，相互的关联度是大的相互的关联度是大的相互的关联度是大的相互的关联度是大的99怎样进行关联规则挖掘怎样进行关联规则挖掘ExampleofRules:

Milk,DiaperBeer（s=0.4,c=0.67）Milk,BeerDiaper（s=0.4,c=1.0）Diaper,BeerMilk（s=0.4,c=0.67）BeerMilk,Diaper（s=0.4,c=0.67）DiaperMilk,Beer（s=0.4,c=0.5）MilkDiaper,Beer（s=0.4,c=0.5）Observations:

所有上述规则都是产生于以下项集:

Milk,Diaper,Beer产生于相同项集的规则具有相同的支持度但是不同的置信度。

因此需要区分开置信度和支持度的要求。

2.3.22.3.21010怎样进行关联规则挖掘怎样进行关联规则挖掘l采用采用“两步走两步走”的方法的方法:

1.先产生频繁项集即找出supportminsup的所有项集2.生成规则从频繁项集中产生具有高置信度的规则，每条规则本质上其实就是频繁项集的一个划分。

l产生频繁项集的过程运算量仍然是非常大的！

产生频繁项集的过程运算量仍然是非常大的！

2.3.22.3.21111给定给定d个项，则可以产个项，则可以产生生2d个候选项集。

个候选项集。

怎样进行关联规则挖掘怎样进行关联规则挖掘2.3.22.3.2生成频繁项集生成频繁项集生成频繁项集生成频繁项集格结构：

常常格结构：

常常用来枚举所有用来枚举所有可能的项集可能的项集1212l原始的方法原始的方法:

Q列出所有可能项集（如右图），即候选的频繁项集Q扫描事务数据库（左图），计算每个候选项集的支持度。

Q将每个事务与候选项集相匹配，生成关联规则。

Q算法复杂度O（NMw）=ExpensivesinceM=2d!

2.3.22.3.2怎样进行关联规则挖掘怎样进行关联规则挖掘1313算法复杂度算法复杂度l给定给定dd个事务项个事务项:

Q项集的总数=2dQ可以生成的规则总数是:

Ifd=6,R=602rules2.3.22.3.2蕴含式的蕴含式的左端左端蕴含式的蕴含式的右端右端1414如何降低产生频繁项集的计算复杂度如何降低产生频繁项集的计算复杂度l减少候选项集的数目减少候选项集的数目（M）（M）Q完全的搜索:

M=2dQ可以采用一些剪枝的方法减少Ml减少比较次数减少比较次数（NM）（NM）Q可以使用更高级的数据结构存储事务或候选项集（HashTree）Q有些事务和候选项集并不一定需要进行比较。

l减少事务数目减少事务数目（N）（N）2.3.22.3.21515减少候选项集的策略减少候选项集的策略l先验原理先验原理:

Q如果一个项集是频繁的，则它的所有子集也一定是频繁的。

即：

l先验原理成立是因为支持度具先验原理成立是因为支持度具有以下特性有以下特性:

Q一个项集的支持度决不会超过其子集的支持度。

Q这个性质也称为支持度度量的反单调性。

2.3.22.3.21616FoundtobeInfrequent先验原理应用示例先验原理应用示例Prunedsupersets如果一个项集是如果一个项集是如果一个项集是如果一个项集是非频繁的，则它非频繁的，则它非频繁的，则它非频繁的，则它的超集也一定是的超集也一定是的超集也一定是的超集也一定是非频繁的非频繁的非频繁的非频繁的2.3.22.3.21717先验原理应用示例先验原理应用示例（续续）Items（1-itemsets）Pairs（2-itemsets）（NoneedtogeneratecandidatesinvolvingCokeorEggs）Triplets（3-itemsets）MinimumSupport=3Ifeverysubsetisconsidered,6C1+6C2+6C3=41Withsupport-basedpruning,6+6+1=132.3.22.3.21818Apriori算法算法（频繁项集的生成）频繁项集的生成）lMethod:

Method:

QLetk=1Q产生长度为1的频繁项集Q重复以下过程直到没有新的频繁项集产生从k个频繁项集中生成长度为k+1的候选项集对包含非频繁、且长度为k的子集的候选项集进行剪枝。

扫描数据库，统计每个候选项集的支持度剔除非频繁项集，保留频繁项集2.3.22.3.21919l给定频繁项集给定频繁项集L,L,找到所有的非空子集找到所有的非空子集ffLL使得规则使得规则ffLLff可以满足最小置信度的要求可以满足最小置信度的要求Q如果A,B,C,D是一个频繁项集,则候选规则有:

ABCD,ABDC,ACDB,BCDA,ABCD,BACD,CABD,DABCABCD,ACBD,ADBC,BCAD,BDAC,CDAB,l如果如果|L|=k,|L|=k,将有将有22kk22个候选的关联规则个候选的关联规则（因为忽略了因为忽略了LL和和L）L）2.3.22.3.2AprioriApriori算法算法（规则的生成）规则的生成）2020l怎样从频繁项集中高效的生成规则？

怎样从频繁项集中高效的生成规则？

Q一般而言,置信度并不具有单调性（这与支持度度量是不同的）例如：

c（ABCD）canbelargerorsmallerthanc（ABD）Q但如果是由同一个候选项集产生的规则则具有单调性Q如，L=A,B,C,D:

c（ABCD）c（ABCD）c（ABCD）Q因为当时，显然2.3.22.3.2AprioriApriori算法算法（规则的生成）规则的生成）2121LatticeofrulesPrunedRulesLowConfidenceRule2.3.22.3.2AprioriApriori算法算法（规则的生成）规则的生成）22222.3.22.3.2AprioriApriori算法算法（规则的生成）规则的生成）232322数据挖掘具体方法数据挖掘具体方法2.42.4聚类分析聚类分析聚类的经典方法聚类的经典方法基本概念基本概念2424什么是聚类分析什么是聚类分析?

l聚类分析又称为聚类分析又称为“同质分组同质分组”或者或者“无监督的分类无监督的分类”，指，指把一组数据分成不同的把一组数据分成不同的“簇簇”，每簇中的数据相似而不同，每簇中的数据相似而不同簇间的数据则距离较远。

簇间的

展开阅读全文