第6章数据仓库PPT文件格式下载.ppt

上传人:b****2 文档编号:15562861 上传时间:2022-11-05 格式:PPT 页数:41 大小:346.50KB
下载 相关 举报
第6章数据仓库PPT文件格式下载.ppt_第1页
第1页 / 共41页
第6章数据仓库PPT文件格式下载.ppt_第2页
第2页 / 共41页
第6章数据仓库PPT文件格式下载.ppt_第3页
第3页 / 共41页
第6章数据仓库PPT文件格式下载.ppt_第4页
第4页 / 共41页
第6章数据仓库PPT文件格式下载.ppt_第5页
第5页 / 共41页
点击查看更多>>
下载资源
资源描述

第6章数据仓库PPT文件格式下载.ppt

《第6章数据仓库PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《第6章数据仓库PPT文件格式下载.ppt(41页珍藏版)》请在冰豆网上搜索。

第6章数据仓库PPT文件格式下载.ppt

知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。

它还能通过全面的信息发现与分析,找到有价值的商业规则。

知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。

6.1.2知识发现系统的结构知识发现系统的结构知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图6.1)。

数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器商业分析员图6.1知识发现系统结构1.1.知识发现系统管理器知识发现系统管理器控制并管理整个知识发现过程控制并管理整个知识发现过程2.知识库和商业分析员知识库和商业分析员知知识识库库包包含含了了源源于于各各方方面面的的知知识识。

商商业业分分析析员员要要按按一一种种有有效的方式指导关注信息的发现效的方式指导关注信息的发现。

3.数据仓库的数据库接口数据仓库的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。

知识发现系统的数据库接口可以直接与数据仓库通信。

4.数据选择数据选择确定从数据仓库中需要抽取的数据及数据结构确定从数据仓库中需要抽取的数据及数据结构5.知识发现引擎知识发现引擎将知识库中的抽取算法提供给数据选择构件抽取的数据将知识库中的抽取算法提供给数据选择构件抽取的数据6.发现评价发现评价有助于商业分析员筛选模式,选出那些关注性的信息有助于商业分析员筛选模式,选出那些关注性的信息7.发现描述发现描述发现、评价并辅助商业分析员在知识库中保存关注性发现发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用结果以备将来引用,并保持知识发现与管理人员的通信。

并保持知识发现与管理人员的通信。

6.26.2现代挖掘技术及应用现代挖掘技术及应用6.2.1规则型现代挖掘技术及应用规则型现代挖掘技术及应用1.关联规则的基本概念关联规则的基本概念buys(x,“computer”)=buys(x,“finacial_management_software”)age(“30.40”)income(“42000.50000”)=buys(x,“high_resolution_TV”)布尔关联规则量化关联规则单维规则多维关联多层关联规则单层关联规则age(“30.40”)=buys(x,“IBMcomputer”)(6.3)age(“30.40”)=buys(x,“computer”)(6.4)2.关联规则的应用目标关联规则的应用目标置信度或正确率可以定义为:

置信度或正确率可以定义为:

(6.5)(6.5)覆盖率可以定义为覆盖率可以定义为“兴趣度兴趣度”为目标的关联规则为目标的关联规则3.关联规则的算法关联规则的算法AprioriApriori算法算法11找找出出所所有有支支持持度度大大于于最最小小支支持持度度的的项项集集,这这些些项项集集称称为为频频集集,包包含含kk个个项项的的频频集集称称为为k-k-项集。

项集。

22使用第使用第11步找到的频集产生所期望的规则。

步找到的频集产生所期望的规则。

AprioriApriori算法的第算法的第11步采用了递归方法,算法表示为步采用了递归方法,算法表示为LL11=large1-itemsets;

/=large1-itemsets;

/产生频繁产生频繁11项集项集LL11for(k=2;

Lfor(k=2;

Lk-1k-1;

k+)do/;

k+)do/循环产生频繁循环产生频繁22项集项集LL22直到某个直到某个rr使使LLrr为空为空beginbeginCCkk=apriori-gen(L=apriori-gen(Lk-1k-1);

/);

/产生产生k-k-项集的候选集项集的候选集foralltransactionstforalltransactionstDdoDdobeginbeginCCtt=subset(C=subset(Ckk,t);

/,t);

/事务事务tt中包含的候选集中包含的候选集forallcandidatescforallcandidatescCCttdodoc.count+;

c.count+;

endendLLkk=ccCCkk|c.count|c.countminsupminsupendendAnswer=Answer=UUkkLLkk第第22步步算算法法较较为为简简单单。

如如果果只只考考虑虑规规则则的的右右边边只只有有一一项项的的情情况况,给给定定一一个个频频集集Y=IY=I11,I,I22,I,I33,I,Ikk,k,k2,I2,IjjII,那那么么只只有有包包含含集集合合II11,I,I22,I,I33,IIkk中中的的项项的的规规则则最最多多有有kk条条。

这这种种规规则则形形如如II11,I,I22,I,I33,I,Ii-1i-1,I,Ii+1i+1,IIkkIIii,。

这这些规则置信度必须大于用户给定的最小置信度。

些规则置信度必须大于用户给定的最小置信度。

数据库DC1L1事务标识项集项集支持度项集支持度A11,3,4扫描数据库D1212A22,3,523比较支持度23A31,2,3,53333A42,5415353由L1产生C2C2L2项集项集支持度项集支持度1,2扫描数据库D1,211,221,31,32比较支持度2,321,51,512,532,32,323,522,52,533,53,52项集扫描数据库D项集支持度2,3,52,3,52由L2产生C3L34.关联规则的应用关联规则的应用前件和后件规则中的正确率和覆盖率规划覆盖率和正确率的平衡前件后件正确率覆盖率百吉饼奶油干酪80%5%百吉饼橙汁40%3%百吉饼咖啡40%2%百吉饼鸡蛋25%2%面包牛奶35%30%黄油牛奶65%20%鸡蛋牛奶35%15%奶酪牛奶40%8%规划覆盖率正确率低正确率高覆盖率高规划很少是正确的,但可以使用规划多数情况下是正确的,而且可以经常使用覆盖率低规划很少是正确的,一般不被使用规划多数情况下是正确的,但很少被使用6.2.2神经网络型现代挖掘技术神经网络型现代挖掘技术1.神经网络及其学习方法神经网络及其学习方法神神经网网络的工作的工作过程主要分两个程主要分两个阶段:

学段:

学习阶段和工作段和工作阶段。

段。

学学习方方式式则有有三三种种:

有有教教师(监督督)学学习、无无教教师(监督督)学学习和和强强化学化学习。

6.2.2神经网络型现代挖掘技术神经网络型现代挖掘技术2.基于神经网络的数据挖掘基于神经网络的数据挖掘(11)基于自组织神经网络的数据挖掘技术)基于自组织神经网络的数据挖掘技术一一种种无无教教师学学习过程程、可可以以提提取取一一组数数据据中中的的重重要要特特征征或或某某种内在知种内在知识(22)模糊神经网络类型数据挖掘技术)模糊神经网络类型数据挖掘技术模模糊糊BPBP网网络、模模糊糊KohonenKohonen聚聚类网网络、模模糊糊推推理理网网络、模模糊糊ARTART模型等模型等模模糊糊BPBP网网络中中,样本本的的希希望望输出出值改改为样本本相相对各各类的的希希望望隶隶属度属度输出出表表达达方方面面实现了了模模糊糊化化,而而且且将将样本本的的隶隶属属度度引引入入了了权系系数的修正数的修正规则中,使中,使权系数的修正系数的修正规则也也实现了模糊化。

了模糊化。

6.2.2神经网络型现代挖掘技术神经网络型现代挖掘技术3.后向传播模型(后向传播模型(BP,BackPropagation)及其算法及其算法具体过程如下:

具体过程如下:

选定选定pp个样本;

个样本;

权值初始化(随机生成);

依次输入样本;

依次计算各层的输出;

求各层的反传误差;

按权值调整公式修正各权值和阀值;

按新权值计算各层的输出,直到误差小于事先设定阀值;

变换函数可以采用这样几种:

阶阶跃跃函函数数、SS型型函函数数、比比例例函函数数、符符号号函函数数、饱和和函数函数、双曲函数双曲函数6.2.2神经网络型现代挖掘技术神经网络型现代挖掘技术4.神经网络的应用神经网络的应用47岁收入6500元节点借贷拖欠?

连接0.470.650.39Weight=0.7Weight=0.1年龄收入0.47(0.7)+0.65(0.1)0.396.2.3遗传算法型现代挖掘技术遗传算法型现代挖掘技术1.遗传算法的基本原理遗传算法的基本原理达达尔尔文文的的“适适者者生生存存”理理论论、继继承承的的信信息息由由基基因因携携带带、多多个个基基因因组组成成了了染染色色体体、基基因因座座、等等位位基基因因、基基因因型型和和表表现现型型染色体对应的是一系列符号序列,通常用染色体对应的是一系列符号序列,通常用00、11的位串表示的位串表示进进行行生生物物的的遗遗传传进进化化。

在在这这一一过过程程中中包包括括三三种种演演化化操操作作:

在在父父代代基基因因群群中中的的双双亲亲选选择择操操作作、两两个个父父代代双双亲亲产产生生子子代代基基因因的交叉操作和在子代基因群体中的变异操作。

的交叉操作和在子代基因群体中的变异操作。

两两种种数数据据转转换换:

从从表表现现型型到到基基因因型型的的转转换换,另另一一种种是是从从基基因因型型到表现型的转换到表现型的转换遗传算法实质上是一种繁衍、检测和评价的迭代算法遗传算法实质上是一种繁衍、检测和评价的迭代算法最最大大优优点点是是问问题题的的最最优优解解与与初初始始条条件件无无关关,而而且且搜搜索索最最优优解解的的能力极强能力极强6.2.3遗传算法型现代挖掘技术遗传算法型现代挖掘技术2.遗传算法的处理过程遗传算法的处理过程(11)编码并生成祖先群体)编码并生成祖先群体要用遗传算法解决问题,首先要定义有待解决的问题:

要用遗传算法解决问题,首先要定义有待解决的问题:

F=f(a,b,c),FF=f(a,b,c),FR,(a,b,c)R,(a,b,c)F=f(a,b,c)F=f(a,b,c)是是属属于于实实数数域域RR的的一一个个实实数数,也也是是每每一一组组解解(aaii,b,bii,c,cii)的的适适应应度度的的度度量量,算算法法的的目目标标是是找找一一个个(aaoo,bboo,c,coo),使使F=F=f(af(aoo,bboo,c,coo)取最大值。

取最大值。

(22)计算当前基因群体中所有个体的环境适合度)计

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 材料科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1