数据挖掘概念与核心技术.docx

上传人:b****5 文档编号:4811800 上传时间:2022-12-09 格式:DOCX 页数:9 大小:21.77KB
下载 相关 举报
数据挖掘概念与核心技术.docx_第1页
第1页 / 共9页
数据挖掘概念与核心技术.docx_第2页
第2页 / 共9页
数据挖掘概念与核心技术.docx_第3页
第3页 / 共9页
数据挖掘概念与核心技术.docx_第4页
第4页 / 共9页
数据挖掘概念与核心技术.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

数据挖掘概念与核心技术.docx

《数据挖掘概念与核心技术.docx》由会员分享,可在线阅读,更多相关《数据挖掘概念与核心技术.docx(9页珍藏版)》请在冰豆网上搜索。

数据挖掘概念与核心技术.docx

数据挖掘概念与核心技术

数据挖掘概念与技术

一.什么是数据挖掘,数据挖掘知识体系及应用范畴

1.定义:

又称数据中知识发现,从大量数据中挖掘有趣模式和知识过程。

知识发现过程:

 1).数据清理:

除噪声和删除不一致数据

 2).数据集成:

各种数据源组合

 3).数据选取:

取和分析与任务有关数据

 4).数据变换:

数据变换和统一成适合挖掘形式

 5).数据挖掘:

使用智能办法提取数据格式

 6).模式评估:

辨认代表知识有趣模式

 7).知识表达:

使用可视化和知识表达技术,向顾客提供挖掘知识

2.为什么要进行数据挖掘

    将来将是大数据时代,IDC(国际数据公司)研究报告指出全球信息资料量为2.8ZB(240次方GB),而在预测会达到40ZB,平均每人拥有5247GB数据。

庞大数据量背后隐藏着巨大潜在价值,人们手握巨量数据却没有较好手段去充分挖掘其中价值,因而对数据挖掘研究可以协助咱们将数据转化成知识。

3.数据挖掘知识体系

   数据挖掘作为一种应用驱动领域,吸纳了许多应用领域技术,涉及:

记录学、机器学习、模式辨认、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。

数据挖掘任务分类:

描述性任务:

刻画目的数据普通性质

预测性任务:

归纳及做出预测

数据挖掘功能:

1).数据特性化与数据区别

2).频繁模式

3).关联和有关性挖掘

4).分类和回归

5).聚类分析

6).离群点分析

4.数据挖掘应用领域

1.金融数据分析

2.零售与电信业:

例如分析零售数据有助于做出对的决策;产品推荐;顾客保有及促销方略

3.科学与工程数据挖掘

4.网络数据挖掘:

社交网络顾客行为分析,多媒体、文本和web数据分析

5.信息检索:

搜索引擎、云计算、数据仓库

 

二.结识数据

1.属性总结:

标称属性:

某些符号和事物名称,如头发颜色和学历是描述人属性。

二元属性:

只有0、1两种状态

序数属性:

也许值具备故意义序,如教师职称

数值属性:

定量,用实数值表达

2.度量数据相似性和相异性(即数据邻近性)

非对称二元属性:

Jaccard属性

数值属性:

欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离

相似性评估:

余弦相似性(用于比较文档)、Tanimoto系数

3.数据预解决

1).数据清理:

弥补缺失值、光滑噪声、辨认离群点、纠正数据不一致性,普通是一种两步迭代过程,涉及偏差检测盒数据变换

 解决缺失值:

有忽视元组、人工填写、全局常量填充、     

             均值或中位数填充、同类均值或中位数填充、最也许值填充六种办法。

 噪声数据解决:

分箱(考察近邻数据值,有箱均值、箱中位数、箱边界光滑办法)

               回归、离群点分析

2).数据集成:

将来自各种数据源数据整合成一致数据存储

实体辨认问题:

模式集成和对象匹配。

如在一种系统中discount用于订单,而在另一种系统中用于商品,集成不对的导致商品不对的打折

冗余和有关分析:

冗余指一种属性能由另一种或另一组属性导出,则这个属性是冗余,可用有关分析检测到。

标称数据使用卡方检查,数值属性用有关系数和协方差

3).数据规约:

简化数据集表达,涉及维规约和数值规约

维规约:

数据压缩技术(如小波变换和主成分分析),属性子集选取,属性构造

数值规约:

参数模型(如回归),非参数模型(聚类、抽样、直方图)

4).数据变换:

将数据变换成适于挖掘形式

变换方略涉及:

光滑,属性构造,汇集,规范化,离散化,由标称数据产生概念分层。

 

 三.数据仓库与数据立方体技术

1.数据仓库基本概念:

  1).数据仓库定义:

一种面向主题、集成、时变、非易失数据集合,支持管理者决策过程。

  2).数据库与数据仓库区别:

     重要区别在于数据库是面向事务操作解决,而数据仓库是面向分析信息解决。

     数据库顾客为数据库专业人员、解决寻常操作,而数据仓库为主管和分析人员,为决策提供支持。

  3).数据仓库体系架构:

底层数据,中间层OLAP服务器,顶层前端工具

  4).数据仓库模型:

        公司仓库:

提供公司范畴内数据集成,公司范畴

        数据集市:

包括公司范畴数据一种子集,对特定顾客群,咸鱼选定主题,部门范畴。

        虚拟仓库:

操作数据库上视图集合

2.数据仓库建模

数据立方体:

容许以多维数据建模和观测,由维(属性)和事实(数值)定义

方体:

给定诸维每个也许自己产生一种方体,成果形成方体格,方体格称作数据立方体。

 

多维模型:

        星形模式:

涉及一种大中心表(事实表)、一组小附属表(维表),维表环绕中心表

        雪花模式:

是星形表变种,某些维表被规范化费解到附加表中,用于数据集市

        事实星座:

各种事实表分享维表,用于复杂应用,惯用于公司数据仓库

3.典型OLAP操作:

上卷:

沿一种维概念分层向上攀升或通过维规约进行汇集,如由city上卷到country

下钻:

沿维概念分层向下或引入附加维来实现,如由季度数据到更详细月数据

切片:

在立方体一种维上进行选取,定义一种子立方体,如选取季度一数据

切块:

在立方体两个或各种维上进行选取,定义子立方体,如选取季度为一和商品类型为计算机数据

转轴:

转动数据视角,或将3D立方变换成2D平面序列

物化:

完全物化(完全立方体):

计算定义数据立方体格中所有方体,需要过多存储空间,导致维劫难某些物化:

选取性计算子立方体

冰山立方体:

一种数据立方体,只存储其汇集值不不大于某个最小支持度阈值立方体单元。

立方体外壳:

只预测算涉及少数维方体,这些方体形成相应数据立方体。

4.数据立方体计算办法:

1).多路数组聚焦:

基本思想:

使用多维数组作为基本数据构造,使用数组直接寻址,其中维值通过位置或相应数组位置下标访问。

也许产生稀疏数组构造,可以采用chunkID+offset作为单元寻址机制来压缩数组。

长处:

比老式基于关系记录计算办法快

缺陷:

由于维数增长,计算方体数指数增长,因而该办法仅对具备较少维立方体有效;

     不能计算冰山立方体,由于该办法从基本方体开始计算,逐渐向上泛化,因而不能运用先验剪枝,导致即时单元不满足冰山条件指定最小支持度,也无法剪掉。

2). BUC:

基本思想:

以相反顺序观测方体格,顶点方体在底部,而基本方体在顶部,因而事实上市自底向上,BUC可以分担数据划分开销,在构造立方体是可以使用先验性质进行剪枝。

长处:

可以计算冰山立方体,可以分担数据划分开销

缺陷:

易受维顺序和倾斜数据影响。

抱负地,应当先解决最有区别能力为,维应当以基数递减序解决。

3).Star-Cubing:

基本思想:

运用自底向上和自顶向下模式计算模式。

在全局计算顺序上,使用自底向上,而它下面有一种基于自顶向下模式子层,运用共享维概念。

这种集成容许算法在各种维上汇集,而依然划分父母分组并剪裁不满足冰山条件子女分组。

如果共享维上汇集值不满足冰山条件,则沿共享维向下所有单元也不满足冰山条件,这样单元和它们所有后裔都可以剪枝。

长处:

计算完全立方体,速度比BUC快,可以与MultiWay相媲美;计算冰山立方体速度比BUC快。

4).外壳片段立方体:

冰山立方体计算和存储开销虽然比完全立方体小,但是依然很高,一种也许解决方案是计算一种很薄立方体外壳,但是这种立方体外壳不支持高维OLAP,它不支持在4维或更多维上OLAP,并且它甚至不支持沿3个维下钻,因而取代计算立方体外壳可以只计算它一某些或片段。

外壳片段立方体基本思想:

给定一种高维数据集,把维划提成互不相交维片段,把每个片段转换成倒排索引表达,构造立方体外壳片段,使用预测算立方体外壳片段,计算所需要数据立方体方体单元,这可以通过倒排索引上集合交操作完毕。

四.挖掘频繁模式、关联和有关性

1.基本概念

 1).一种典型例子:

购物篮分析

顾客也许会在一次购物同步购买哪些商品?

分析成果可以用于营销筹划和商店布局。

 2).规则兴趣度度量:

支持度和置信度

支持度:

两种商品同步被购买占事务总数比例,反映发现该规则有用性

置信度:

购买一种商品顾客中同步购买另一种商品顾客所占比例,反映规则拟定性。

项集:

项集合,如集合{computer,antivirus_software}是一种2项集

支持度计数:

项集事务数

频繁项集:

相对支持度满足最小支持度阈值项集

闭频繁项集:

项集X在数据集D中是闭,如果不存在真超项集Y使得Y与X在D中具备相似支持度计数,如果X在D中是闭和频繁,则X是数据集闭频繁项集。

极大频繁项集:

X是频繁,并且不存在超项集Y使得Y在D中是频繁。

关联规则挖掘包括两步:

(1).找出所有频繁项集

(2).由频繁项集产生强关联规则(同步满足最小支持度阈值和最小置信度阈值规则)

2.频繁项集挖掘办法

可以分为三类:

类Apriori算法,基于频繁模式增长算法(如FP-growth算法),使用垂直数据格式算法

1).Apriori算法(数据挖掘十大典型算法)

频繁项集先验性质:

频繁项集所有非空子集也一定是频繁。

基本思想:

使用逐级搜索迭代办法,其中k项集用于摸索(k+1)项集,使用先验性质压缩搜索空间。

如何使用L(k-1)找到L(k):

通过连接步和剪枝步完毕。

连接步通过将L(k-1)与自身连接产生候选k项集集合。

剪枝步从候选k项集拟定L(k)。

 

提高Apriori算法效率:

基于散列技术:

将事务产生k项集散列到散列表不同桶中,并增长相应桶计数,相应桶计数不大于支持度阈值不也许是频繁,可以从候选集中删除。

这一技术可以明显地压缩需要考察k项集

事务压缩:

不包括任何频繁k项集事务不也许包括任何频繁(k+1)项集,因而在其后考虑时,可以加上标记或删除。

 

划分:

分两个阶段,阶段一把D划提成n个分区,找出每个分区局部频繁项集,组合所有局部频繁项集形成候选项集;阶段二评估每个候选实际支持度,找出候选项集中全局频繁项集。

整个过程只需要两次数据库扫描。

 

抽样:

基本思想是选用数据库D随机样本S,然后再S中搜索频繁项集。

这种办法牺牲了某些精度换取了有效性,也许会丢失某些全局频繁项集

 

动态项集计数:

基本思想是奖数据库划分为用开始点标记块。

不像Apriori算法仅在每次完整数据库扫描前拟定新候选,这种变形中,可以再任何开始点添加新候选集。

该变形需要数据库扫描笔Apriori算法少。

Apriori算法优缺陷

长处:

明显压缩了候选项集规模,产生较好性能

缺陷:

仍需要产生大量候选项集,需要重复扫描整个数据库

2).频繁模式增长(FP-growth)

目的:

挖掘所有频繁项集而无需代价昂贵候选产生过程

基本思想:

采用分治方略,一方面将频繁项集数据库压缩到一棵频繁模式树(FP树),该树仍保存项集关联信息。

然后把压缩后数据库划提成一组条件数据库,每个数据库关联一种频繁项或模式段,并分别挖掘每个条件数据库。

随着被考察模式增长,这种办法明显地压缩被搜索数据集大小。

概括起来可分为构造FP树和挖掘FP树两个环节。

当数据库很大时,构造FP数也许太大而不能放进主存,可以递归地将数据库划提成投影数据库集合。

FP-growth办法对于挖掘长频繁模式和短频繁模式,都是有效和可伸缩,并且大概比Apriori算法快一种数量级。

3).使用垂直数据格式挖掘频繁项集

Apriori算法和FP-growth算法都是使用水平数据格式,即{TID:

itemset},其中TID为事务标记符,itemset是TID中购买商品。

垂直数据格式:

{item:

TID}

基本思想:

通过扫描一次数据库,把水平格式数据转换成垂直格式,依照先验性质,使用频繁k项集来构造候选k+1项集,通过去频繁k项集TID集交,计算相应k+1项集TID集,重复该过程,懂得不能找到频繁项集或候选项集。

长处:

运用先验性质,不需要扫描数据库来拟定k+1项集支持度。

缺陷:

TID集也许很长,需要大量内存,长集合交运算还需要大量计算时间。

3.模式评估

并非所有强关联规则都是有趣,例如项集计算机游戏和录像也许满足强关联规则,但是它们是负有关。

提高度:

一种有关性度量,成果值不不大于1是正有关,为1表达独立,不大于1表达负有关。

有关性度量尚有最大置信度和余弦。

 

五.挖掘频繁模式、关联和有关性

1.高档模式形式:

多层关联、多维关联、量化关联规则、稀有模式、负模式

2.基于约束挖掘:

模式剪枝约束、数据剪枝约束

模式搜索空间剪枝:

检查候选模式,使用先验性质,剪掉一种模式,如果它超模式都不也许产生。

数据搜索空间剪枝:

检查数据集,判断特定数据片段与否对其后可满足模式产生有贡献。

 

模式剪枝约束分为五类:

反单调:

如果一种项集不满足规则约束,则它任何超集不也许满足该约束

单调:

如果一种项集满足这个规则约束,则它所有超集也满足。

简洁:

可以枚举并且仅枚举可以保证该约束所有集合,该类约束不必迭代检查

可转变:

不属于以上三类,但该约束在项集一特定顺序排列时也许成为单调或反单调。

不可转变:

大某些都属于以上四类。

3.挖掘高维数据和巨型模式:

涉及运用垂直数据格式扩充模式增长办法和模式融合办法。

垂直数据格式模式增长:

将具备较少行但具备大量维数据集变换成具备大量航少量维数据集。

模式融合:

基本思想:

融合少量较短频繁模式,形成巨型模式候选。

一方面,她以有限宽度遍历树,只使用有限大小候选池中模式作为模式树向下搜索开始结点,避免了指数搜索空间问题。

它产生巨型模式近似解,可以找出大某些巨型模式。

环节:

1.池初始化:

一种短长度(长度不超过3)频繁模式完全集。

     2.迭代模式融合:

从当前池中随机选用k个种子,对每个种子找出直径为T球内所有模式,将这些球融合成超模式集。

由于每个超模式支集随迭代而收缩,因而迭代过程终结。

模式融合合并打魔石小子模式,而不是用单个项增量地扩展模式。

 

4.挖掘压缩或近似模式:

1.基于聚类压缩:

采用一种好相似性度量,把相似对象聚合到一种簇中,代表模式从每个簇中选用,从而提供频繁模式集一种压缩版本。

模式距离:

闭模式之间距离度量。

包括模式支持度信息。

感知冗余top-k模式:

具备低冗余k个代表模式小集合。

一种减少挖掘返回模式数量方略。

 

5.模式挖掘应用:

1).作为预解决,用于噪声过滤盒数据清理

2).发现隐藏在数据中固有构造和簇

3).基于模式分类

4).高维空间中子空间有效聚类

5).对时间空间、序列、图像、视频数据进行分析

6).序列与构造数据分析,如图、树、子序列和网络分析

7).作为基本索引构造

8).推荐系统

 

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高中教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1