数据挖掘概念与核心技术.docx

资源描述

数据挖掘概念与核心技术.docx

《数据挖掘概念与核心技术.docx》由会员分享，可在线阅读，更多相关《数据挖掘概念与核心技术.docx（9页珍藏版）》请在冰豆网上搜索。

数据挖掘概念与核心技术.docx

数据挖掘概念与核心技术

数据挖掘概念与技术

一.什么是数据挖掘，数据挖掘知识体系及应用范畴

1.定义：

又称数据中知识发现，从大量数据中挖掘有趣模式和知识过程。

知识发现过程：

1）.数据清理：

除噪声和删除不一致数据

2）.数据集成：

各种数据源组合

3）.数据选取：

取和分析与任务有关数据

4）.数据变换：

数据变换和统一成适合挖掘形式

5）.数据挖掘：

使用智能办法提取数据格式

6）.模式评估：

辨认代表知识有趣模式

7）.知识表达：

使用可视化和知识表达技术，向顾客提供挖掘知识

2.为什么要进行数据挖掘

将来将是大数据时代，IDC（国际数据公司）研究报告指出全球信息资料量为2.8ZB（240次方GB）,而在预测会达到40ZB，平均每人拥有5247GB数据。

庞大数据量背后隐藏着巨大潜在价值，人们手握巨量数据却没有较好手段去充分挖掘其中价值，因而对数据挖掘研究可以协助咱们将数据转化成知识。

3.数据挖掘知识体系

数据挖掘作为一种应用驱动领域，吸纳了许多应用领域技术，涉及：

记录学、机器学习、模式辨认、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。

数据挖掘任务分类：

描述性任务：

刻画目的数据普通性质

预测性任务：

归纳及做出预测

数据挖掘功能：

1）.数据特性化与数据区别

2）.频繁模式

3）.关联和有关性挖掘

4）.分类和回归

5）.聚类分析

6）.离群点分析

4.数据挖掘应用领域

1.金融数据分析

2.零售与电信业：

例如分析零售数据有助于做出对的决策；产品推荐；顾客保有及促销方略

3.科学与工程数据挖掘

4.网络数据挖掘：

社交网络顾客行为分析，多媒体、文本和web数据分析

5.信息检索：

搜索引擎、云计算、数据仓库

二.结识数据

1.属性总结：

标称属性：

某些符号和事物名称，如头发颜色和学历是描述人属性。

二元属性：

只有0、1两种状态

序数属性：

也许值具备故意义序，如教师职称

数值属性：

定量，用实数值表达

2.度量数据相似性和相异性（即数据邻近性）

非对称二元属性：

Jaccard属性

数值属性：

欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离

相似性评估：

余弦相似性（用于比较文档）、Tanimoto系数

3.数据预解决

1）.数据清理：

弥补缺失值、光滑噪声、辨认离群点、纠正数据不一致性，普通是一种两步迭代过程，涉及偏差检测盒数据变换

解决缺失值：

有忽视元组、人工填写、全局常量填充、

均值或中位数填充、同类均值或中位数填充、最也许值填充六种办法。

噪声数据解决：

分箱（考察近邻数据值，有箱均值、箱中位数、箱边界光滑办法）

回归、离群点分析

2）.数据集成：

将来自各种数据源数据整合成一致数据存储

实体辨认问题：

模式集成和对象匹配。

如在一种系统中discount用于订单，而在另一种系统中用于商品，集成不对的导致商品不对的打折

冗余和有关分析：

冗余指一种属性能由另一种或另一组属性导出，则这个属性是冗余，可用有关分析检测到。

标称数据使用卡方检查，数值属性用有关系数和协方差

3）.数据规约：

简化数据集表达，涉及维规约和数值规约

维规约：

数据压缩技术（如小波变换和主成分分析），属性子集选取，属性构造

数值规约：

参数模型（如回归），非参数模型（聚类、抽样、直方图）

4）.数据变换：

将数据变换成适于挖掘形式

变换方略涉及：

光滑，属性构造，汇集，规范化，离散化，由标称数据产生概念分层。

三.数据仓库与数据立方体技术

1.数据仓库基本概念：

1）.数据仓库定义：

一种面向主题、集成、时变、非易失数据集合，支持管理者决策过程。

2）.数据库与数据仓库区别：

重要区别在于数据库是面向事务操作解决，而数据仓库是面向分析信息解决。

数据库顾客为数据库专业人员、解决寻常操作，而数据仓库为主管和分析人员，为决策提供支持。

3）.数据仓库体系架构：

底层数据，中间层OLAP服务器，顶层前端工具

4）.数据仓库模型：

公司仓库：

提供公司范畴内数据集成，公司范畴

数据集市：

包括公司范畴数据一种子集，对特定顾客群，咸鱼选定主题，部门范畴。

虚拟仓库：

操作数据库上视图集合

2.数据仓库建模

数据立方体：

容许以多维数据建模和观测，由维（属性）和事实（数值）定义

方体：

给定诸维每个也许自己产生一种方体，成果形成方体格，方体格称作数据立方体。

多维模型：

星形模式：

涉及一种大中心表（事实表）、一组小附属表（维表），维表环绕中心表

雪花模式：

是星形表变种，某些维表被规范化费解到附加表中，用于数据集市

事实星座：

各种事实表分享维表，用于复杂应用，惯用于公司数据仓库

3.典型OLAP操作：

上卷：

沿一种维概念分层向上攀升或通过维规约进行汇集，如由city上卷到country

下钻：

沿维概念分层向下或引入附加维来实现，如由季度数据到更详细月数据

切片：

在立方体一种维上进行选取，定义一种子立方体，如选取季度一数据

切块：

在立方体两个或各种维上进行选取，定义子立方体，如选取季度为一和商品类型为计算机数据

转轴：

转动数据视角，或将3D立方变换成2D平面序列

物化：

完全物化（完全立方体）：

计算定义数据立方体格中所有方体，需要过多存储空间，导致维劫难某些物化：

选取性计算子立方体

冰山立方体：

一种数据立方体，只存储其汇集值不不大于某个最小支持度阈值立方体单元。

立方体外壳：

只预测算涉及少数维方体，这些方体形成相应数据立方体。

4.数据立方体计算办法：

1）.多路数组聚焦：

基本思想：

使用多维数组作为基本数据构造，使用数组直接寻址，其中维值通过位置或相应数组位置下标访问。

也许产生稀疏数组构造，可以采用chunkID+offset作为单元寻址机制来压缩数组。

长处：

比老式基于关系记录计算办法快

缺陷：

由于维数增长，计算方体数指数增长，因而该办法仅对具备较少维立方体有效；

不能计算冰山立方体，由于该办法从基本方体开始计算，逐渐向上泛化，因而不能运用先验剪枝，导致即时单元不满足冰山条件指定最小支持度，也无法剪掉。

2）. BUC：

基本思想：

以相反顺序观测方体格，顶点方体在底部，而基本方体在顶部，因而事实上市自底向上，BUC可以分担数据划分开销，在构造立方体是可以使用先验性质进行剪枝。

长处：

可以计算冰山立方体，可以分担数据划分开销

缺陷：

易受维顺序和倾斜数据影响。

抱负地，应当先解决最有区别能力为，维应当以基数递减序解决。

3）.Star-Cubing：

基本思想：

运用自底向上和自顶向下模式计算模式。

在全局计算顺序上，使用自底向上，而它下面有一种基于自顶向下模式子层，运用共享维概念。

这种集成容许算法在各种维上汇集，而依然划分父母分组并剪裁不满足冰山条件子女分组。

如果共享维上汇集值不满足冰山条件，则沿共享维向下所有单元也不满足冰山条件，这样单元和它们所有后裔都可以剪枝。

长处：

计算完全立方体，速度比BUC快，可以与MultiWay相媲美；计算冰山立方体速度比BUC快。

4）.外壳片段立方体：

冰山立方体计算和存储开销虽然比完全立方体小，但是依然很高，一种也许解决方案是计算一种很薄立方体外壳，但是这种立方体外壳不支持高维OLAP，它不支持在4维或更多维上OLAP，并且它甚至不支持沿3个维下钻，因而取代计算立方体外壳可以只计算它一某些或片段。

外壳片段立方体基本思想：

给定一种高维数据集，把维划提成互不相交维片段，把每个片段转换成倒排索引表达，构造立方体外壳片段，使用预测算立方体外壳片段，计算所需要数据立方体方体单元，这可以通过倒排索引上集合交操作完毕。

四.挖掘频繁模式、关联和有关性

1.基本概念

1）.一种典型例子：

购物篮分析

顾客也许会在一次购物同步购买哪些商品？

分析成果可以用于营销筹划和商店布局。

2）.规则兴趣度度量：

支持度和置信度

支持度：

两种商品同步被购买占事务总数比例，反映发现该规则有用性

置信度：

购买一种商品顾客中同步购买另一种商品顾客所占比例，反映规则拟定性。

项集：

项集合，如集合{computer，antivirus_software}是一种2项集

支持度计数：

项集事务数

频繁项集：

相对支持度满足最小支持度阈值项集

闭频繁项集：

项集X在数据集D中是闭，如果不存在真超项集Y使得Y与X在D中具备相似支持度计数，如果X在D中是闭和频繁，则X是数据集闭频繁项集。

极大频繁项集：

X是频繁，并且不存在超项集Y使得Y在D中是频繁。

关联规则挖掘包括两步：

（1）.找出所有频繁项集

（2）.由频繁项集产生强关联规则（同步满足最小支持度阈值和最小置信度阈值规则）

2.频繁项集挖掘办法

可以分为三类：

类Apriori算法，基于频繁模式增长算法（如FP-growth算法），使用垂直数据格式算法

1）.Apriori算法（数据挖掘十大典型算法）

频繁项集先验性质：

频繁项集所有非空子集也一定是频繁。

基本思想：

使用逐级搜索迭代办法，其中k项集用于摸索（k+1）项集，使用先验性质压缩搜索空间。

如何使用L（k-1）找到L（k）：

通过连接步和剪枝步完毕。

连接步通过将L（k-1）与自身连接产生候选k项集集合。

剪枝步从候选k项集拟定L（k）。

提高Apriori算法效率：

基于散列技术：

将事务产生k项集散列到散列表不同桶中，并增长相应桶计数，相应桶计数不大于支持度阈值不也许是频繁，可以从候选集中删除。

这一技术可以明显地压缩需要考察k项集

事务压缩：

不包括任何频繁k项集事务不也许包括任何频繁（k+1）项集，因而在其后考虑时，可以加上标记或删除。

划分：

分两个阶段，阶段一把D划提成n个分区，找出每个分区局部频繁项集，组合所有局部频繁项集形成候选项集；阶段二评估每个候选实际支持度，找出候选项集中全局频繁项集。

整个过程只需要两次数据库扫描。

抽样：

基本思想是选用数据库D随机样本S，然后再S中搜索频繁项集。

这种办法牺牲了某些精度换取了有效性，也许会丢失某些全局频繁项集

动态项集计数：

基本思想是奖数据库划分为用开始点标记块。

不像Apriori算法仅在每次完整数据库扫描前拟定新候选，这种变形中，可以再任何开始点添加新候选集。

该变形需要数据库扫描笔Apriori算法少。

Apriori算法优缺陷

长处：

明显压缩了候选项集规模，产生较好性能

缺陷：

仍需要产生大量候选项集，需要重复扫描整个数据库

2）.频繁模式增长（FP-growth）

目的：

挖掘所有频繁项集而无需代价昂贵候选产生过程

基本思想：

采用分治方略，一方面将频繁项集数据库压缩到一棵频繁模式树（FP树），该树仍保存项集关联信息。

然后把压缩后数据库划提成一组条件数据库，每个数据库关联一种频繁项或模式段，并分别挖掘每个条件数据库。

随着被考察模式增长，这种办法明显地压缩被搜索数据集大小。

概括起来可分为构造FP树和挖掘FP树两个环节。

当数据库很大时，构造FP数也许太大而不能放进主存，可以递归地将数据库划提成投影数据库集合。

FP-growth办法对于挖掘长频繁模式和短频繁模式，都是有效和可伸缩，并且大概比Apriori算法快一种数量级。

3）.使用垂直数据格式挖掘频繁项集

Apriori算法和FP-growth算法都是使用水平数据格式，即{TID：

itemset}，其中TID为事务标记符，itemset是TID中购买商品。

垂直数据格式：

{item：

TID}

基本思想：

通过扫描一次数据库，把水平格式数据转换成垂直格式，依照先验性质，使用频繁k项集来构造候选k+1项集，通过去频繁k项集TID集交，计算相应k+1项集TID集，重复该过程，懂得不能找到频繁项集或候选项集。

长处：

运用先验性质，不需要扫描数据库来拟定k+1项集支持度。

缺陷：

TID集也许很长，需要大量内存，长集合交运算还需要大量计算时间。

3.模式评估

并非所有强关联规则都是有趣，例如项集计算机游戏和录像也许满足强关联规则，但是它们是负有关。

提高度：

一种有关性度量，成果值不不大于1是正有关，为1表达独立，不大于1表达负有关。

有关性度量尚有最大置信度和余弦。

五.挖掘频繁模式、关联和有关性

1.高档模式形式：

多层关联、多维关联、量化关联规则、稀有模式、负模式

2.基于约束挖掘：

模式剪枝约束、数据剪枝约束

模式搜索空间剪枝：

检查候选模式，使用先验性质，剪掉一种模式，如果它超模式都不也许产生。

数据搜索空间剪枝：

检查数据集，判断特定数据片段与否对其后可满足模式产生有贡献。

模式剪枝约束分为五类：

反单调：

如果一种项集不满足规则约束，则它任何超集不也许满足该约束

单调：

如果一种项集满足这个规则约束，则它所有超集也满足。

简洁：

可以枚举并且仅枚举可以保证该约束所有集合，该类约束不必迭代检查

可转变：

不属于以上三类，但该约束在项集一特定顺序排列时也许成为单调或反单调。

不可转变：

大某些都属于以上四类。

3.挖掘高维数据和巨型模式：

涉及运用垂直数据格式扩充模式增长办法和模式融合办法。

垂直数据格式模式增长：

将具备较少行但具备大量维数据集变换成具备大量航少量维数据集。

模式融合：

基本思想：

融合少量较短频繁模式，形成巨型模式候选。

一方面，她以有限宽度遍历树，只使用有限大小候选池中模式作为模式树向下搜索开始结点，避免了指数搜索空间问题。

它产生巨型模式近似解，可以找出大某些巨型模式。

环节：

1.池初始化：

一种短长度（长度不超过3）频繁模式完全集。

2.迭代模式融合：

从当前池中随机选用k个种子，对每个种子找出直径为T球内所有模式，将这些球融合成超模式集。

由于每个超模式支集随迭代而收缩，因而迭代过程终结。

模式融合合并打魔石小子模式，而不是用单个项增量地扩展模式。

4.挖掘压缩或近似模式：

1.基于聚类压缩：

采用一种好相似性度量，把相似对象聚合到一种簇中，代表模式从每个簇中选用，从而提供频繁模式集一种压缩版本。

模式距离：

闭模式之间距离度量。

包括模式支持度信息。

感知冗余top-k模式：

具备低冗余k个代表模式小集合。

一种减少挖掘返回模式数量方略。

5.模式挖掘应用：

1）.作为预解决，用于噪声过滤盒数据清理

2）.发现隐藏在数据中固有构造和簇

3）.基于模式分类

4）.高维空间中子空间有效聚类

5）.对时间空间、序列、图像、视频数据进行分析

6）.序列与构造数据分析，如图、树、子序列和网络分析

7）.作为基本索引构造

8）.推荐系统

展开阅读全文