数据挖掘概念与核心技术.docx-资源下载

数据挖掘概念与核心技术.docx

1、数据挖掘概念与核心技术数据挖掘概念与技术一. 什么是数据挖掘，数据挖掘知识体系及应用范畴1. 定义：又称数据中知识发现，从大量数据中挖掘有趣模式和知识过程。知识发现过程： 1). 数据清理：除噪声和删除不一致数据 2). 数据集成：各种数据源组合 3). 数据选取：取和分析与任务有关数据 4). 数据变换：数据变换和统一成适合挖掘形式 5). 数据挖掘：使用智能办法提取数据格式 6). 模式评估：辨认代表知识有趣模式 7). 知识表达：使用可视化和知识表达技术，向顾客提供挖掘知识2. 为什么要进行数据挖掘将来将是大数据时代，IDC（国际数据公司）研究报告指出全球信息资料量为2

2、.8ZB（240次方GB）,而在预测会达到40ZB，平均每人拥有5247GB数据。庞大数据量背后隐藏着巨大潜在价值，人们手握巨量数据却没有较好手段去充分挖掘其中价值，因而对数据挖掘研究可以协助咱们将数据转化成知识。3. 数据挖掘知识体系数据挖掘作为一种应用驱动领域，吸纳了许多应用领域技术，涉及：记录学、机器学习、模式辨认、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。数据挖掘任务分类：描述性任务：刻画目的数据普通性质预测性任务：归纳及做出预测数据挖掘功能：1). 数据特性化与数据区别2). 频繁模式3). 关联和有关性挖掘4). 分类和回归5). 聚类分析6). 离群点分析4.

3、数据挖掘应用领域1. 金融数据分析2. 零售与电信业：例如分析零售数据有助于做出对的决策；产品推荐；顾客保有及促销方略3. 科学与工程数据挖掘4. 网络数据挖掘：社交网络顾客行为分析，多媒体、文本和web数据分析5. 信息检索：搜索引擎、云计算、数据仓库二. 结识数据1. 属性总结：标称属性：某些符号和事物名称，如头发颜色和学历是描述人属性。二元属性：只有0、1两种状态序数属性：也许值具备故意义序，如教师职称数值属性：定量，用实数值表达2. 度量数据相似性和相异性（即数据邻近性）非对称二元属性： Jaccard属性数值属性：欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离相似性

4、评估：余弦相似性（用于比较文档）、Tanimoto系数3. 数据预解决1). 数据清理：弥补缺失值、光滑噪声、辨认离群点、纠正数据不一致性，普通是一种两步迭代过程，涉及偏差检测盒数据变换解决缺失值：有忽视元组、人工填写、全局常量填充、均值或中位数填充、同类均值或中位数填充、最也许值填充六种办法。噪声数据解决：分箱（考察近邻数据值，有箱均值、箱中位数、箱边界光滑办法）回归、离群点分析2). 数据集成：将来自各种数据源数据整合成一致数据存储实体辨认问题：模式集成和对象匹配。如在一种系统中discount用于订单，而在另一种系统中用于商品，集成不对的导致商品不对的打折冗余和有关分析：冗余指

5、一种属性能由另一种或另一组属性导出，则这个属性是冗余，可用有关分析检测到。标称数据使用卡方检查，数值属性用有关系数和协方差3). 数据规约：简化数据集表达，涉及维规约和数值规约维规约：数据压缩技术（如小波变换和主成分分析），属性子集选取，属性构造数值规约：参数模型（如回归），非参数模型（聚类、抽样、直方图）4). 数据变换：将数据变换成适于挖掘形式变换方略涉及：光滑，属性构造，汇集，规范化，离散化，由标称数据产生概念分层。三. 数据仓库与数据立方体技术1. 数据仓库基本概念： 1). 数据仓库定义：一种面向主题、集成、时变、非易失数据集合，支持管理者决策过程。 2). 数据库与数据仓库区

6、别：重要区别在于数据库是面向事务操作解决，而数据仓库是面向分析信息解决。数据库顾客为数据库专业人员、解决寻常操作，而数据仓库为主管和分析人员，为决策提供支持。 3). 数据仓库体系架构：底层数据，中间层OLAP服务器，顶层前端工具 4). 数据仓库模型：公司仓库：提供公司范畴内数据集成，公司范畴数据集市：包括公司范畴数据一种子集，对特定顾客群，咸鱼选定主题，部门范畴。虚拟仓库：操作数据库上视图集合2. 数据仓库建模数据立方体：容许以多维数据建模和观测，由维（属性）和事实（数值）定义方体：给定诸维每个也许自己产生一种方体，成果形成方体格，方体格称作数据立方体。多维模型：星形模式

7、：涉及一种大中心表（事实表）、一组小附属表（维表），维表环绕中心表雪花模式：是星形表变种，某些维表被规范化费解到附加表中，用于数据集市事实星座：各种事实表分享维表，用于复杂应用，惯用于公司数据仓库3. 典型OLAP操作：上卷：沿一种维概念分层向上攀升或通过维规约进行汇集，如由city上卷到country下钻：沿维概念分层向下或引入附加维来实现，如由季度数据到更详细月数据切片：在立方体一种维上进行选取，定义一种子立方体，如选取季度一数据切块：在立方体两个或各种维上进行选取，定义子立方体，如选取季度为一和商品类型为计算机数据转轴：转动数据视角，或将3D立方变换成2D平面序列物化：完全物化（完

8、全立方体）：计算定义数据立方体格中所有方体，需要过多存储空间，导致维劫难某些物化：选取性计算子立方体冰山立方体：一种数据立方体，只存储其汇集值不不大于某个最小支持度阈值立方体单元。立方体外壳：只预测算涉及少数维方体，这些方体形成相应数据立方体。4. 数据立方体计算办法：1). 多路数组聚焦：基本思想：使用多维数组作为基本数据构造，使用数组直接寻址，其中维值通过位置或相应数组位置下标访问。也许产生稀疏数组构造，可以采用chunkID+ offset 作为单元寻址机制来压缩数组。长处：比老式基于关系记录计算办法快缺陷：由于维数增长，计算方体数指数增长，因而该办法仅对具备较少维立方体有效；不能

9、计算冰山立方体，由于该办法从基本方体开始计算，逐渐向上泛化，因而不能运用先验剪枝，导致即时单元不满足冰山条件指定最小支持度，也无法剪掉。2). BUC：基本思想：以相反顺序观测方体格，顶点方体在底部，而基本方体在顶部，因而事实上市自底向上，BUC可以分担数据划分开销，在构造立方体是可以使用先验性质进行剪枝。长处：可以计算冰山立方体，可以分担数据划分开销缺陷：易受维顺序和倾斜数据影响。抱负地，应当先解决最有区别能力为，维应当以基数递减序解决。3).Star-Cubing：基本思想：运用自底向上和自顶向下模式计算模式。在全局计算顺序上，使用自底向上，而它下面有一种基于自顶向下模式子层，运用共享维概

10、念。这种集成容许算法在各种维上汇集，而依然划分父母分组并剪裁不满足冰山条件子女分组。如果共享维上汇集值不满足冰山条件，则沿共享维向下所有单元也不满足冰山条件，这样单元和它们所有后裔都可以剪枝。长处：计算完全立方体，速度比BUC快，可以与MultiWay相媲美；计算冰山立方体速度比BUC快。4). 外壳片段立方体：冰山立方体计算和存储开销虽然比完全立方体小，但是依然很高，一种也许解决方案是计算一种很薄立方体外壳，但是这种立方体外壳不支持高维OLAP，它不支持在4维或更多维上OLAP，并且它甚至不支持沿3个维下钻，因而取代计算立方体外壳可以只计算它一某些或片段。外壳片段立方体基本思想：给定一种高

11、维数据集，把维划提成互不相交维片段，把每个片段转换成倒排索引表达，构造立方体外壳片段，使用预测算立方体外壳片段，计算所需要数据立方体方体单元，这可以通过倒排索引上集合交操作完毕。四. 挖掘频繁模式、关联和有关性1. 基本概念1). 一种典型例子：购物篮分析顾客也许会在一次购物同步购买哪些商品？分析成果可以用于营销筹划和商店布局。2). 规则兴趣度度量：支持度和置信度支持度：两种商品同步被购买占事务总数比例，反映发现该规则有用性置信度：购买一种商品顾客中同步购买另一种商品顾客所占比例，反映规则拟定性。项集：项集合，如集合computer，antivirus_software是一种2项集支持度计数

12、：项集事务数频繁项集：相对支持度满足最小支持度阈值项集闭频繁项集：项集X在数据集D中是闭，如果不存在真超项集Y使得Y与X在D中具备相似支持度计数，如果X在D中是闭和频繁，则X是数据集闭频繁项集。极大频繁项集：X是频繁，并且不存在超项集Y使得Y在D中是频繁。关联规则挖掘包括两步：（1）. 找出所有频繁项集（2）. 由频繁项集产生强关联规则（同步满足最小支持度阈值和最小置信度阈值规则）2. 频繁项集挖掘办法可以分为三类：类Apriori算法，基于频繁模式增长算法（如FP-growth算法），使用垂直数据格式算法1). Apriori算法（数据挖掘十大典型算法）频繁项集先验性质：频繁项集所有非空子

13、集也一定是频繁。基本思想：使用逐级搜索迭代办法，其中k项集用于摸索（k+1）项集，使用先验性质压缩搜索空间。如何使用L(k-1)找到L(k)：通过连接步和剪枝步完毕。连接步通过将L(k-1)与自身连接产生候选k项集集合。剪枝步从候选k项集拟定L(k)。提高Apriori算法效率：基于散列技术：将事务产生k项集散列到散列表不同桶中，并增长相应桶计数，相应桶计数不大于支持度阈值不也许是频繁，可以从候选集中删除。这一技术可以明显地压缩需要考察k项集事务压缩：不包括任何频繁k项集事务不也许包括任何频繁(k+1)项集，因而在其后考虑时，可以加上标记或删除。划分：分两个阶段，阶段一把D划提成n个分区，找出

14、每个分区局部频繁项集，组合所有局部频繁项集形成候选项集；阶段二评估每个候选实际支持度，找出候选项集中全局频繁项集。整个过程只需要两次数据库扫描。抽样：基本思想是选用数据库D随机样本S，然后再S中搜索频繁项集。这种办法牺牲了某些精度换取了有效性，也许会丢失某些全局频繁项集动态项集计数：基本思想是奖数据库划分为用开始点标记块。不像Apriori算法仅在每次完整数据库扫描前拟定新候选，这种变形中，可以再任何开始点添加新候选集。该变形需要数据库扫描笔Apriori算法少。Apriori算法优缺陷长处：明显压缩了候选项集规模，产生较好性能缺陷：仍需要产生大量候选项集，需要重复扫描整个数据库2). 频

15、繁模式增长（FP-growth）目的：挖掘所有频繁项集而无需代价昂贵候选产生过程基本思想：采用分治方略，一方面将频繁项集数据库压缩到一棵频繁模式树（FP树），该树仍保存项集关联信息。然后把压缩后数据库划提成一组条件数据库，每个数据库关联一种频繁项或模式段，并分别挖掘每个条件数据库。随着被考察模式增长，这种办法明显地压缩被搜索数据集大小。概括起来可分为构造FP树和挖掘FP树两个环节。当数据库很大时，构造FP数也许太大而不能放进主存，可以递归地将数据库划提成投影数据库集合。FP-growth办法对于挖掘长频繁模式和短频繁模式，都是有效和可伸缩，并且大概比Apriori算法快一种数量级。3). 使用

16、垂直数据格式挖掘频繁项集Apriori算法和FP-growth算法都是使用水平数据格式，即TID：itemset，其中TID为事务标记符，itemset是TID中购买商品。垂直数据格式： item：TID基本思想：通过扫描一次数据库，把水平格式数据转换成垂直格式，依照先验性质，使用频繁k项集来构造候选k+1项集，通过去频繁k项集TID集交，计算相应k+1项集TID集，重复该过程，懂得不能找到频繁项集或候选项集。长处：运用先验性质，不需要扫描数据库来拟定k+1项集支持度。缺陷：TID集也许很长，需要大量内存，长集合交运算还需要大量计算时间。3. 模式评估并非所有强关联规则都是有趣，例如项集计

17、算机游戏和录像也许满足强关联规则，但是它们是负有关。提高度：一种有关性度量，成果值不不大于1是正有关，为1表达独立，不大于1表达负有关。有关性度量尚有最大置信度和余弦。五. 挖掘频繁模式、关联和有关性1. 高档模式形式：多层关联、多维关联、量化关联规则、稀有模式、负模式2. 基于约束挖掘：模式剪枝约束、数据剪枝约束模式搜索空间剪枝：检查候选模式，使用先验性质，剪掉一种模式，如果它超模式都不也许产生。数据搜索空间剪枝：检查数据集，判断特定数据片段与否对其后可满足模式产生有贡献。模式剪枝约束分为五类：反单调：如果一种项集不满足规则约束，则它任何超集不也许满足该约束单调：如果一种项集满足这个规则

18、约束，则它所有超集也满足。简洁：可以枚举并且仅枚举可以保证该约束所有集合，该类约束不必迭代检查可转变：不属于以上三类，但该约束在项集一特定顺序排列时也许成为单调或反单调。不可转变：大某些都属于以上四类。3. 挖掘高维数据和巨型模式：涉及运用垂直数据格式扩充模式增长办法和模式融合办法。垂直数据格式模式增长：将具备较少行但具备大量维数据集变换成具备大量航少量维数据集。模式融合：基本思想：融合少量较短频繁模式，形成巨型模式候选。一方面，她以有限宽度遍历树，只使用有限大小候选池中模式作为模式树向下搜索开始结点，避免了指数搜索空间问题。它产生巨型模式近似解，可以找出大某些巨型模式。环节：1. 池初始化：

19、一种短长度（长度不超过3）频繁模式完全集。 2. 迭代模式融合：从当前池中随机选用k个种子，对每个种子找出直径为T球内所有模式，将这些球融合成超模式集。由于每个超模式支集随迭代而收缩，因而迭代过程终结。模式融合合并打魔石小子模式，而不是用单个项增量地扩展模式。4. 挖掘压缩或近似模式：1. 基于聚类压缩：采用一种好相似性度量，把相似对象聚合到一种簇中，代表模式从每个簇中选用，从而提供频繁模式集一种压缩版本。模式距离：闭模式之间距离度量。包括模式支持度信息。感知冗余top-k模式：具备低冗余k个代表模式小集合。一种减少挖掘返回模式数量方略。5. 模式挖掘应用：1). 作为预解决，用于噪声过滤盒数据清理2). 发现隐藏在数据中固有构造和簇3). 基于模式分类4). 高维空间中子空间有效聚类 5). 对时间空间、序列、图像、视频数据进行分析6). 序列与构造数据分析，如图、树、子序列和网络分析7). 作为基本索引构造8). 推荐系统

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？