ImageVerifierCode 换一换
格式:DOCX , 页数:16 ,大小:158.13KB ,
资源ID:10210590      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/10210590.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(整理数据挖掘知识点整理.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

整理数据挖掘知识点整理.docx

1、整理数据挖掘知识点整理第一章1、数据挖掘的概念及其特点数据挖掘概念 :在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘 ( 从数据中发现知识 ) 特点:从大量的数据中挖掘哪些令人感兴趣的、有用的、 隐含的、 先前未知的和可能有用的 模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)2、数据挖掘的核心( KDD )是什么? 知识挖掘( KDD) 数据挖掘与知识发现 从 KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 数据清理 : ( 这个可能要占全过程 60的工作量 )1、数据集成2、数据选择3、数据变换4、数据挖掘(选择适当的算法来找到感

2、兴趣的模式)5、模式评估6、知识表示3、数据挖掘的体制结构。4、数据挖掘的主要方法(能够区分)常用模式5、6、7、分类预测的说明:比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示 : 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 聚类分析的说明:例:对 WEB日志的数据进行聚类,以发现相同的用户访问模式 孤立点分析的说明(应用)信用卡欺诈检测 /移动电话欺诈检测 /客户划分 /医疗分析(异常)第二章1、数据仓库的概念(特点就在概念里) 数据仓库是一个 (1) 面向主题的、 (2) 集成的、 (3) 随时间而变化的、 (4) 不容易丢失的数据集 合,支持管理部

3、门的决策过程 .2、 OLAP(联机分析处理)和 OLTP(联机事务处理)的区别1、 用户和系统的面向性: 面向顾客(事务) VS. 面向市场(分析)2、 数据内容: 当前的、详细的数据 (事务) VS. 历史的、汇总的数据(分析)3、数据库设计: 实体联系模型 (ER)和面向应用的数据库设计(事务) VS. 星型 /雪花模型和面向主题的数据库设计(分析)4、 数据视图: 当前的、企业内部的数据 (事务) VS. 经过演化的、集成的数据(分析)5、 访问模式: 事务操作 (事务) VS. 只读查询(但很多是复杂的查询) (分析)6、任务单位:简短的事务 VS. 复杂的查询7、访问数据量:数十个

4、 VS. 数百万个8、用户数:数千个 VS. 数百个9、数据库规模: 100M-数 GB VS. 100GB- 数 TB10、设计优先性:高性能、高可用性 VS. 高灵活性、端点用户自治11、度量:事务吞吐量 VS. 查询吞吐量、响应时间3、多维数据模型 在多维数据模型中,数据以 数据立方体 (data cube) 的形式存在 数据立方体允许以多维数据建模和观察。它由维和事实定义 维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为 维表 。多维数据模型围绕中心主题组织,该主题用事实表表示 事实表 包括事实的名称或度量以及每个相关维表的关键字 事实 指的是一些数字度量一个 n

5、 维的数据的立方体叫做 基本方体 。给定一个维的集合,我们可以构造一个 方体的格 , 每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为 数据立方体 。0 维方体存 放最高层的汇总,称作 顶点方体 ;而存放最底层汇总的方体则称为 基本方体 。3、几种常见的概念模型星型模式( Star schema) : 事实表在中心,周围围绕地连接着维表(每维一个) ,事实表含 有大量数据,没有冗余。雪花模式( Snowflake schema ) : 是星型模式的变种,其中某些维表是规范化的,因而把 数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。事实星座( Fact constella

6、tions ): 多个事实表共享维表 , 这种模式可以看作星型模式集, 因此称为星系模式( galaxy schema ),或者事实星座( fact constellation )4、一种数据挖掘查询语言 DMQL 一种是立方体定义,一种是维定义 立方体定义 (事实表 ) define cube : 维定义 (维表 )define dimension as () 5、概念分层的概念 一个概念分层定义一个映射序列,将低层概念映射到更一般的高层概念 多维数据模型 (数据立方体) 使得从不同的角度对数据进行观察成为可能, 而概念分层则提 供了从不同层次对数据进行观察的能力; 结合这两者的特征, 我们

7、可以在多维数据模型上定 义各种 OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:6、多维数据模型上的 OLAP 操作 上卷 (roll-up): 汇总数据 通过一个维的概念分层向上攀升或者通过维规约 当用维归约进行上卷时,一个或多个维由给定的数据立方体删除 下钻 (drill-down) :上卷的逆操作由不太详细的数据到更详细的数据, 可以通过沿维的概念分层向下或引入新的维来实现 ( 为 给定数据添加更多细节 )7、数据仓库设计的三种方法 (自顶向下法、自底向上法或者两者的混合方法) 自顶向下法 :由总体设计和规划开始 在技术成熟、商业理解透彻的情况下使用 自底向上法 :以实验和原

8、型开始 常用在模型和技术开发的初期,可以有效的对使用的技术和模型进行评估,降低风险 混合方法 :上述两者的结合8、元数据的概念,可以分为哪几类? 元数据就是定义数据仓库对象的数据1、数据仓库结构的描述 仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容2、操作元数据包括数据血统 (data lineage) 、数据类别 (currency of data) ,以及监视信息3、汇总用的算法4、由操作环境到数据仓库的映射5、关于系统性能的数据索引, profiles ,数据刷新、更新或复制事件的调度和定时6、商务元数据 商务术语和定义、数据拥有者信息、收费政策等(技术元数据、业

9、务元数据)第三章1、什么是数据预处理?为什么进行?预处理的主要方法和内容。概念: 数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据, 并归约待分析的数据,将在决策过程中得到高回报。进行的原因: 现实世界的数据是“肮脏的”数据多了,什么问题都会出现 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“孤立点”不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成主要方法和内容:数据清理 : 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成

10、: 集成多个数据库、数据立方体或文件数据变换 : 规范化和聚集数据归约 : 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 数据离散化 : 数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据 特别重要所占工作量最多的过程:数据清理2、如何处理空缺值?最理想的是哪个方法?忽略元组: 当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述) ,当每个属性缺少 值的百分比变化很大时,它的效果非常差。人工填写空缺值: 工作量大,可行性低 使用一个全局变量填充空缺值: 比如使用 unknown 或- 使用属性的平均值填充空缺值: 使用与给定元组属同一类的所有样本的平均值 使用

11、最可能的值填充空缺值: 使用像 Bayesian 公式或判定树这样的基于推断的方法(最理 想)3、什么是噪声,引起噪声的原因。噪声: 一个测量变量中的随机错误或偏差 引起噪声数据的原因: 数据收集工具的问题、数据输入错误、数据传输错误、技术限制、命 名规则的不一致。4、数据平滑地分箱分箱 (binning): 首先排序数据,并将他们分到等深的箱中 然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等 方法:price 的排序后数据(单位:美元) :4,8,15,21,21,24, 25,28,34 划分为(等深的)箱:箱 1: 4,8,15箱 2: 21,21,24箱 3: 25,28,

12、34 用箱平均值平滑:箱 1: 9,9,9箱 2: 22,22,22箱 3: 29,29,29 用箱边界平滑: 箱 1: 4,4,15 箱 2: 21,21,24 箱 3: 25,25,345、数据变换(规范化、最小最大要求掌握,计算) ,并解释为什么要做这样的变换。规范化:将数据按比例缩放,使之落入一个小的特定区间(最小最大规范化、 z-score 规范化、小数定标规范化) 最小最大规范化v minAv (new_ maxA new_ minA) new _ minAmaxA minA数据规范化的一种方法是“最小最大规范化” ,即假设数据的取值区间为 old_min, old_max ,“最

13、小最大规范化”即把这个区间映射到新的取值区间 new_min, new_max 。 对于任意一个在原来区间中的变量,在新的区间中都有一个值和它对应,计算公式为:x old_minx (new_max - new_min ) new_minold_max old_min现假设 “客户基本情况” 表中的客户月收入属性的实际值范围为 2100 ,8300 ,要把这个属性值规范到 0 , 1 ,对月收入属性值 5600 请应用上述公式将其进行规范,并解释为什么要 进行这样的数据变换才是适于挖掘的形式。5600 2100x (1 0) 0 0.56458300 2100练习: 假设数据集 D是某公司每月

14、利润增长数据, 数据单位为元, 取值范围 -13000-32000 之间, 5%点为-9000,95% 点在 280000,根据 3-4-5 规则划分区间。规范化对于基于距离的分类算法 (如聚类) 和神经网络算法是非常重要的, 可以保证输入值 在一个相对小的范围内, 加快训练速度; 另外, 不会发生因为输入值的范围过大而使权重过 大的情况。参考:运算空间量小,处理小数总比大数方便,对于计算效率和速度都有好处6、345 规划(例子要求掌握)1、如果一个区间最高有效位上包含子区间; (7-2,3,2)2、如果一个区间最高有效位上包含 区间;3、如果一个区间最高有效位上包含自然划分的 3-4-5 规

15、则常被用来将数值数据划分为相对一致, “更自然”的区间 规则的 划分步骤 :3,6,7或 9个不同的值,就将该区间划分为 3个等宽2,4,或 8 个不同的值,就将该区间划分为 4 个等宽子1, 5,或 10 个不同的值,就将该区间划分为 5 个等宽子区间;4、将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;5、对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲, 可以在顶层分段时,选用一个大部分的概率空间。 e.g. 5%-95%例子如下图(参考书上 P9091):7、关于属性值的类型(名称、序数连续、区间)8、离散化中的三种类型的属性值: 名称型 e.g.

16、 无序集合中的值; 序数 e.g. 有序集合中的值; 连续值(区间) e.g. 实数第四章1、四种兴趣度量单位 常用的四种兴趣度的客观度量: 简单性: 模式是否容易被人所理解 模式结构的函数(模式的长度、属性的个数、操作符个数) 。e.g. 规则长度或者判定树的节点个数。确定性: 表示一个模式在多少概率下是有效的。置信度 (A=B)=( 包含 A和 B的元组值 )/( 包含 A的元组值 ) ,e.g. buys(X, “ computer)=buys(X, “ software ”) 30%, 80% 100%置信度:准确的。实用性: 可以用支持度来进行度量:支持度 (A=b) = ( 包含

17、A和 B 的元组数 )/( 元组总数 ) e.g. buys(X, “ computer)=buys(X, “ software ”) 30%, 80% 同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则 。新颖性: 提供新信息或提高给定模式集性能的模式 通过删除冗余模式来检测新颖性(一个模式已经为另外一个模式所蕴涵) Location(X, “ Canada” )=buys(X, “ Sony_TV” ) 8%, 70% Location(X, “ Vancouver ”)=buys(X, “ Sony_TV” ) 2%, 70%2、特征化单词、关联、分类。 数据挖掘语言,指

18、定挖掘知识类型 特征化 mine characteristics 数据区分 mine comparison as pattern_name 关联 mine associations 分类 mine classification as pattern_name第四章1、数据挖掘可以分为描述性挖掘和预测性挖掘,概念描述属于描述性挖掘。2、面向属性归纳的基本思想 面向属性归纳的基本思想:1)、使用关系数据库查询收集任务相关的数据2)、通过考察任务相关数据中每个属性的不同值的个数进行概化, 方法是属性删除或者是属性概化3)、通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作4)、通过与

19、用户交互,将广义关系以图表或规则等形式,提交给用户3、数据概化的两种常用方法,属性删除和属性概化 数据概化的两种常用方法:属性删除和属性概化1、属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使 用属性删除:在此属性上没有概化操作符(比如该属性没有定义相关的概念分层) 该属性的较高层概念用其他属性表示2、属性概化的使用规则:如果初始工作关系中的某个属性具有大量不同值,且该属性上存 在概化操作符,则使用该概化操作符对该属性进行数据概化操作第五章1、哪些属性可以删掉,如 phone#,name name:删除属性gender :保留该属性,不概化major :根据概念分层

20、向上攀升 文,理,工 birth_place :根据概念分层 location 向上攀升 birth_date :概化为 age ,再概化为 age_range residence :根据概念分层 location 向上攀升 phone#:删除属性gpa:根据 GPA的分级作为概念分层2、信息增益(计算)书上有个例子 P1313、特征化 target 充分、必要条件,量化规则。写出一个规则能够理解并说出它的意思。 量化特征化规则X, target_cla ss(X) condition( X) t : t_weight 必要条件量化区分规则X, target_class(X) conditio

21、n(X) d : d_weight 充分条件量化描述规则X, target_cla ss(X)condition 1(X) t :w1,d:w 1 . condition n(X) t :wn,d:w n 充要条件给出 X, Europe(X)(item(X) TV )t :25%,d:40% (item(X) computer )t : 75%, d : 30%表明对 99 年 AllElectronics 公司的 TV和计算机销售,如果一商品在欧洲售出,则其为 TV的概率为 25该公司 40的 TV 在欧洲售出4、对四分位的理解和四分位的极差。 最常用度量:五数概括(基于四分位数) 、中间

22、四分位数区间和标准差 四分位数、孤立点和盒图百分位数:第 k 个百分位数是具有如下性质的值 x:数据项的 k%在 x 上或低于 x四分位数: Q1 (25th percentile), Q3 (75th percentile) 中间四分位数区间 (IQR) : IQR = Q3 Q1 对倾斜分布的描述,除了 IQR 还常需两个四分位数 Q1和 Q3,以及中位数 M,一个识别孤立 点的常用规则是: 挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5 IQR 处的 值 四分位,四分位数极差是多少?Ppt 上的: 百分位数 (percentile) :第 k 个百分位数是具有如下性质的值 x

23、:数据项的 k% 在 x 上或低于 x四分位数: Q1 (25th percentile), Q3 (75th percentile) 中间四分位数区间 (IQR) : IQR = Q3 Q1 对倾斜分布的描述,除了 IQR 还常需两个四分位数 Q1 和 Q3,以及中位数 M ,一个识别孤 立点的常用规则是: 挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5 IQR 处的值XX的:四分位差( quartile deviation ),也称为内距或四分间距( inter-quartile range ),它是 上四分位数( QL )与下四分位数( QU)之差,通常用 Qd 表示。计算公

24、式为: Qd =QL-QU四分位差反映了中间 50%数据的离散程度,其数值越小,说明中间的数据越集中;其 数值越大, 说明中间的数据越分散。 四分位差不受极值的影响。此外, 由于中位数处于数据 的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。 四分位差主要用于测度顺序数据的离散程度。 对于数值型数据也可以计算四分位差, 但不适 合分类数据。四分位数是将一组数据由小到大(或由大到小)排序后,用 3 个点将全部数据分为 4等份,与这 3 个点位置上相对应的数值称为四分位数,分别记为 Q1(第一四分位数) 、 Q2(第二四分位数,即中位数) 、Q3(第三四分位数) 。

25、其中, Q3 到 Q1 之间的距离的差又称 为四分位差,记为 Q。四分位差越小,说明中间部分的数据越集中;四分位数越大,则意味 着中间部分的数据越分散。具体的: 1.极差、四分位数和四分位数极差 开始, 让我们先学习作为数据散布度量的极差、分位数、 四分位数、百分位数和四分位数极 差。设 x1,x2,,xN 是某数值属性 X 上的观测的集合。 该集合的极差 ( range)是最大值( max() ) 与最小值( min() )之差。假设属性 X 的数据以数值递增序排列。想象我们可以挑选某些数据点,以便把数据分布划 分成大小相等的连贯集,如图 2.2 所示。这些数据点称做分位数。分位数( qua

26、ntile )是取自 数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。 (我们说“基 本上”,因为可能不存在把数据划分成恰好大小相等的诸子集的 X 的数据值。为简单起见, 我们将称它们相等。 )给定数据分布的第 k 个 q-分位数是值 x,使得小于 x 的数据值最多为 k/q ,而大于 x的数据值最多为 (q-k)/q ,其中 k是整数,使得 0kq 。我们有 q-1个 q-分位数。2-分位数是一个数据点,它把数据分布划分成高低两半。 2-分位数对应于中位数。 4-分位数是 3 个数据点, 它们把数据分布划分成 4 个相等的部分, 使得每部分表示数据分布的四分之 一。通常称

27、它们为四分位数( quartile )。100-分位数通常称做百分位数( percentile ),它们把 数据分布划分成 100个大小相等的连贯集。 中位数、 四分位数和百分位数是使用最广泛的分 位数。四分位数给出分布的中心、 散布和形状的某种指示。 第 1 个四分位数记作 Q1,是第 25 个百 分位数,它砍掉数据的最低的 25%。第 3 个四分位数记作 Q3,是第 75 个百分位数,它砍 掉数据的最低的 75%(或最高的 25%)。第 2个四分位数是第 50 个百分位数,作为中位数, 它给出数据分布的中心。第 1 个和第 3 个四分位数之间的距离是散布的一种简单度量, 它给出被数据的中间

28、一半所覆 盖的范围。该距离称为四分位数极差 (IQR) ,定义为IQR=Q3-Q1 ( 2.5)例 2.10 四分位数极差。四分位数是 3 个值,把排序的数据集划分成 4 个相等的部分。例 2.6的数据包含 12 个观测,已经按递增序排序。 这样,该数据集的四分位数分别是该有序表 的第 3、第 6和第 9个值。因此, Q1=47000美元,而 Q3=63000 美元。于是,四分位数极 差为 IQR=63000-47000=16000 美元。(注意,第 6 个值是中位数 52000 美元,尽管这个数据 集因为数据值的个数为偶数有两个中位数。 )1.什么是关联规则挖掘?及常见应用?概念: 从事务数

29、据库, 关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、 频 繁出现的模式、关联和相关性。应用:“尿布与啤酒” 、购物篮分析、分类设计、捆绑销售等购物篮分析中支持度置信度2.关联规则的两个兴趣度度量 对所有满足最小支持度和置信度的关联规则3.Apriori 算法求频繁项集Apriori 算法步骤:第七章1分类 vs 预测概念 典型应用2训练数据集 和训练样本的概念。 训练数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组) 3什么是判定树(决策树)?如何应用它分类?4.priori 算法利用的是 Apriori 性质 : 频繁项集的所有非空子集也必须是

30、频繁的 。4.多层关联 一致支持度 一致支持度:对所有层都使用一致的最小支持度 优点: 搜索时容易采用优化策略, 即一个项如果不满足最小支持度, 它的所有子项都可以不 用搜索缺点:最小支持度值设置困难 太高:将丢掉出现在较低抽象层中有意义的关联规则 太低:会在较高层产生太多的无兴趣的规则多层关联 递减支持度 使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难递减支持度:在较低层使用递减的最小支持度 每一层都有自己的一个独立的最小支持度 抽象层越低,对应的最小支持度越小第八章1、什么是聚类分析?聚类分析: 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 聚类是一种无指导的学习:没有预定义的类编号 2、聚类分析的数据通常分为哪五个? 二元变量、标称变量、序数型变量、比例标度变量、混合类型的变量3.划分方法 -簇的表示(1)k-平均算法由簇的平均值来代表整个簇k- 平均算法 当邻近度函数采用 曼哈顿距离 的时候,合适的质心事簇中各个点的中位数 (2) k 中心点算法由处于簇的中心区域的某个值代表整个簇

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1