ImageVerifierCode 换一换
格式:DOCX , 页数:13 ,大小:90.82KB ,
资源ID:19097639      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19097639.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘考试提纲Word文档下载推荐.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据挖掘考试提纲Word文档下载推荐.docx

1、2挖掘频繁模式,关联和相关;3分类和预测;4聚类分析;9、数据挖掘5个相关学科、技术。P19图数据挖掘是交叉学科,受多个学科影响。包括数据库系统,统计学,机器学习, 可视化和信息科学还有其他科学。1、数据挖掘的第一阶段是数据预处理。数据清理是用于去掉数据中的噪声数据,纠正不一致2、数据预处理的分类、每个分类的作用、有什么技术。 P311数据清理(可以去掉数据中的噪声,纠正不一致):试图填充缺失的值,光 滑噪声并识别离群点,并纠正数据的不一致。主要技术:1缺失值;1忽略元 组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失 值5使用与给定元组属同一类的所有样本的属性均值 6使用最

2、可能得值填充 缺失值(使用推理进行预测);2光滑技术:1分箱,2回归,3聚类2数据集成(将多个数据源合并成一致的数据存储,构成一个完整的数据集, 如数据仓库或数据立方体);3数据变换(将一种格式的数据转换为另一格式的数据 (如规范化)或统一成 合适于挖掘的形式。;光滑(去掉数据中的噪声,如分箱技术,回归,聚类);2聚集(对数据进行汇总或聚集);数据泛化(分层,用高层概念代替低层);3规范化(1最大最小规范化v v min A (new_maxA new_min A) new_minA ; maxA min An ew_mi n A,n ew_maxA是映射后的区域,min a, max a是变

3、换前 数据的最大最小值。v是转换后的数据。2 z-score规范化v-A a , a分别是原始A数据的平均值,和标准差);3小数定标规范化、v二)10属性构造;4数据归约(可以通过聚集、删除冗余特性或聚类等方法来压缩数据) :数据归约是保持原来数据的完整性,将数据集变小,并不影响对结果的分析。 归约的策略:1数据立方体聚集2属性子集的选择3维度归约4数值归约5 离散化和概念分层产生。3、数据清理所需要的方法(6)。P39数据清理可以分为有监督和无监督两类。1忽略元组2人工填写缺失值3使用全局常量填充缺失 值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属 性均值6使用最可能得值

4、填充缺失值(使用推理进行预测);1 分箱,2回归,3聚类4、什么是噪声数据。如何处理(3)。P40噪声是被测量的变量的随机误差或方差。处理:(1)分箱。(2)聚类。(3)计算机和人工检查结合.(4)回归5、数据集成的概念。用来干什么。方法有哪些。 P43数据集成是将多个数据源合并成一致的数据存储,构成一个完整的数据集如数据仓库或数据立方体它需要统一原始数据中的所有矛盾之处,如字段的 :同名异义、异名同义、单位不统一字长不一致,从而把原始数据在最低层上加以转换,提炼和集成。1模式集成,2冗余问题,3数据值冲突的检测与处理6有哪些冗余(2),解决方法。P43-44属性冗余:常用的解决方法是 相关分

5、析检测;卡方检验(分类或离散数据); 元组冗余7、数据变换内容和含义(5)。P45数据变换将数据转换成适合于挖掘的形式。主要是找到数据的特征表示, 对数据进行规格化处理。用维变换或转换方式减少有效变量的数目或找到数 据的不变式8、规范化有哪些方法。至少掌握 2种计算方法。P45-46最大最小规范化 v min a v (n ew_ max A n ew_mi n A) n ew_mi nA ;maxA min A _ n ew_ min a , n ew_max a 是映射后的区域,min a, max a是变换前 数据的最大 最小值。v是转换后的数据。z-score规范化v -A a , a

6、分别是原始数据的平均值,和标准差);小数定标规范化、v10j9、数据规约策略(47)。P47归约的策略:1数据立方体聚集2属性子集的选择3维度归约4数值归约5离散化和概念分层产生10、 属性子集选择的基本启发式方法包括什么技术(4)。P48-491 逐步向前选择 2 逐步向后删除 3 向前选择和向后删除的结合 4 决策树归纳 第三章1、数据仓库的概念、目的、特点。 P67 数据仓库是一个面向主题的(围绕主题组织数据) ,集成的(由多个异构数据源 集成),时变的和非易失的数据集合,支持管理部门的决策过程。2、数据仓库的逻辑模式。 P72 星形,雪花和事实星座模式3、 星型模式的事实表包括(2)。

7、P73 事实表:包含度量值和关联维度表的码。星形事实模型: 包括维表和事实表。 维表记录的是基本信息, 事实表记录业务过 程。所以星形事实模型中, 一般在维表上建立主键, 在事实表上建立外键。 事实表包 括了外键和业务过程的数据。事实表包含联系事实与维度表的数字度量值和键。 事实数据表包含描述业务 内特定事件的数据 。4、 数据仓库的物理结构( 3:MRH-SQL Server 是 H*)。 P865、 OLAP 操作( 5)。 P791上卷:就是将高维的数据压缩到低维,是个数据的累加过程。 Eg:从街道 上卷到城市。 就是把同一城市的所有街道的数据累加起来。 (维度高低是属性 的个数,维度高

8、属性个数多) 。通过一个维德概念分层向上攀升, 或者通过维 归纳,对数据立方体进行聚集。2下钻:是把数据的维度进一步分解,跟上卷相反。从城市分解到街道。上卷操作的逆操作。从高层概括到底层概括,从不详细到更加详细。3切片和切块:就是固定某一维数据,再观察其它维度的数据。固定时间维,观察不同地点的销售数量。4投影和选择。 转轴:可视化操作,从不同角度观察数据。6数据仓库的实现(3)。P88高效的立方体计算技术,存取方法和查询处理技术;7、 数据立方体的有效计算( 2)。 P88CD compute cube操作与维灾难Compute cube操作对操作指定维的所有子集计算聚集。(立方体计算的方体或

9、 分组总数为2的N次方。如3维(3个属性)数据的立方体,分组总数:2A3=8)C2 部分物化:方体的选择计算。 (数据立方体的物化:不物化、完全物化、部分物化。)8、 维灾难概念。 P89 完全物化指定义数据立方体的格中所有的方体的计算。通常需要过多的存储 空间,特别是当维数和相关联的概念分层增长时,该问题称为维灾难。9、 N 维有多少个顶点。2的N次方。2n10、 数据仓库的查询(取)方法( 3)。 P901 位图索引 2 连接索引 3 位图连接索引。11、 OLAP 查询的有效处理步骤( 2)。 P921确定哪些操作应当在可利用的方体上执行2确定相关操作应当使用哪些物化的方法。第四章1、冰

10、山立方体的概念。 (多路数据聚集不能计算冰山立方体) 。 冰山立方体:不能满足阈值的单元,这种部分物化的单元称作冰山立方体。2、BUC 计算冰山立方体。 P1091 从顶点方体向下计算冰山立方体。 2Apriori 剪枝。 3 无共享聚集计算 优点:分治策略,减少不必要计算开销。计算流程:1 扫描整个输入,计算整个度量。 2 针对方体的每一维进行划分。 3 针对每一个 划分,对它进行聚集, 为该划分创建一个元组并得到该元组的计算。 判断其分组 计算是否满足最小支持度。 4 如果满足,输出该划分的聚集元组,并在该划分上 对下一维进行递归调用,否则进行剪枝操作。3、OLAP 预计算壳片段,缺点、计

11、算。 P116-1184、点查询、子立方体查询概念、计算。 P119-1205、面向属性的归纳是用来干什么。过程有哪些。 P128 面向属性的归纳用于复杂的数据类型并依赖数据驱动的泛化过程。1 使用数据库查询收集任务相关的数据; 2 收集工作关系的统计量。 3 导出主关 系P6、类比较的过程。 P1361数据收集。 2维相关分析。 3同步泛化。 4导出比较的表示。7、类描述:特征化和比较的表示?(这里不知道考什么)第五章1、支持度、置信度、提升度概念? P147定义N为总事务数,N(A)、N(B)分别为项集A、项集B出现的次数,N(AB)为 项集A、项集B同时出现的次数,A、B为不相交项集AH

12、 B=?,规则A-B表 示由A推到B: 支持度:对整体小 一 、N(AB)Support(A B)置信度:对条件提升度:联合概率NxN(AB)S ) x B) A (4)x N(B)2、 频繁项集概念。P147项的集合称为项集。 computer, antivirus_software是 2 项集。支持度计数:项集出现的频率。满足最小支持度的阀值的项集就是频繁项集。3、 Apriori算法、如何实现、缺点、改进方法。 P151。P156, P157-159Apriori算法:是为布尔关联规则挖掘频繁项集的原创性算法。性质:频繁项集的所有非空子集也必须是频繁的。缺陷:1、它可能需要产生大量候选项

13、集。2、它可能需要重复地扫描数据库,通过模式匹配检查一个很大的候选集合改进:1、 不候选产生挖掘频繁项集。2、 使用垂直数据格式挖掘频繁项集。3、 挖掘闭频繁项集。第六章1、分类、预测的区别、关系。P186预测分为:分类和数值预测。分类是的目标值离散数据。数值预测是的目标值是连续值或者有序值。 但是为了方便,把数值预测简称为预 测。分类:*预测分类标号(或离散值)*根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类 新数据预测:是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空 间。预测和分类的异同相同点:*两者都需要构建模型都用模型来估计未知值不同点:*分类法主要是

14、用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值)2、 决策树算法过程,计算。P1981计算信息量。2计算信息熵。3计算信息增益。4选择根节点,递归操作3、 信息增益公式、概念、如何计算。 P192选择信息爛最大的作为分类属性设口是D中任一元组冨于类Q的概率厂用Q;dI/|D|估计D中元组分类所需的期望信息(entropy):m力血(Q)二-工j-iInformation按属性A对D中元组进行划分所需的信息力呃(D)=工守灯(2)戶DI信息增益:原来的信息需求(近基于类的)与新的需求(即对A划分之后得到的)之间的差Gam(A) Info(D)- Info/D)4、神经网络输入

15、层、输出层如何计算。 P215-216向前传播输入:1 jnWij O i ji 1输出的计算:o j11 e Ij神经网络的上一层输出构成下一层的输入5、例题 6-9。P2616线性回归、最小二乘法计算。P231W1(Xi x)( y iy)W0 y Wl Xy是y的平均值,X是X的平均值最终回归方程为:yi w0 w1wi第七章1、聚类分析的数据类型。不同数据类型如何计算。 P253-254数据结构:数据矩阵(原数据) ,相异度矩阵(例如数据间的距离,反映对象之间的相异度,测量差);数据类型:区间标度变量,二元变量,分类、序数和比例标度变量,混合类型的 变量X区间标度变量:O1标准化:z

16、- z是标准化后的数据矩阵。X原始数据,是x平均值,是x的方差。C2计算距离dq J (Xik yjk )2 (欧氏距离)。把距V k 1离小的规划为一类。分类变量:dj P P是全部变量总是,m是匹配数目P2、分类、序数和比例标度变量,计算例题 7-3,7-5,7-6。P256-260对象标识符Test1(分类的)Test2序数的Test3比例标度Code-A优秀4452Code-B一般223Code-C好164412107-3:计算分类变量的相异度数据是Testi (分类的)行是对象(记录),列是属性(只有一列【维】), p mdj 令 P=1;得:7-5计算比例标度量间的相异度。数据是T

17、est3比例标度先对比例标度变量进行对数变换。再计算距离。Test3数据取对数得:2.65, 1.34, 2.21, 3.08。求欧氏距离:1,3059Q.43350,4344l_ 30590.8F241-7404工 43350.97240.86790_43441. 74040-85797-6计算混合类型变量间的相异度temp =log10(Tes t3)得到:2. 64841. 3434)2.21483- 0S2STemp2=temp/(max(temp)-min(temp)得至U1. 52170. 77131. 2726L7713在对Temp2求距离。0. 75040.24910. 249

18、60. 75C40.50131. 00000. 24910. 4937L 00000.4SS73、 主要聚类方法的分类P261。划分法,层次法,基于网格的方法,基于模型的方法。4、 K均值、k中心点计算、区别、优缺点。P263K均值计算:1随机选取K个对象作为初始聚类中心。2计算对象到中心的相异度(距离),重新划分聚类。3重新计算聚类中心(根据每一类(簇)的的平均值作为该类(簇)的中心)k重复计算2,3步骤,直到平方误差准则E (P m)误差到达最小值,i 1 P C或者分类不再变化。K中心点的计算:(1)从 n个数据对象任意选择k个对象作为初始聚类 仲心)代表。(2)循环(3)到(5)直到每

19、个聚类不再发生变化为止。评价准则:绝对误差标准E |P O|i 1 P Ci(3)依据每个聚类的中心代表对象,以及最小距离重新对相应对象进行划分。(4)任意选择一个非中心对象 Orandom;计算其与中心对象oj交换的整个成本S(5)若S为负值则交换Orandom与oj以构成新聚类的k个中心对象。区别:K均值用每类的平均值作为聚类中心,K中心点是选用对象作为聚类中心。优缺点:k-medoids聚类算法比k-means聚类算法在处理异常数据和噪声数据方面更为鲁 棒,因为与聚类均值相比, 一个聚类中心的代表对象要较少受到异常数据或极端 数据的影响。 但是前者的处理时间要比后者更大。 两个算法都需要用户事先指定 所需聚类个数 k。5、层次方法。 P267层次方法对给定数据对象集合进行层次的分解。凝聚 自底向上分裂 自顶向下的缺点 :一旦一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错 误的决定。代表算法有:BIRCH 算法(利用层次方法的平衡迭代归约和聚类) 、 CURE 算法(利用代表点聚类

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1