数据挖掘考试提纲Word文档下载推荐.docx-资源下载

数据挖掘考试提纲Word文档下载推荐.docx

1、2挖掘频繁模式，关联和相关；3分类和预测；4聚类分析；9、数据挖掘5个相关学科、技术。P19图数据挖掘是交叉学科，受多个学科影响。包括数据库系统，统计学，机器学习, 可视化和信息科学还有其他科学。1、数据挖掘的第一阶段是数据预处理。数据清理是用于去掉数据中的噪声数据，纠正不一致2、数据预处理的分类、每个分类的作用、有什么技术。 P311数据清理（可以去掉数据中的噪声，纠正不一致）：试图填充缺失的值，光滑噪声并识别离群点，并纠正数据的不一致。主要技术：1缺失值；1忽略元组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均值 6使用最

2、可能得值填充缺失值（使用推理进行预测）；2光滑技术：1分箱，2回归，3聚类2数据集成（将多个数据源合并成一致的数据存储，构成一个完整的数据集，如数据仓库或数据立方体）；3数据变换（将一种格式的数据转换为另一格式的数据（如规范化）或统一成合适于挖掘的形式。；光滑（去掉数据中的噪声，如分箱技术，回归，聚类）；2聚集（对数据进行汇总或聚集）；数据泛化（分层，用高层概念代替低层）；3规范化（1最大最小规范化v v min A （new_maxA new_min A） new_minA ； maxA min An ew_mi n A,n ew_maxA是映射后的区域,min a, max a是变

3、换前数据的最大最小值。v是转换后的数据。2 z-score规范化v-A a , a分别是原始A数据的平均值，和标准差）；3小数定标规范化、v二）10属性构造；4数据归约（可以通过聚集、删除冗余特性或聚类等方法来压缩数据）：数据归约是保持原来数据的完整性，将数据集变小，并不影响对结果的分析。归约的策略：1数据立方体聚集2属性子集的选择3维度归约4数值归约5 离散化和概念分层产生。3、数据清理所需要的方法（6）。P39数据清理可以分为有监督和无监督两类。1忽略元组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值

4、填充缺失值（使用推理进行预测）；1 分箱，2回归，3聚类4、什么是噪声数据。如何处理（3）。P40噪声是被测量的变量的随机误差或方差。处理：（1）分箱。（2）聚类。（3）计算机和人工检查结合.（4）回归5、数据集成的概念。用来干什么。方法有哪些。 P43数据集成是将多个数据源合并成一致的数据存储，构成一个完整的数据集如数据仓库或数据立方体它需要统一原始数据中的所有矛盾之处，如字段的：同名异义、异名同义、单位不统一字长不一致，从而把原始数据在最低层上加以转换，提炼和集成。1模式集成，2冗余问题，3数据值冲突的检测与处理6有哪些冗余（2）,解决方法。P43-44属性冗余：常用的解决方法是相关分

5、析检测；卡方检验（分类或离散数据）；元组冗余7、数据变换内容和含义（5）。P45数据变换将数据转换成适合于挖掘的形式。主要是找到数据的特征表示，对数据进行规格化处理。用维变换或转换方式减少有效变量的数目或找到数据的不变式8、规范化有哪些方法。至少掌握 2种计算方法。P45-46最大最小规范化 v min a v （n ew_ max A n ew_mi n A） n ew_mi nA ；maxA min A _ n ew_ min a , n ew_max a 是映射后的区域,min a, max a是变换前数据的最大最小值。v是转换后的数据。z-score规范化v -A a , a

6、分别是原始数据的平均值，和标准差）；小数定标规范化、v10j9、数据规约策略（47）。P47归约的策略：1数据立方体聚集2属性子集的选择3维度归约4数值归约5离散化和概念分层产生10、属性子集选择的基本启发式方法包括什么技术（4）。P48-491 逐步向前选择 2 逐步向后删除 3 向前选择和向后删除的结合 4 决策树归纳第三章1、数据仓库的概念、目的、特点。 P67 数据仓库是一个面向主题的（围绕主题组织数据），集成的（由多个异构数据源集成），时变的和非易失的数据集合，支持管理部门的决策过程。2、数据仓库的逻辑模式。 P72 星形，雪花和事实星座模式3、星型模式的事实表包括（2）。

7、P73 事实表：包含度量值和关联维度表的码。星形事实模型：包括维表和事实表。维表记录的是基本信息，事实表记录业务过程。所以星形事实模型中，一般在维表上建立主键，在事实表上建立外键。事实表包括了外键和业务过程的数据。事实表包含联系事实与维度表的数字度量值和键。事实数据表包含描述业务内特定事件的数据。4、数据仓库的物理结构（ 3：MRH-SQL Server 是 H*）。 P865、 OLAP 操作（ 5）。 P791上卷：就是将高维的数据压缩到低维，是个数据的累加过程。 Eg：从街道上卷到城市。就是把同一城市的所有街道的数据累加起来。（维度高低是属性的个数，维度高

8、属性个数多）。通过一个维德概念分层向上攀升，或者通过维归纳，对数据立方体进行聚集。2下钻：是把数据的维度进一步分解，跟上卷相反。从城市分解到街道。上卷操作的逆操作。从高层概括到底层概括，从不详细到更加详细。3切片和切块：就是固定某一维数据，再观察其它维度的数据。固定时间维，观察不同地点的销售数量。4投影和选择。转轴：可视化操作，从不同角度观察数据。6数据仓库的实现（3）。P88高效的立方体计算技术，存取方法和查询处理技术；7、数据立方体的有效计算（ 2）。 P88CD compute cube操作与维灾难Compute cube操作对操作指定维的所有子集计算聚集。（立方体计算的方体或

9、分组总数为2的N次方。如3维（3个属性）数据的立方体，分组总数：2A3=8）C2 部分物化：方体的选择计算。（数据立方体的物化：不物化、完全物化、部分物化。）8、维灾难概念。 P89 完全物化指定义数据立方体的格中所有的方体的计算。通常需要过多的存储空间，特别是当维数和相关联的概念分层增长时，该问题称为维灾难。9、 N 维有多少个顶点。2的N次方。2n10、数据仓库的查询（取）方法（ 3）。 P901 位图索引 2 连接索引 3 位图连接索引。11、 OLAP 查询的有效处理步骤（ 2）。 P921确定哪些操作应当在可利用的方体上执行2确定相关操作应当使用哪些物化的方法。第四章1、冰

10、山立方体的概念。（多路数据聚集不能计算冰山立方体）。冰山立方体：不能满足阈值的单元，这种部分物化的单元称作冰山立方体。2、BUC 计算冰山立方体。 P1091 从顶点方体向下计算冰山立方体。 2Apriori 剪枝。 3 无共享聚集计算优点：分治策略，减少不必要计算开销。计算流程：1 扫描整个输入，计算整个度量。 2 针对方体的每一维进行划分。 3 针对每一个划分，对它进行聚集，为该划分创建一个元组并得到该元组的计算。判断其分组计算是否满足最小支持度。 4 如果满足，输出该划分的聚集元组，并在该划分上对下一维进行递归调用，否则进行剪枝操作。3、OLAP 预计算壳片段，缺点、计

11、算。 P116-1184、点查询、子立方体查询概念、计算。 P119-1205、面向属性的归纳是用来干什么。过程有哪些。 P128 面向属性的归纳用于复杂的数据类型并依赖数据驱动的泛化过程。1 使用数据库查询收集任务相关的数据； 2 收集工作关系的统计量。 3 导出主关系P6、类比较的过程。 P1361数据收集。 2维相关分析。 3同步泛化。 4导出比较的表示。7、类描述：特征化和比较的表示？（这里不知道考什么）第五章1、支持度、置信度、提升度概念？ P147定义N为总事务数，N（A）、N（B）分别为项集A、项集B出现的次数，N（AB）为项集A、项集B同时出现的次数，A、B为不相交项集AH

12、 B=?，规则A-B表示由A推到B: 支持度：对整体小一、N（AB）Support（A B）置信度：对条件提升度：联合概率NxN（AB）S ） x B） A （4）x N（B）2、频繁项集概念。P147项的集合称为项集。 computer， antivirus_software是 2 项集。支持度计数：项集出现的频率。满足最小支持度的阀值的项集就是频繁项集。3、 Apriori算法、如何实现、缺点、改进方法。 P151。P156, P157-159Apriori算法：是为布尔关联规则挖掘频繁项集的原创性算法。性质：频繁项集的所有非空子集也必须是频繁的。缺陷：1、它可能需要产生大量候选项

13、集。2、它可能需要重复地扫描数据库，通过模式匹配检查一个很大的候选集合改进：1、不候选产生挖掘频繁项集。2、使用垂直数据格式挖掘频繁项集。3、挖掘闭频繁项集。第六章1、分类、预测的区别、关系。P186预测分为：分类和数值预测。分类是的目标值离散数据。数值预测是的目标值是连续值或者有序值。但是为了方便，把数值预测简称为预测。分类：*预测分类标号（或离散值）*根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据预测：是构造和使用模型评估无样本类，或评估给定样本可能具有的属性或值空间。预测和分类的异同相同点：*两者都需要构建模型都用模型来估计未知值不同点：*分类法主要是

14、用来预测类标号（分类属性值）预测法主要是用来估计连续值（量化属性值）2、决策树算法过程，计算。P1981计算信息量。2计算信息熵。3计算信息增益。4选择根节点，递归操作3、信息增益公式、概念、如何计算。 P192选择信息爛最大的作为分类属性设口是D中任一元组冨于类Q的概率厂用Q；dI/|D|估计D中元组分类所需的期望信息（entropy）:m力血（Q）二-工j-iInformation按属性A对D中元组进行划分所需的信息力呃（D）=工守灯（2）戶DI信息增益：原来的信息需求（近基于类的）与新的需求（即对A划分之后得到的）之间的差Gam（A） Info（D）- Info/D）4、神经网络输入

15、层、输出层如何计算。 P215-216向前传播输入：1 jnWij O i ji 1输出的计算：o j11 e Ij神经网络的上一层输出构成下一层的输入5、例题 6-9。P2616线性回归、最小二乘法计算。P231W1（Xi x）（ y iy）W0 y Wl Xy是y的平均值，X是X的平均值最终回归方程为：yi w0 w1wi第七章1、聚类分析的数据类型。不同数据类型如何计算。 P253-254数据结构：数据矩阵（原数据），相异度矩阵（例如数据间的距离，反映对象之间的相异度，测量差）；数据类型：区间标度变量，二元变量，分类、序数和比例标度变量，混合类型的变量X区间标度变量：O1标准化：z

16、- z是标准化后的数据矩阵。X原始数据，是x平均值,是x的方差。C2计算距离dq J （Xik yjk ）2 （欧氏距离）。把距V k 1离小的规划为一类。分类变量：dj P P是全部变量总是，m是匹配数目P2、分类、序数和比例标度变量，计算例题 7-3，7-5，7-6。P256-260对象标识符Test1（分类的）Test2序数的Test3比例标度Code-A优秀4452Code-B一般223Code-C好164412107-3:计算分类变量的相异度数据是Testi （分类的）行是对象（记录），列是属性（只有一列【维】）, p mdj 令 P=1；得：7-5计算比例标度量间的相异度。数据是T

17、est3比例标度先对比例标度变量进行对数变换。再计算距离。Test3数据取对数得：2.65, 1.34, 2.21, 3.08。求欧氏距离:1,3059Q.43350,4344l_ 30590.8F241-7404工 43350.97240.86790_43441. 74040-85797-6计算混合类型变量间的相异度temp =log10（Tes t3）得到：2. 64841. 3434）2.21483- 0S2STemp2=temp/（max（temp）-min（temp）得至U1. 52170. 77131. 2726L7713在对Temp2求距离。0. 75040.24910. 249

18、60. 75C40.50131. 00000. 24910. 4937L 00000.4SS73、主要聚类方法的分类P261。划分法，层次法，基于网格的方法，基于模型的方法。4、 K均值、k中心点计算、区别、优缺点。P263K均值计算：1随机选取K个对象作为初始聚类中心。2计算对象到中心的相异度（距离），重新划分聚类。3重新计算聚类中心（根据每一类（簇）的的平均值作为该类（簇）的中心）k重复计算2，3步骤，直到平方误差准则E （P m）误差到达最小值,i 1 P C或者分类不再变化。K中心点的计算:（1）从 n个数据对象任意选择k个对象作为初始聚类仲心）代表。（2）循环（3）到（5）直到每

19、个聚类不再发生变化为止。评价准则：绝对误差标准E |P O|i 1 P Ci（3）依据每个聚类的中心代表对象，以及最小距离重新对相应对象进行划分。（4）任意选择一个非中心对象 Orandom；计算其与中心对象oj交换的整个成本S（5）若S为负值则交换Orandom与oj以构成新聚类的k个中心对象。区别：K均值用每类的平均值作为聚类中心，K中心点是选用对象作为聚类中心。优缺点：k-medoids聚类算法比k-means聚类算法在处理异常数据和噪声数据方面更为鲁棒，因为与聚类均值相比，一个聚类中心的代表对象要较少受到异常数据或极端数据的影响。但是前者的处理时间要比后者更大。两个算法都需要用户事先指定所需聚类个数 k。5、层次方法。 P267层次方法对给定数据对象集合进行层次的分解。凝聚自底向上分裂自顶向下的缺点 :一旦一个步骤（合并或分裂）完成，它就不能被撤消，因此而不能更正错误的决定。代表算法有：BIRCH 算法（利用层次方法的平衡迭代归约和聚类）、 CURE 算法（利用代表点聚类

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？