数据仓库与挖掘期末考试知识点复习.docx

资源描述

数据仓库与挖掘期末考试知识点复习.docx

《数据仓库与挖掘期末考试知识点复习.docx》由会员分享，可在线阅读，更多相关《数据仓库与挖掘期末考试知识点复习.docx（19页珍藏版）》请在冰豆网上搜索。

数据仓库与挖掘期末考试知识点复习.docx

数据仓库与挖掘期末考试知识点复习

数据挖掘知识点（考点）复习

第6章的知识点

1.哪些学科和数据挖掘有密切联系？

（P68数据挖掘关系图）

2.数据挖掘的定义（P69）

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

第7章的知识点

1.数据挖掘步骤（P74）

确定目标、数据准备、数据挖掘、结果分析

2.数据选择的内容（包括哪两部分）（P75）

属性选择和数据抽样

3.数据清理的方法（P75）了解小规模数据、大数据集的清理方法。

小规模数据：

人工清理

大数据集：

自动清理（测定→识别→纠正）

4.常见的模式有哪些（P78）尤其是分类、回归、聚类模式之间的分析比较。

①分类模式（用于离散值）

②回归模式（用于连续值）

③聚类模式

④关联模式

⑤序列模式

即将数据间的关联性事件发生的顺序联系起来。

⑥时间序列模式

根据数据随时间变化的趋势预测将来的值。

5.模式的精确度（P79）

训练和测试模式需将数据分成哪两部分以及各自用途？

模式准确性的测试方法及其比较。

训练和测试模式需将数据分成：

一是训练数据，主要用于模式训练；另一个是测试数据，主要用于模式测试。

模式准确性的测试方法：

封闭测试：

测试集即训练模式的训练数据。

可测试模式的稳定性，但无法验证其推广能力。

开放测试：

测试模式的数据是模式先前未见的数据。

可以很好地度量模式的准确度。

6.数据预处理的任务有哪些？

（P83-89）

数据清理、数据集成和转换

7.空缺值的处理方法（P83-84）

忽略该条记录（不很有效）、手工填补遗漏值（可行性差）、利用缺省值填补遗漏值（不推荐）

利用均值填补遗漏、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值（较常用）

8.分箱技术（P84-86）分箱之前要做的工作？

P84

分箱之前需要对记录按目标属性值的大小进行排序

（1）要求能描述出常见的分箱方法和数据平滑方法（简答）。

分箱方法：

统一权重（等深分箱法）、统一区间（等宽分箱法）、用户自定义。

数据平滑方法：

按平均值平滑、按边界值平滑、按中值平滑。

（2）要求会用等深分箱法和等宽分箱法对数据进行分箱，并对分箱后的数据按指定的平滑技术来平滑。

（详见PPT）

示例：

在选定的数据集中，药价属性price排序后的值（人民币元）：

8101215151820232528303540454850

统一权重（等深分箱法）

设权重（箱子深度）为4，则分箱后结果是如下：

箱1:

8101215

箱2:

15182023

箱3:

25283035

箱4:

40454850

示例：

在选定的数据集中，药价属性price排序后的值（人民币元）：

8101215151820232528303540454850

统一区间（等宽分箱法）

设定区间范围（箱子宽度）为10元，分箱后的结果如下：

箱1：

81012151518

箱2：

2023252830

箱3:

354045

箱4:

4850

对同一箱值中的数据求平均值，然后用这个平均值代替该箱子的所有数据。

如对上面统一区间的分箱结果进行平滑，则平滑后的结果如下：

箱1：

81012151518箱1：

131313131313

箱2：

2023252830箱2：

25.225.225.225.225.2

箱3:

354045箱3:

404040

箱4:

4850箱4:

4949

对箱子中每个数据，观察它和箱子两个边界值的距离，用距离较小的那个边界值代替该数据。

如对上面统一区间的分箱结果进行平滑，则平滑后的结果如下：

箱1：

81012151518箱1：

888181818

箱2：

2023252830箱2：

2020203030

箱3:

354045箱3:

353545

箱4:

4850箱4:

4850

取箱子的中值，用来代替箱子中所有数据。

若箱子中数据个数为奇数，则取中间那个，若为偶数，则取中间两个的均值。

如对上面统一区间的分箱结果进行平滑，则平滑后的结果如下：

箱1：

81012151518箱1：

13.513.513.513.513.513.5

箱2：

2023252830箱2：

2525252525

箱3:

354045箱3:

404040

箱4:

4850箱4:

4949

9.数据规范化方法（最小-最大规范化）P88

（1）最小-最大规范化

前提条件：

属性的取值范围必须已知。

下面是将属性A的取值区间[min（A）,max（A）]映射到新的取值区间[a,b]的公式：

（2）Z-score规范化（零-均值规范化或0-1规范化）

（3）小数定标规范化

第8章的知识点

关联规则部分

1.理解什么是关联规则？

P90

给定案例，能判断该案例是否属于关联规则挖掘问题。

（购物篮分析：

关联：

指在两个或两个以上变量取值之间所存在的某种规律性。

挖掘目的：

发现依存性和关联性的规则，预测潜在关联或变量。

2.关联规则的分类（P92-93）

根据规则中所处理的项集类型来分类：

1）布尔型关联规则；2）量化关联规则

根据规则中所涉及的数据维来分类：

1）单维关联规则；2）多维关联规则

根据规则中所涉及的抽象层次来分类：

1）单层关联规则；2）多层关联规则

根据关联挖掘的各种扩充来扩展：

相关分析、最大频繁模式挖掘和频繁闭模式挖掘等

3.掌握项集或规则的支持度和置信度的计算方法（P91）详见ppt

支持度：

设项集，则X在事务集D上的支持度是包含X的事务在D中所占的百分比，即

对于关联规则，其支持度是事务集D中同时包含A和B的事务数与所有事务数的百分比，即

例子：

设X={香蕉}，由于包含香蕉的事务有

001,002,003共3个，总共有4个事务，

即|D|=4，则support（X）=3/4=75%

设X={果酱面包，香蕉}，由于同时包含果酱面包和香蕉的事务有001,003共2个，故support（X）=2/4=50%

设A={果酱面包}，B={酸奶}，则A∪B={果酱面包，酸奶}，由于包含A∪B的事务只有001共1个，所以

类似地，设A={果酱面包}，B={香蕉}，则A∪B={果酱面包，香蕉}，则

置信度：

设，则形如的关联规则的置信度是指事务集D中同时包含A和B的事务数与包含A的事务数的比值，即

示例：

设A={果酱面包}，B={酸奶}，则

A∪B={果酱面包，酸奶}，故

4.项集频率、频繁项集的定义，项集频率与项集支持度之间的关系（简答）。

（P92）

项集频率：

包含该项集的事务数（即项集的支持度×事务总数），也称为项集支持度计数。

频繁项集：

频繁地在事务数据集中一起出现的项的集合

5.掌握Apriori算法（P93-98）（综合计算题）、

TID

项ID列表

T100

I1,I2,I5

T200

I2,I4

T300

I2,I3

T400

I1,I2,I4

T500

I1,I3

T600

I2,I3

T700

I1,I3

T800

I1,I2,I3,I5

T900

I1,I2,I3

例子：

最小支持度计数计数为|D|*min_sup=2

假定最小置信度阈值设为70%，从第1问的结果中任意选择一个频繁3项集并算出由其产生的关联规则。

解：

设最小支持度为22%，根据第一问的一个频繁项集结果：

L={I1,I2,I5}，且由题知最小置信度阈值min_conf=70%，由L所对应的关联规则生成过程如下：

（1）对于频繁项集L，确定其所有的非空真子集：

s1={I1}，s2={I2}，s3={I5}，s4={I1,I2},s5={I1,I5},s6={I2,I5}.

（2）对于L的上述每个非空真子集，逐个计算出每个非空真子集对应的规则：

S1={I1}:

I1I2^I5confidence=2/6=33%

s2={I2}:

I1^I5confidence=2/7=29%

s3={I5}:

5I1^I2confidence=2/2=100%

s4={I1,I2}:

I1^I2I5confidence=2/4=50%

s5={I1,I5}:

I1^I5

I2confidence=2/2=100%

s6={I2,I5}:

I2^I5

I1confidence=2/2=100%

因此，由上面输出的相关规则如下：

规则1：

I5I1^I2（support=22%,confidence=2/2=100%）

规则2：

I1^I5I2（support=22%,confidence=2/2=100%）

规则3：

I2^I5I1（support=22%,confidence=2/2=100%）

5.1掌握Apriori算法的基本思想和执行步骤。

Apriori算法基本思想：

Apriori算法采用逐层迭代搜索方法，使用候选项集来找频繁项集。

其基本思想是:

首先找出所有频繁1－项集的集合Ll，L1用于找频繁2－项集的集合L2，而L2用于找L3，如此下去，直到不能找到频繁k－项集。

并利用事先设定好的最小支持度阈值进行筛选，将小于最小支持度的候选项集删除，再进行下一次的合并生成该层的频繁项集。

经过筛选可减少候选项集数，从而加快关联规则挖掘的速度。

步骤：

1、从事务数据库（D）中挖掘出所有频繁项集。

支持度大于最小支持度minSup的项集（Itemset）称为频集（FrequentItemset）。

首先需要挖掘出频繁1-项集；然后，继续采用递推的方式来挖掘频繁k-项集（k>1），具体做法是：

在挖掘出候选频繁k-项集（Ck）之后，根据最小置信度minSup来筛选，得到频繁k-项集。

最后合并全部的频繁k-项集（k>0）。

2、基于第1步挖掘到的频繁项集，继续挖掘出全部的频繁关联规则。

置信度大于给定最小置信度minConf的关联规则称为频繁关联规则（FrequentAssociationRule）。

在这一步，首先需要从频繁项集入手，首先挖掘出全部的关联规则（或者称候选关联规则），然后根据minConf来得到频繁关联规则。

5.2理解Apriori性质

Apriori性质：

一个频繁项集的所有非空子集都必须是频繁的。

Apriori性质的基本原理：

如果P（A）

5.3能将算法应用到数据进行计算

给定支持度，能判断哪些项集需要剪枝？

扫描事务数据库，计算Ck中每个候选项集支持度计数，将小于最小支持度阈值的候选项集进行[删除]，从而确定Lk

掌握从频繁项集生成候选项集的计算过程。

Apriori算法使用了Apriori性质来产生候选项集。

任何非频繁的（k－1）项集都不可能是频繁k－项集的子集。

因此，如果一个候选k－项集的（k－1）－子集不在Lk－1中，则该候选项集也不可能是频繁的，从而可以从Ck中删除

会计算项集的支持度。

能将整个算法流程对指定数据集完成关联规则的挖掘过程。

6.能根据排好序的事务集构造FP树（P100）

7.能比较FP树算法和Apriori算法的异同点

Apriori算法使用Apriori性质来生成候选项集的方法，大大压缩了频繁集的大小，取得了很好的性能。

但还存在两大缺点：

（1）产生大量的频繁集

（2）重复扫描事务数据库Apriori算法会产生大量的频繁集，当频繁1－项集L1有1000个时，候选2－项集C2个数将会超过100万。

这种空间复杂度以指数形式增长，使得Apriori算法的执行效率很低，因此提出了可以有效地解决上述问题的方法—FP-tree算法。

FP-growth算法使用压缩式数据结构——频繁模式树（FP树或FP-tree），无候选项集产生。

分类与预测部分

1.训练集与验证集的定义，以及二者的用途。

P104-105

验证集：

用于对已发现的分类规律进行测试的、已分类的一组数据库记录集合，又称检验集或测试集。

训练集：

一组已分类的、随机选取的数据库记录集合，是分类模型建立过程中的分析对象。

2.类标号属性与训练属性的定义，以及二者区别。

P105

类标号属性：

用于确定训练集中每个数据样本所属的预定义类的属性，用于标识记录所属类型；训练属性：

用于分类规则判定过程。

3.学过的决策树分类算法有哪些？

P108决策树包括哪些结点？

P106-107

决策树分类算法：

ID3、C4.5、CART等

决策树包括内部节点（矩形表示）、树根（最顶层节点）、叶子节点（椭圆表示）

4.决策树递归划分终止的条件有哪些？

（3点）P109

（1）给定结点的所有样本均属于同一类；

（2）没有剩余属性可被用来进一步划分样本；

（3）分枝test_attribute=ai不包含任何样本。

5.对于决策树递归过程需要注意哪两种情况？

P109

其一，在样本决策树形成过程中，如果一个训练属性已在前面过程中被作为结点代表属性而使用过，那么在后面的过程中，该属性将不会再被考虑。

其二，递归划分步骤将停止，仅当下列条件之一成立的时候：

（1）给定结点的所有样本均属于同一类；

（2）没有剩余属性可被用来进一步划分样本；

（3）分枝test_attribute=ai不包含任何样本。

6.什么是过适应问题？

如何解决过适应问题？

（简答）P110

过适应问题：

是指一个决策树过于使用了当前训练集，对此训练集可能是非常准确的；当用于新的测试集时其准确性急剧降低的现象。

解决过适应问题的方法：

对决策树进行必要的剪枝。

7.决策树分类规则的生成方法？

（简答）P111-112或见PPT

决策树分类规则的描述形式：

“IF…THEN形式”。

分类规则的提取方法：

寻找始于决策树根而止于一个叶结点的路径，每条路径对应一个分类规则。

分类规则的前件（即“IF”部分）：

路径上的每个内部结点所包含的属性以及其属性值整合成的合取项；

分类规则的后件（即“THEN”部分）：

叶结点包含的类别。

8.决策树构造过程中当前结点的训练属性是如何选择的？

P109

在构造决策树的过程中，选定属性创建结点的方法：

a）计算各属性的信息增益;

b）选定信息增益最高的属性作为当前结点的训练属性;

c）创建新结点，对当前训练属性的每个值创建分枝，据此来划分样本。

9.k-最临近算法的基本思想？

P119k-最临近算法的两个基本步骤？

P119k-最临近算法中参数k的大小对分类结果的影响？

P120

k-最临近分类的基本思想

将与未知样本最为临近的k个训练样本中出现次数最多的类标号分配给该未知样本

k-最临近分类的基本步骤

1）获得与未知样本最为接近的k个训练样本；

2）针对选定的k个训练样本，进行“多数表决”，将表决的类标号分配给该未知样本。

k-最临近分类的使用过程中，选择大小适当的k值是非常重要的。

如果k值过小，分类结果易受到过适应问题的影响；反之，如果k值过大，一些距离较远的训练样本可能会导致未知样本的误分类。

聚类分析部分

1.什么是聚类？

聚类与分类的比较或异同点？

（简答）P130

聚类是将数据对象集合进行类似对象组的划分，实现类的分析过程，即“聚合”同类对象的过程。

聚类与分类的区别：

2.聚类分析常用的两种数据结构？

P130-131

数据矩阵、相异度矩阵

3.数据矩阵与相异度矩阵的比较，以及二者每行每列表示的意义？

P130-131

数据矩阵又称对象-变量结构，每行对应一个特定对象（如一个样本记录），每列对应一个属性（如数据表的一个字段）。

相异度矩阵又称对象-对象结构。

4.相异度矩阵中各个元素d（i,j）的大小（趋于0或者值很大）表示的意义？

P131

d（i,j）是一个非负值，当d（i,j）的值越接近0，表征对象i和j之间越相似；当d（i,j）值越大，则表征对象i和j之间的差异越大。

5.数据的属性类型有哪些？

（5种）P131-135

区间标度变量、二元变量、序数型变量、标称变量、序数型变量、比例标度型变量、混合型变量。

（答案不确定）。

6.属于定量的数据属性类型？

P131

7.非对称二元变量的相异度计算公式及其应用？

（综合计算题）P133-134

示例：

二元变量之间相异度的计算

假定有一个患者记录表（见下一页）包括属性name（姓名）、gender（性别）、fever（发烧）、cough（咳嗽）、test-1、test-2、test-3和test-4，其中name是对象标识，gender是对称变量，其余属性为非对称变量。

对于非对称属性，值Y（yes）和P（positive）置为1，值N（no或者negative）置为0。

假设对象（患者）之间的距离只基于非对称变量来计算。

根据公式（8-52），三个患者之间的相异度计算如下：

d（Jack,Mary）=（0+1）/（2+0+1）=0.33

d（Jack,Jim）=（1+1）/（1+1+1）=0.67

d（Mary,Jim）=（2+1）/（1+2+1）=0.75

这些度量表明Jim和Mary不太可能患相似的疾病，因为他们在三对中具有最高的相异度。

8.在聚类算法研究和应用过程中，对其能力有哪几种典型要求？

P136-137

1.处理不同属性类型的能力

如数值型、布尔型、枚举型、序数型或混合型等。

2.处理噪声数据的能力

如属性字段值空缺、数据不完整、错误数据、孤立点等。

3.处理高维数据的能力多维（多个属性）。

4.减弱输入参数对领域知识的依赖性

高维数据中聚类结果对参数敏感

5.降低对数据及记录的输入顺序要求

即要求算法能适应记录的不同输入顺序情况。

6.具有高度的可伸缩性

即要求既能处理小数据集又能处理大数据集。

7.能够发现任意形状簇的能力

8.分析结果具有可解释性和可用性

9.具有在增加约束条件之后的聚类能力

9.聚类分析算法有哪几类？

每类的大体思想是什么？

P137-143（4类）

1.划分法

划分法的基本思想：

给定要划分的组数k,先创建一个初始分组情况，之后利用反复迭代的重定位技术，通过在分组间的对象移动来不断改进分组。

2.层次法

根据分解原则不同，层次法分为凝聚层次法和分裂层次法。

凝聚层次法（自底向上法）的基本思想：

初始时，将每一个对象作为单独的簇，之后不断合并“相近”的对象或簇，直到将所有簇合并成一个簇或达到终止条件为止。

分裂层次法（自顶向下法）的基本思想：

初始时，将所有对象构成一个簇，后通过反复的迭代过程不断地将每个组分裂成更小的簇，直到将每个对象对应了一个单独的簇或达到终止条件

3.基于密度的方法

基于密度的方法的主要思想：

如果一个邻近区域的密度（即对象点或数据点的数量）超过给定阈聚类的值，那么聚类将继续进行，将该区域并入到该聚类。

4、基于网格的方法

基于网格的方法是将对象空间分割成有限个单元的网格结构，之后再这个结构上进行所有聚类的处理。

10.基于划分思想的聚类算法有哪些？

P137-138

主要有k-平均算法、k-中心点算法、CLARANS算法等。

11.层次聚类算法分类哪两种？

基于层次法的聚类算法有哪些？

P139

层次聚类算法分类：

凝聚层次法、分裂层次法。

基于层次法的聚类分析算法有BIRCH算法、CUBE算法、CHAMELEON算法等

12.基于密度方法的聚类算法有哪些？

P142

基于密度的方法有DBSCAN算法、OPTICS算法、DENCLUE算法等。

13.基于网格方法的聚类算法有哪些？

P143

主要有STING算法、WAVE-CLUSTER算法、CLIQUE算法等。

14.k-平均算法的输入、输出及聚类过程（流程）？

（简答）P138

算法：

k-平均。

基于簇中对象的平均值生成k个簇

输入：

簇的数目k；大小为n的数据集D。

输出：

k个簇

方法：

（1）从数据集中任意选k个对象作为各个簇的初始中心；//中心初始化

（2）repeat

（3）计算其他对象到各个簇中心的距离；//相异度求解

（4）将对象（重新）分配给距离其最近的中心所对应的簇；//划分实现

（5）根据（8-61）式,重新生成各个簇的中心；//簇中心调整

（6）until准则函数收敛；//各个簇不再发生变化

15.k-平均算法与k-中心点算法的比较或异同点？

P137-138

k-中心点算法与k-平均算法的区别：

前者在计算相异度时采用簇的中心位置的对象（而不是簇中对象的平均值）作为对象之间相异度计算的参考点。

k-中心点算法的参考点选取方法可以改善k-平均算法对孤立点的敏感性。

16.DBSCAN算法中涉及的一些概念：

对象的r-领域、核心对象、直接密度可达、密度可达、密度相连。

P142-143（要求理解）

①将给定对象周边半径为r的区域称为该对象的r-邻域；

②如果一个对象的r-领域内部至少包含的对象数目达到一个最小数目MinPts，则称该对象为核心对象；

如左图，若设MinPts=3，则m，

P均是核心对象，q不是核心对象。

③给定一个对象集合S，如果p是在q的r-领域内（p,q∈S）,且q是一个核心对象，则称对象p从对象q出发是直接密度可达的。

如左图，若设MinPts=3，则m，

P均是核心对象，q不是核心对象。

q是从m直接密度可达的，m是从p直接密度可达的，p是从m直接密度可达的。

④如果存在一个对象链p1,p2,…,pn（其中p1=q,pn=p），对pi∈S（1≤i≤n）,pi+1是从pi关于r和MinPts直接密度可达的，则对象p是从对象q关于r和MinPts密度可达的。

如左图，若设MinPts=3，由于q是从m直接密度可达的，m是从p直接密度可达的，所以q是从p是（间接）密度可达的。

⑤如果对象集合S中存在一个对象s，使得对象p和q是从s关于r和MinPts密度可达的，则对象p和q是关于r和MinPts密度相连的。

如右图，p和q是密度相连的。

第9章的知识点（以选择题形式来考）

1.什么是结构化医学数据和非结构化医学数据？

P147

结构化医学数据是指有明确的数据结构，其具体内容在经过一定的整理之后可在数据库中进行有效存储和处理。

如医学病历

非结构化医学数据是指数据本身没有规范的结构，其内容也比较复杂的数据，

2.中医学结构化数据一般以什么形式存在？

P147

文献数据库、临床数据库

3.举例非结构化数据？

P147

如文本数据、医学多媒体数据等。

4.中医药领域的数据挖掘有哪些？

P150-151

寻找新药先导化合物、开发中药复方、研究中药指纹图谱、中医药信息化研究

5.文本数据挖掘的主要关键技术？

P156

包括文本预处理、文本分类、文本聚类、文本自动摘要等

6.文本预处理的目的？

P156

目的是要去掉那些文本中出现频率高，而对于识别文本类别作用不大的词。

7.什么是文本分类？

P158

文本分类是指根据文本的特征将其自

展开阅读全文