数据挖掘复习111Word格式文档下载.docx

上传人:b****7 文档编号:22855998 上传时间:2023-02-05 格式:DOCX 页数:10 大小:77.95KB
下载 相关 举报
数据挖掘复习111Word格式文档下载.docx_第1页
第1页 / 共10页
数据挖掘复习111Word格式文档下载.docx_第2页
第2页 / 共10页
数据挖掘复习111Word格式文档下载.docx_第3页
第3页 / 共10页
数据挖掘复习111Word格式文档下载.docx_第4页
第4页 / 共10页
数据挖掘复习111Word格式文档下载.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

数据挖掘复习111Word格式文档下载.docx

《数据挖掘复习111Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习111Word格式文档下载.docx(10页珍藏版)》请在冰豆网上搜索。

数据挖掘复习111Word格式文档下载.docx

(bookp105)(P3-3)

数据清理,数据集成与变换,数据归约。

7.什么是数据清理(datacleaning)?

(bookP109)(P3-5)

现实世界的数据一般是脏的、不完整的和不一致的,数据清理例程试图填充空缺的值,识别孤立点,消除噪声,并纠正数据中的不一致。

8.数据清理(datacleaning)的内容包括哪些?

(bookP109-112小节标题)((P3-5-6))

填充缺失值,平滑噪音数据,纠正不一致的数据

9.什么是数据集成(dataintegration)?

(bookP1123.3.1)(P3-8)

将数据由多个源合并成一致的数据存储。

10.什么是数据归约(datareduction)?

(bookP116)(P3-10)

一种用于得到数据集归约表示的技术,它小得多,但仍接近于保持原数据的完整性。

11.将下列缩略语(acronym)复原

OLAP——on-lineanalyticalprocessing

DM——datamining

KDD——knowledgediscoveryindatabases

OLTP——on-linetransactionprocessing

DBMS——databasemanagementsystem

DWT——discretewavelettransform

12.什么是数据挖掘(datamining)?

答案1:

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

答案2:

(bookP5)(P1-6)数据挖掘就是从大量数据中提取或“挖掘”知识。

13.什么是关联规则(associationrule)?

(bookP23)(P1-14)

关联规则是形如XY,即“A1∪…∪Am”“B1∪…∪Bn”的规则(其中A1(i∈{1,…,m}),Bj(j∈{1,…,n})的属性值对。

14.什么是置信度(confidence)?

(p6-4-5)

置信度是条件概率P(Y|X);

即,包含X的事务也包含Y的概率。

更形式地,置信度定义为

confidence(X⇒Y)=P(Y|X)

15.什么是支持度(support)?

支持度表示满足规则的样本百分比。

支持度是概率P(X∪Y),其中,X∪Y表示同时包含X和Y的事务;

即,项集X和Y的并。

更形式地,支持度定义为

support(X⇒Y)=P(X∪Y)

16.数据仓库(datawarehouse)的主要特征是什么?

(bookp40)(P2-3-4)

(1)面向主题的(subject-oriented):

数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。

(2)集成的(integrated):

构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起。

(3)时变的(time-variant):

数据存储从历史的角度提供信息数据仓库的关键结构,隐式地或显式地包含时间元素。

(4)非易失的(nonvolatile):

数据仓库总是物理地分离存放数据;

这些数据源于操作环境下的应用数据。

由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。

它只需要两种数据访问:

数据的初始化装入和数据访问。

17.什么是数据集市(datamart)?

(bookP15)

答案:

数据集市是数据仓库的一个部门子集。

它聚焦在选定的主题上,是部门范围的。

18.数据库中的知识发现(knowledgediscoveryindatabases)过程由哪几个步骤组成?

(bookp7)(P1-6)

数据清理:

消除噪声或不一致数据。

数据集成:

将多种数据源组合在一起。

数据选择:

从数据库中检索与分析任务相关的数据。

数据变换:

数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作。

数据挖掘:

基本步骤,使用智能方法提取数据模式。

模式评估:

根据某种兴趣度度量,识别表示知识的真正有趣的模式。

知识表示:

使用可视化和知识表示技术,向用户提供挖掘的知识。

19.典型的数据挖掘系统有哪几个主要成分?

(bookp7-9)(1-7-8)

数据库、数据仓库或其他数据库,数据库或数据仓库服务器,知识库,数据挖掘引擎,模式评估模块,图形用户界面。

20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?

(bookP64)(P2-20)

规划,需求分析,问题分析,仓库设计,数据集成和测试,部署数据仓库。

21-22.deleted

23.数据清理时,对空缺值有哪些处理方法?

(bookP1094-9)(3-5-6)

忽略元组

人工填写空缺值

使用一个常量填充空缺值

使用属性的平均值填充空缺值

使用与给定元组属同一类的所有样本的平均值

使用最可能的值填充空缺值。

24.什么是数据变换(datatransformation)?

包括哪些内容?

(bookP114)(3-8-9)

数据变换是把数据转换成适用于挖掘的形式。

所涉及的内容包括:

平滑:

去掉数据中的噪声。

包括分箱、聚类和回归。

属于数据清理。

聚集:

对数据进行汇总和聚集。

属于数据归约。

数据概化:

使用概念分层,用高层次概念替换低层次原始数据。

规范化:

将属性数据按比例缩放,使之落入一个小的特定区间。

属性构造:

构造新属性,加入到给定的属性集合中,为数据挖掘过程提供帮助。

25.数据归约(datareduction)的策略包括哪些?

(bookP116-117)(3-10)

数据立方体聚集,维归约,数据压缩,数值压缩,离散化和概念分层产生。

26.提高数据挖掘算法效率有哪几种思路?

共有三种思路:

(1)减少数据库扫描次数,这种技术对效率会有巨大提高。

(2)利用采样技术,对要挖掘的数据集合进行选择。

(3)采用并行数据挖掘。

因为大规模的数据库经常分布在若干网络节点上,并行挖掘技术显然能提高效率。

这对于在Internet上的海量数据挖掘研究具有重要的意义。

27.(P115P3-9例3.1)假定属性income的最小值与最大值分别为¥12000和¥98000,如映射income到区间[0.0,1.0],根据min-max规范化,income值¥73600将变为0.716。

计算过程:

(73600-12000)/(98000-12000)*(1.0-0.0)+0.0=0.716

28.(P115P3-9例3.2)假定属性income的平均值和标准差分别为¥54000和¥16000。

使用Z-score规范化,值¥73600被转换为1.225。

(73600-54000)/16000=1.225

29.(P116P3-9例3.3)假定A的值由-986到917。

A的最大绝对值为986,使用小数定标规范化,-986被规范化为-0.986。

30.从结构角度来看,有三种数据仓库模型(datawarehousemodel)________________。

企业仓库,数据集市,虚拟仓库

31.什么是离散小波变换(discretewavelettransform)?

(bookP121)(P3-13)

离散小波变换是一种线性信号处理技术,当用于数据向量D时,将它转换成数值上不同的小波系数的向量D’。

两个向量具有相同的长度。

32.与数据挖掘类似的术语有:

(bookP5)(P1-6)

数据库中知识挖掘,知识提取,数据/模式分析,数据考古,数据捕捞。

33.解释下列术语(bookP7)(P1-6)

34.翻译下列术语

DataMining数据挖掘

Datawarehousing数据仓库

DataMart数据集市

drill-down下钻

roll-up上卷

OLAP联机分析处理

Datacube数据立方体

Associationrule关联规则

Datacleaning数据清理

Dataintegration数据集成

Datatransformation数据变换

Datareduction数据归约

35.可以对按季度汇总的销售数据进行______,来观察按月汇总的数据。

(bookP15)(P1-12)

A上卷B下钻C切片D切块

36.可以对按城市汇总的销售数据进行______,来观察按国家总的数据。

37.通过不太详细的数据得到更详细的数据,称为________。

(bookP60)(P2-16)

A上卷B下钻C细化D维规约

38.三层数据仓库结构中,从底层到顶层分别是_________________。

(bookP65)(P2-21)

仓库数据库服务器,OLAP服务器,客户

39.已知事务数据库D,假定最小支持度为2,使用Apriori算法求所有的频繁项集和它们的支持度。

(bookP232-234)(P6-6-8)

解:

1)在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。

算法简单地扫描所有的事务,对每个项的出现次数计数。

2)由最小事务支持计数为2(即min_sup=2/9=22%),可以确定频繁1-项集的集合L1。

它由具有最小支持度的候选1-项集组成。

3)为发现频繁2-项集的集合L2,算法使用L1╳L1产生候选2-项集的集合C2。

C2由

个2-项集组成。

4)下一步,扫描D中事务,计算C2中每个候选项集的支持计数,如图1的第二行的中间表所示。

5)确定频繁2-项集的集合L2,它由具有最小支持度的C2中的候选2-项集组成。

6)候选3-项集的集合C3的产生详细地列在图2中。

首先,令C3=L2╳L2={{I1,I2,13},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}}。

根据Apriori性质,频繁项集的所有子集必须是频繁的,我们可以确定后4个候选不可能是频繁的。

因此,我们把它们由C3删除,这样,在此后扫描D确定L3时就不必再求它们的计数值。

注意,Apriori算法使用逐层搜索技术,给定k-项集,我们只需要检查它们的(k-1)-子集是否频繁。

7)扫描D中事务,以确定L3,它由具有最小支持度的C3中的候选3-项集组成(图1)。

8)算法使用L3╳L3产生候选4-项集的集合C4。

尽管连接产生结果{{I1,I2,I3,I5}},这个项集被剪去,因为它的子集{I2,13,15}不是频繁的。

这样,C4=Ø

(空集),因此算法终止,找出了所有的频繁项集。

图2

40.什么是聚类(clustering)?

它与分类(classification)有什么不同?

(bookP335)

聚类就是将数据对象分组成为多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。

它与分类不同的是,它要划分的类是未知的。

41.什么是区间标度变量?

(bookP339)

区间标度变量是一个粗略线性标度的连续度量。

42.大体上,主要的聚类算法可以划分为哪几类?

(bookP346-348)

(1)划分方法(partitioningmethod):

给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个聚簇,并且k≤n。

(2)层次的方法(hierarchicalmethod):

层次的方法对给定数据对象集合进行层次的分解。

根据层次的分解如何形成,层次的方法可以分为凝聚的和分裂的。

(3)基于密度的方法(density-basedmethod):

绝大多数划分方法基于对象之间的距离进行聚类。

这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。

(4)基子网格的方法(grid-basedmethod):

基于网格的方法把对象空间量化为有限数目的单元,形成了一个网格结构。

所有的聚类操作都在这个网格结构(即量化的空间)上进行。

(5)基于模型的方法(model-basedmethod):

基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 图表模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1