数据挖掘作业.docx

资源描述

数据挖掘作业.docx

《数据挖掘作业.docx》由会员分享，可在线阅读，更多相关《数据挖掘作业.docx（39页珍藏版）》请在冰豆网上搜索。

数据挖掘作业.docx

数据挖掘作业

《数据挖掘》作业

第一章引言

一、填空题

（1）数据库中的知识挖掘（KDD）包括以下七个步骤：

、、

、、、和

（2）数据挖掘的性能问题主要包括：

、和

（3）当前的数据挖掘研究中，最主要的三个研究方向是：

、和

（4）在万维网（WWW）上应用的数据挖掘技术常被称为：

（5）孤立点是指：

二、单选题

（1）数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于：

A、所涉及的算法的复杂性；B、所涉及的数据量；

C、计算结果的表现形式；D、是否使用了人工智能技术

（2）孤立点挖掘适用于下列哪种场合？

A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测

（3）下列几种数据挖掘功能中，（）被广泛的应用于股票价格走势分析

A.关联分析B.分类和预测C.聚类分析D.演变分析

（4）下面的数据挖掘的任务中，（）将决定所使用的数据挖掘功能

A、选择任务相关的数据B、选择要挖掘的知识类型

C、模式的兴趣度度量D、模式的可视化表示

（5）下列几种数据挖掘功能中，（）被广泛的用于购物篮分析

A、关联分析B、分类和预测C、聚类分析D、演变分析

（6）根据顾客的收入和职业情况，预测他们在计算机设备上的花费，所使用的相应数据挖掘功能是（）

A.关联分析B.分类和预测C.演变分析D.概念描述

（7）帮助市场分析人员从客户的基本信息库中发现不同的客户群，通常所使用的数据挖掘功能是（）

A.关联分析B.分类和预测C.聚类分析D.孤立点分析E.演变分析

（8）假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述，通常所使用的数据挖掘功能是（）

A.关联分析B.分类和预测C.孤立点分析D.演变分析E.概念描述

三、简答题

（1）什么是数据挖掘？

（2）一个典型的数据挖掘系统应该包括哪些组成部分？

（3）请简述不同历史时代数据库技术的演化。

（4）请列举数据挖掘应用常见的数据源。

（或者说，我们都在什么样的数据上进行数据挖掘）

（5）什么是模式兴趣度的客观度量和主观度量？

（6）在哪些情况下，我们认为所挖掘出来的模式是有趣的？

（7）根据挖掘的知识类型，我们可以将数据挖掘系统分为哪些类别？

第二章数据仓库和数据挖掘的OLAP技术

一、填空题

（1）数据仓库的多维数据模型可以有三种不同的形式，分别是：

、

和

（2）给定基本方体，方体的物化有三种选择：

、和

（3）著名的数据仓库系统设计师W.H.Inmon认为，数据仓库与其他数据存储系统的区别

的四个特征是：

、、和

（4）在数据访问模式上，数据仓库以为主，而日常应用数据库则以为主。

（5）数据立方体度量可以根据其所使用的聚集函数分为三类，分别是：

、

和

（6）关于数据仓库的设计，四种不同的视图必须考虑，分别是：

、、

、

（7）OLAP服务器的类型主要包括：

、和

（8）求和函数sum（）是一个的函数。

（9）方体计算的主要挑战是和之间的矛盾。

二、单选题

（1）下面的数据操作中，哪些操作不是多维数据模型上的OLAP操作

A、上卷（roll-up）B、选择（select）C、切片（slice）D、转轴（pivot）

（2）以下哪个范围是数据仓库的数据库规模的一个合理范围

A、1－100MB、100M－10GC、10－1000GD、100GB－数TB

（3）存放最低层汇总的方体称为：

A、顶点方体B、方体的格C、基本方体D、维

（4）哪种OLAP操作可以让用户在更高的抽象层，更概化的审视数据？

A、上卷B、下钻C、切块D、转轴

（5）平均值函数avg（）属于哪种类型的度量？

A、分布的B、代数的C、整体的D、混合的

三、多选题

（1）OLAP系统和OLTP系统的主要区别包括（）。

A、OLTP系统主要用于管理当前数据，而OLAP系统主要存放的是历史数据；

B、在数据的存取上，OLTP系统比OLAP系统有着更多的写操作；

C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多；

D、OLAP系统中往往存放的是汇总的数据，而OLTP系统中往往存放详细的数据。

（2）从结构的角度看，数据仓库模型包括以下几类：

A、企业仓库B、数据集市C、虚拟仓库D、信息仓库

（3）数据仓库的三层架构主要包括以下哪三部分？

A、数据源B、数据仓库服务器C、OLAP服务器D、前端工具

（4）以下哪些是数据仓库的主要应用？

A、信息处理B、互联网搜索C、分析处理D、数据挖掘

四、简答题

（1）为什么在进行联机分析处理（OLAP）时，我们需要一个独立的数据仓库，而不是直接在日常操作的数据库上进行。

（2）为什么说数据仓库具有随时间而变化的特征？

（2）试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法（update-driven），而不愿使用查询驱动（query-driven）的方法？

（3）请简述几种典型的多维数据的OLAP操作

（5）为什么说相对于日常的应用数据库，数据仓库中的数据更加不容易丢失？

（6）假定Big_University的数据仓库包含如下4个维：

student,course,semester和instructor；2个度量：

count和avg_grade。

在最低得到概念层（例如，对于给定的学生、课程、学期和教师的组合），度量avg_grade存放学生的实际成绩。

在较高的概念层，avg_grade存放给定组合的平均成绩。

（a）为数据仓库画出雪花模式图。

（b）由基本方体[student,course,semester,instructor]开始，为列出Big_University每个学生的CS课程的平均成绩，应当使用哪些OLAP操作（如，由学期上卷到学年）。

（c）如果每维有5层（包括all），如student

（7）在数据仓库中，元数据的主要用途包括哪些？

（8）数据仓库后端工具和程序包括哪些？

五、计算题

（1）假定基本立方体有三个维A，B，C，其单元数如下：

|A|=100,000，|B|=10,000，|C|=1,000，假定分块将每维分成10部分

a.请指出方体中内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序；

b.分别求这两个次序下计算二维平面所需要的内存空间的大小。

第三章数据预处理

一、填空题

（1）进行数据预处理时所使用的主要方法包括：

、、

和

（2）处理噪声数据的方法主要包括：

、、

和

（3）模式集成的主要问题包括：

和

（4）数据概化是指：

（5）数据压缩可分为：

和两种类型。

（6）进行数值归约时，三种常用的有参方法是：

、

和

（7）数据离散度的最常用度量是、和

二、单选题

（1）数据归约的目的是（）

A、填补数据种的空缺值B、集成多个数据源的数据

C、得到数据集的压缩表示D、规范化数据

（2）下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？

A.数据清理B.数据集成C.数据变换D.数据归约

（3）进行数据规范化的目的是（）

A.去掉数据中的噪声

B.对数据进行汇总和聚集

C.使用概念分层，用高层次概念替换低层次“原始”数据

D.将属性按比例缩放，使之落入一个小的特定区间

（4）数据的噪声是指（）

A、孤立点B、空缺值

C、测量变量中的随即错误或偏差D、数据变换引起的错误

（5）那种数据变换的方法将数据沿概念分层向上汇总

A、平滑B、聚集C、数据概化D、规范化

（6）（）通过将属性域划分为区间，从而减少给定连续值的个数。

A.概念分层B.离散化C.分箱D.直方图

三、多选题

（1）下面哪些问题是我们进行数据预处理的原因？

A.数据中的空缺值B.噪声数据

C.数据中的不一致性D.数据中的概念分层

（2）下面的度量中，哪些是数据离散度的度量？

A.中位数B.标准差C.模D.中间四分位数区间

（3）数据清理的目的是处理数据中的（）

A、空缺值B、噪声数据C、不一致数据D、敏感数据

（4）下列哪些是数据变换可能涉及的内容？

A、数据压缩B、数据概化C、维归约D、规范化

（5）以下哪些原因可能引起空缺值

A、设备异常

B、命名规则的不一致

C、与其他已有数据不一致而被删除

D、在输入时，有些数据因为得不到重视而没有被输入

四、简答题

（1）常用的数值属性概念分层的方法有哪些？

（2）典型的生成分类数据的概念分层的方法有哪些？

（3）在现实世界的数据中，元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法。

（4）常见的数据归约策略包括哪些？

第四章数据挖掘原语、语言和系统结构

一、填空题

（1）概念分层有四种类型，分别是：

、、和

（2）常用的四种兴趣度的客观度量是：

、、和

（3）同时满足和的关联规则称为强关联规则。

二、单选题

（1）以下DMQL片断：

mineassociationsasbuyingHabits

matchingP（X:

customer,W）∧Q（X,Y）=>buys（X,Z）

所指定的挖掘知识类型是：

A、特征化B、区分C、关联D、分类

（2）以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能？

A、不耦合B、松散耦合C、半紧密耦合D、紧密耦合

三、多选题

（1）以下哪些OLAP操作是和概念分层紧密相关的？

A、上卷B、切片C、下钻D、切块

四、简答题

（1）定义数据挖掘任务的原语，主要应该包括哪些部分？

（2）为什么需要数据挖掘原语和语言来指导数据挖掘？

（3）描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别：

不耦合、松散耦合、半紧密耦合和紧密耦合。

（4）数据挖掘的GUI可能包含哪些部分？

第五章概念描述：

特征化与比较

一、填空题

（1）概念描述由和组成。

（2）一般来说，进行类比较的过程应该包括以下几个步骤：

、、

和

（3）从数据分析的角度看，数据挖掘可以分为两类：

和

（4）属性相关分析的基本思想是计算某种度量，用于量化属性与给定类或概念的相关性。

可采用的度量包括：

、、和

（5）数据离散度的最常用度量包括：

、和

二、单选题

（1）类比较的过程中，我们在哪个步骤得到主目标类关系/方体和主对比类关系/方体？

A、数据收集B、维相关分析C、同步概化D、导出比较的表示

（2）哪种图形显示方法常用于描述两个变量间的依赖模式？

A、直方图B、分位数图C、散布图D、LOESS曲线

（3）哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势？

A、直方图B、分位数图C、散布图D、LOESS曲线

（4）哪种图形显示方法用于显示所有的数据，允许用户评估总的情况和不寻常情况的出现？

A、直方图B、分位数图C、散布图D、LOESS曲线

（5）中心趋势度量模（mode）是指

A、算术平均值B、数据集中出现频率最高的值C、最大值D、最小值

三、多选题

（1）下面哪些是常用的数据概化方法？

A、离散化B、数据立方体（OLAP技术）

C、判定归纳树D、面向属性的归纳

（2）使用数据立方体方法进行数据概化的优点包括：

A、数据概化的一种有效实现

B、可以计算各种不同的度量值

C、受数据类型和度量类型的约束比较少

D、概化和特征分析通过一系列的数据立方体操作完成，简单高效

（3）以下哪些是属于中心趋势的度量

A、平均值B、标准差C、五数概括D、中位数

四、简答题

（1）简述类比较的过程。

（2）简述面向属性归纳的基本思想，并说明什么时候使用属性删除，什么时候使用属性概化。

（3）简述概念描述的属性相关分析的基本步骤。

（4）简要叙述概念描述和OLAP之间的主要区别。

（5）为什么进行属性相关分析？

（6）简述进行概念描述时，面向数据库的方法和机器学习的主要区别。

（7）什么是概念描述的增量挖掘？

第六章大型数据库中的关联规则挖掘

一、填空题

（1）关联规则挖掘中，两个主要的兴趣度度量是：

和

（2）Aprior算法包括和两个基本步骤

（3）项集的频率是指

（4）大型数据库中的关联规则挖掘包含两个过程：

和

（5）根据规则中所处理的值类型，关联规则可分为：

和

（6）Apriori性质是指：

（7）挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法：

、

和

（8）对于频繁项集挖掘，在挖掘过程中使用的约束包括以下五种类型：

、

、、和

（9）在多维关联规则挖掘中，我们搜索的不是频繁项集，而是

二、单选题

（1）下列几种数据挖掘功能中，（）被广泛的用于购物篮分析。

A、关联分析B、分类和预测C、聚类分析D、演变分析

（2）支持度（support）是衡量兴趣度度量（）的指标。

A、实用性B、确定性C.、简洁性D、新颖性

（3）置信度（confidence）是衡量兴趣度度量（）的指标。

A、简洁性B、确定性C.、实用性D、新颖性

（4）根据关联分析中所处理的值类型，可以将关联规则分类为：

（）

A、布尔关联规则和量化关联规则B、单维关联规则和多维关联规则

C、单层关联规则和多层关联规则D、简答关联规则和复杂关联规则

（5）规则：

age（X,”19-25”）∧buys（X,“popcorn”）=>buys（X,“coke”）是一个

A、单维关联规则B、多维关联规则

C、混合维关联规则D、不是一个关联规则

三、多选题

（1）根据关联分析中所涉及的抽象层，可以将关联规则分类为：

（）

A、布尔关联规则B、单层关联规则C、多维关联规则D、多层关联规则

（2）根据关联分析中所涉及的数据维，可以将关联规则分类为：

（）

A、布尔关联规则B、单维关联规则C、多维关联规则D、多层关联规则

（3）Apriori算法所面临的主要的挑战包括：

A、会消耗大量的内存B、会产生大量的候选项集

C、对候选项集的支持度计算非常繁琐D、要对数据进行多次扫描

四、简答题

（1）对于具有递减支持度的多层关联规则挖掘，分别都有哪些搜索策略？

各有什么特点？

（2）给出一个例子，表明强关联规则中的项可能实际上是负相关的。

（3）简述在多层关联规则挖掘中，在不同的层使用一致的支持度的优缺点。

（4）什么是简洁性约束？

第七章分类和预测

一、填空题

（1）通过对数据进行预处理，可以提高分类和预测过程的、

和

（2）防止分类中的过分适应的两种方法分别是：

和

二、单选题

（1）下面哪种分类方法是属于神经网络学习算法？

（）

A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理

（2）下面哪种分类方法是属于统计学的分类方法？

（）

A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理

（3）下列哪个描述是正确的？

（）

A、分类和聚类都是有指导的学习C、分类是有指导的学习，聚类是无指导的学习

B、分类和聚类都是无指导的学习D、分类是无指导的学习，聚类是有指导的学习

三、简答题

（1）简述判定树分类的主要步骤。

（2）在判定树归纳中，为什么树剪枝是有用的？

（3）为什么朴素贝叶斯分类称为“朴素”的？

简述朴素贝叶斯分类的主要思想。

（4）请简述判定树归纳算法的基本策略。

（5）对分类和预测方法进行比较和评估的标准都有哪些？

（6）简述数据分类的两步过程。

（7）简述后向传播分类的优缺点。

四、算法题

（1）使用判定树归纳算法，根据顾客年龄age（分为3个年龄段：

<18，18...23，>23），收入income（取值为high，medium，low），是否为student（取值为yes和no），信用credit_rating等级（取值为fair和excellent）来判定用户是否会购买PCGame，即构建判定树buys_PCGame，假设现有的数据经过第一次划分之后得到如下图所示结果，并根据该结果对每一个划分中的各个属性计算信息增益

对age<18的顾客：

Gain（income）=0.022，Gain（student）=0.162，Gain（credit_rating）=0.323

对age>23的顾客：

Gain（income）=0.042，Gain（student）=0.462，Gain（credit_rating）=0.155

请根据以上结果绘制出判定树buys_PCGame，来判定用户是否会购买PCGame。

age

<1818…23>23

income

student

credit_rating

class

Income

student

credit_rating

class

high

fair

high

fair

medium

yes

fair

high

yes

excellent

yes

high

fair

medium

yes

fair

yes

medium

yes

excellent

yes

low

yes

fair

yes

low

excellent

yes

low

excellent

income

student

credit_rating

class

high

fair

yes

medium

yes

fair

yes

high

fair

yes

medium

yes

excellent

yes

第八章聚类分析

一、填空题

（1）在数据挖掘中，常用的聚类算法包括：

、、、基于网格的方法和基于模型的方法。

（2）聚类分析常作为一个独立的工具来获得

（3）一个好的聚类分析方法会产生高质量的聚类，具有两个特征：

和

（4）许多基于内存的聚类算法所常用的两种数据结构是和

（5）基于网格的聚类方法的优点是：

（6）孤立点产生的主要原因包括：

和

（7）在基于统计的孤立点检测中，常用于不一致性检验的参数包括：

、

和

二、单选题

（1）下面那种数据挖掘方法可以用来检测孤立点？

A.概念描述B.分类和预测C.聚类分析D.演变分析

（2）以下哪个指标不是表示对象间的相似度和相异度

A、Euclidean距离B、Manhattan距离C、Eula距离D、Minkowski距离

（3）以下哪种聚类方法可以发现任意形状的聚类？

A、划分的方法B、基于模型的方法C、基于密度的方法D、层次的方法

三、简答题

（1）数据挖掘对聚类分析有哪些要求？

（2）简述基于划分的聚类方法。

划分的准则是什么？

（3）列举孤立点挖掘的常见应用。

（4）简单地描述如何计算由如下类型的变量描述的对象间的相异度：

a）不对称的二元变量

b）标称变量

c）比例标度型（ratio-scaled）变量

d）数值型的变量

（5）给出一个特定的聚类方法如何被综合使用的例子，例如，什么情况下一个聚类算法被用作另一个算法的预处理步骤。

第九章电子商务与数据挖掘

一、填空题

（1）Web数据挖掘通常包括、和三种形式。

（2）进行WebUsageMining主要是通过对系统日志信息的数据挖掘，常用的数据源包括：

、和。

二、简答题

（1）列举WEB日志的字段。

（2）跟其他应用领域相比，在电子商务中进行数据挖掘有哪些优势？

（3）列举WEB使用挖掘（WebUsageMining）的应用。

（4）基于Web日志的用户访问模式挖掘有什么缺点？

（5）电子商务中进行数据挖掘有哪些难点？

作业答案

第一章引言

一、填空题

（1）数据清理，数据集成，数据选择，数据变换，数据挖掘，模式评估，知识表示

（2）算法的效率、可扩展性和并行处理

（3）统计学、数据库技术和机器学习

（4）WEB挖掘

（5）一些与数据的一般行为或模型不一致的孤立数据

二、单选题

（1）B；

（2）D；（3）D；（4）B；（5）A；（6）B；（7）C；（8）E；

三、简答题

（1）什么是数据挖掘？

答：

数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

（2）一个典型的数据挖掘系统应该包括哪些组成部分？

答：

一个典型的数据挖掘系统应该包括以下部分：

数据库、数据仓库或其他信息库

数据库或数据仓库服务器

知识库

数据挖掘引擎

模式评估模块

图形用户界面

（3）请简述不同历史时代数据库技术的演化。

答：

1960年代和以前：

研究文件系统。

1970年代：

出现层次数据库和网状数据库。

1980年代早期：

关系数据模型,关系数据库管理系统（RDBMS）的实现

1980年代后期：

出现各种高级数据库系统（如：

扩展的关系数据库、面向对象数据库等等）以及面向应用的数据库系统（空间数据库，时序数据库，多媒体数据库等等。

1990年代：

研究的重点转移到数据挖掘,数据仓库,多媒体数据库和网络数据库。

2000年代：

人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML数据库和整合的信息系统。

（4）请列举数据挖掘应用常见的数据源。

（或者说，我们都在什么样的数据上进行数据挖掘）

答：

常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。

其中高级数据库系统和信息库包括：

空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产（legacy）数据库、文本数据库和万维网（WWW）等。

（5）什么是模式兴趣度的客观度量和主观度量？

答：

客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度，比如：

支持度、置信度等等；主观度量基于用户对数据的判断来衡量模式的兴趣度，比如：

出乎意料的、新颖的、可行动的等等。

（6）在哪些情况下

展开阅读全文