《数据挖掘》试题与答案.docx

资源描述

《数据挖掘》试题与答案.docx

《《数据挖掘》试题与答案.docx》由会员分享，可在线阅读，更多相关《《数据挖掘》试题与答案.docx（8页珍藏版）》请在冰豆网上搜索。

《数据挖掘》试题与答案.docx

《数据挖掘》试题与答案

一、解答题（满分30分，每小题5分）

1. 怎样理解数据挖掘和知识发现的关系？

请详细阐述之

⏹首先从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式；然后，调用相应的算法生成所需的知识；最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程，其最终目标是掌握数据的模式。

流程步骤：

先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择的数据子集；再作数据预处理，剔除错误或不一致的数据；然后进行数据简化与转换工作；再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型；最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些，请详细阐述之

时间序列数据挖掘的方法有：

1）、确定性时间序列预测方法:

对于平稳变化特征的时间序列来说，假设未来行为与现在的行为有关，利用属性现在的值预测将来的值是可行的。

例如，要预测下周某种商品的销售额，可以用最近一段时间的实际销售量来建立预测模型。

2）、随机时间序列预测方法:

通过建立随机模型，对随机时间序列进行分析，可以预测未来值。

若时间序列是平稳的，可以用自回归（AutoRegressive，简称

其它聚类方法:

STING（StatistaicalInformationGrid_basedmethod）是一种基于网格的多分辨率聚类技术，它将空间区域划分为矩形单元。

STING算法采用了一种多分辨率的方法来进行聚类分析，该聚类算法的质量取决于网格结构最低层的粒度。

如果粒度比较细，处理的代价会显著增加；但如果粒度较粗，则聚类质量会受到影响。

5．请阐述数据挖掘的基本过程及步骤

一、业务理解：

业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。

应该是对数据挖掘的目标有一个清晰的认识，知道利润所在，其中包括数据收集、数据分析和数据报告等步骤。

二、数据理解：

一旦商业对象和计划书确定完备，数据理解就考虑将所需要的数据。

这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。

三、数据准备：

确定可用的数据资源以后，需要对此进行筛选、清理、调整为所需要的形式。

数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。

更深层次的数据探索也可以在这一阶段进行，新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会。

四、建立模型：

数据模型建立是应用数据挖掘软件不不同的情景下获得结果的过程。

五、模型评估：

数据解释阶段是至关重要的，要对建立的模型是否能够达到问题解决的目的进行研究，即包括模型是否能够达到研究的目标；模型是否能够用合适的方法显示。

六、模型发布：

数据挖掘既可以应用于核实先前的假设，也可以应用于知识发现（识别未预期的有用的关系）。

6.为什么说强关联规则不一定都是有效的，请举例说明之。

并不是所有的强关联规则都是有效的。

例如，一个谷类早餐的零售商对5000名学生的调查的案例。

数据表明：

60%的学生打篮球，75%的学生吃这类早餐，40%的学生即打篮球吃这类早餐。

假设支持度阈值s=0.4，置信度阈值c=60%。

基于上面数据和假设我们可挖掘出强关联规则“（打篮球）→（吃早餐）”，因为其（打篮球）和（吃早餐）的支持度都大于支持度阈值，都是频繁项，而规则的置信度c=40%/60%=66.6%也大于置信度阈值。

然而，以上的关联规则很容易产生误解，因为吃早餐的比例为75%，大于66%。

也就是说，打篮球与吃早餐实际上是负关联的。

二、分析题（满分20分，每小题10分）

1、请分析关联规则挖掘方法中，项目集格空间理论、发展及其在数据挖掘中的应用价值。

项目集格空间理论

⏹Agrawal等人建立了用于事务数据库挖掘的项目集格空间理论（1993,Appriori属性）。

⏹定理（Appriori属性1）.如果项目集X是频繁项目集，那么它的所有非空子集都是频繁项目集。

⏹定理（Appriori属性2）.如果项目集X是非频繁项目集，那么它的所有超集都是非频繁项目集。

项目集格空间理论发展

⏹随着数据库容量的增大，重复访问数据库（外存）将导致性能低下。

因此，探索新的理论和算法来减少数据库的扫描次数和侯选集空间占用，已经成为近年来关联规则挖掘研究的热点之一。

⏹两个典型的方法：

Close算法、FP-tree算法

⏹

2、请分析Web挖掘技术所采用的方法及其在数据挖掘中的应用价值。

⏹Web挖掘依靠它所挖掘的信息来源可以分为：

⏹Web内容挖掘（WebContentMining）：

对站点的Web页面的各类信息进行集成、概化、分类等，挖掘某类信息所蕴含的知识模式。

⏹Web访问信息挖掘（WebUsageMining）：

Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。

通过分析日志记录中的规律，可以识别用户的忠实度、喜好、满意度，可以发现潜在用户，增强站点的服务竞争力。

⏹Web结构挖掘（WebStructureMining）：

Web结构挖掘是对Web页面之间的链接结构进行挖掘。

在整个Web空间里，有用的知识不仅包含在Web页面的内容之中，而且也包含在页面的链接结构之中。

对于给定的Web页面集合，通过结构挖掘可以发现页面之间的关联信息，页面之间的包含、引用或者从属关系等。

⏹从大量的信息中发现用户感兴趣的信息：

因特网上蕴藏着大量的信息，通过简单的浏览或关键词匹配的搜索引擎得到的是孤立而凌乱的“表面信息”，Web挖掘可以发现潜在的、丰富的关联信息。

⏹将Web上的丰富信息转变成有用的知识：

Web挖掘是面向Web数据进行分析和知识提取的。

因特网中页面内部、页面间、页面链接、页面访问等都包含大量对用户可用的信息，而这些信息的深层次含义是很难被用户直接使用的，必须经过浓缩和提炼。

⏹对用户进行信息个性化：

网站信息的个性化是将来的发展趋势。

通过Web挖掘，可以达到对用户访问行为、频度、内容等的分析，可以得到关于群体用户访问行为和方式的普遍知识，用以改进Web服务方的设计，提供个性化的服务。

三、证明题（满分16分）

1．证明频繁集的所有非空子集必须也是频繁的。

证明1

反证法。

根据定义，如果项集

满足最小支持度阈值

，则

不是频繁的，即

。

如果项A添加到

则结果项集间（即

）不可能比

更频繁出现。

因此，

也不是频繁的，即P（

）＜min_sup。

矛盾。

证明2设X是一个项目集，事务数据库T中支持X的元组数为s。

对X的任一非空子集为Y，设T中支持Y的元组数为s1。

根据项目集支持数的定义，很容易知道支持X的元组一定支持Y，所以s1≥s，即support（Y）≥support（X）。

按假设：

项目集X是频繁项目集，即support（X）≥minsupport，

所以support（Y）≥support（X）≥minsupport，因此Y是频繁项目集。

2．Apriori的一种变形将事务数据库D中的事务划分为若干个不重叠的部分。

证明在D中是频繁的任何项集至少在D中的一个部分中是频繁的。

证明：

给定频繁项集

和

的子集

，证明规则“

”的置信度不可能大于“

”的置信度。

其中，

是

的子集。

根据定义，规则

的置信度为：

表示项集A出现的次数规则

的置信度为：

规则

的置信度同理可得：

，又因为

是

的子集，

，所以规则“

”的置信度不可能大于“

”的置信度

四、算法分析题（满分14分）

1.描述决策树算法的主要思想。

⏹建造一个决策树，有五个主要步骤：

⏹根据已知的分类，从数据D中找到例子S。

⏹确定最佳谓词p用来分类。

一般首先在较粗的层次中寻找相关谓词，然后再在较为细化的层次。

⏹找到最佳的缓冲区大小和形状。

对于取样中的每个实体，它周围的区域被称为缓冲区。

目标是选择一个能产生对测试集中的类型进行最不同的缓冲区。

⏹使用p和C，对每个缓冲区归纳谓词。

⏹使用泛化的谓词和ID3建造二叉树T。

空间决策树算法

输入：

空间数据库D；概念层次C；预定的类别。

输出：

二叉决策树T。

（1）根据预定的类别，从数据D中找到例子S；

（2）确定最佳谓词p用来分类；

（3）找到最佳的缓冲区大小和形状；

（4）使用p和C，对每个缓冲区归纳谓词；

（5）使用泛化的谓词和ID3建造二叉树T.

2.指出算法的不足之处，应该从哪些方面增强算法的功能和性能。

对任何数量的训练集，总是能找到相应的多个线性判别函数把它分类，但是这样生成的树的深度可能太大．因为，虽然使用了最好的特征进行分类，但还是可能存在一些特征对分类很有用，尽管不是像最好的特征那样有用，却没有用到．一个直觉是：

有些特征对某些类别有效，但是对另外一些则无效，甚至可能有副作用，如果能把这些特征选择出来，一次就能最大限度地把多个类别分开．MBDT正是基于这个直觉．MBDT通过在每个子集上选择最能有效分类的那些特征使用马氏距离进行分类．如果某个子集无法有效分类（通过阈值判断），就选择最好的一个进行分类．由于事先需要有标签的分类训练集，所以这是有监督的算法．

五、应用题（满分20分）

请利用Apriori算法求项目集I={I1，I2，I3，I4，I5}中，根据下列事务表：

TID

项ID的列表

T100

T200

T300

T400

T500

T600

T700

T800

T900

I1，I2，I4

I1，I3

I2，I4

I1，I4，I5

I1，I3

I2，I3

I1，I4

I1，I2，I4，I5

I1，I2，I3

完成：

（1）假定最小支持度设定为2，请找出了所有的频繁项集；

（2）假定最小置信度设定为65％，请求出最大项目集的关联规则；

（3）分析你所得到的结论。

展开阅读全文