数据挖掘概念与技术课后题答案汇总汇总Word文档格式.docx-资源下载

数据挖掘概念与技术课后题答案汇总汇总Word文档格式.docx

1、条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。挖掘的数据类型：这种原语指明了所要执行的特定数据挖掘功能，如特征化、区分、关联、分类、聚类、或演化分析。同样，用户的要求可能更特殊，并可能提供所发现的模式必须匹配的模版。这些模版或超模式（也被称为超规则）能被用来指导发现过程。背景知识：这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导知识发现过程，并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的形式。模式兴趣度度量：这种原语允许用户指定功能，用于从知识中分割不感兴趣的模式，并且被用来指导挖掘过程，也可评估发现的模式。这样就允许用户限制在

2、挖掘过程返回的不感兴趣的模式的数量，因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。发现模式的可视化：这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地将知识传给用户，数据挖掘系统应该能将发现的各种形式的模式展示出来，正如规则、表格、饼或条形图、决策树、立方体或其它视觉的表示。1.41.13 描述以下数据挖掘系统与数据库或数据仓库集成方法的差别：不耦合、松散耦合、半紧耦合和紧密耦合。你认为哪种方法最流行，为什么？数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下。不耦合：数据挖掘系统用像平面文件

3、这样的原始资料获得被挖掘的原始数据集，因为没有数据库系统或数据仓库系统的任何功能被作为处理过程的一部分执行。因此，这种构架是一种糟糕的设计。松散耦合：数据挖掘系统不与数据库或数据仓库集成，除了使用被挖掘的初始数据集的源数据和存储挖掘结果。这样，这种构架能得到数据库和数据仓库提供的灵活、高效、和特征的优点。但是，在大量的数据集中，由松散耦合得到高可测性和良好的性能是非常困难的，因为许多这种系统是基于内存的。半紧密耦合：一些数据挖掘原语，如聚合、分类、或统计功能的预计算，可在数据库或数据仓库系统有效的执行，以便数据挖掘系统在挖掘- 查询过程的应用。另外，一些经常用到的

4、中间挖掘结果能被预计算并存储到数据库或数据仓库系统中，从而增强了数据挖掘系统的性能。紧密耦合：数据库或数据仓库系统被完全整合成数据挖掘系统的一部份，并且因此提供了优化的数据查询处理。这样的话，数据挖掘子系统被视为一个信息系统的功能组件。这是一中高度期望的结构，因为它有利于数据挖掘功能、高系统性能和集成信息处理环境的有效实现。从以上提供的体系结构的描述看，紧密耦合是最优的，没有值得顾虑的技术和执行问题。但紧密耦合系统所需的大量技术基础结构仍然在发展变化，其实现并非易事。因此，目前最流行的体系结构仍是半紧密耦合，因为它是松散耦合和紧密耦合的折中。1.51.14 描

5、述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。第2 章数据预处理2.12.2 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄频率1520051545015203002050150050807008011044计算数据的近似中位数值。先判定中位数区间：N=200+450+300+1500+700+44=3194 ； N/2=1597 200+450+300=95015972450=950+1500 ； 2050 对应中位数区间。我们有： L1=20 ，N=3197，（freq） l =950 ， freq median=1500 ， width =30 ，使用公式（

6、2.3 ）：N / 2 freq l 3197 / 2 950median L1 width 20 30 32.97freq median 1500 median=32.97 岁。2.22.4 假定用于分析的数据包含属性 age。数据元组的 age 值（以递增序）是： 13，15，16，16，19，20，20，21，22，22， 25，25，25， 25，30，33，33，35， 35，35，35，36，40，45，46，52，70。（a）该数据的均值是什么？中位数是什么？（b）该数据的众数是什么？讨论数据的峰（即双峰、三峰等）。（c）数据的中列数是什么？（d）你能（粗略地）找出数据的第一

7、个四分位数（ Q1）和第三个四分位数（ Q3）吗？（e）给出数据的五数概括。（f）画出数据的盒图。（g）分位数分位数图与分位数图的不同之处是什么？N均值是： x 1 x 809 / 27 29.96 30 （公式 2.1 ）。中位数应是第 14N i 1 i个，即 x14=25= Q2 。这个数集的众数有两个： 25 和 35 ，发生在同样最高的频率处，因此是双峰众数。数据的中列数是最大术和最小是的均值。即： midrange =（70+13）/2=41.5 。（d）你能（粗略地）找出数据的第一个四分位数（Q1）和第三个四分位数（ Q3）吗？数据集的第一个四分位数应发生在 2

8、5%处，即在（N+1）/4=7 处。所以：Q1=20。而第三个四分位数应发生在 75%处，即在 3（N+1）/4=21 处。 Q3=35一个数据集的分布的 5 数概括由最小值、第一个四分位数、中位数、第三个并且这些数据是： 13、分位数图是一种用四分位数、和最大值构成。它给出了分布形状良好的汇总， 20、25、35、70。（f）画出数据的盒略。来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样，他可以展示所有数的分位数信息，而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来。但分位数分位数图用纵轴表示一种单变量分布的分位数，用横轴表示另一

9、单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域，且点按照两种分布分位数值展示。一条线（ y=x ）可画到图中，以增加图像的信息。落在该线以上的点表示在 y 轴上显示的值的分布比 x 轴的相应的等同分位数对应的值的分布高。反之，对落在该线以下的点则低。2.32.7 使用习题 2.4 给出的 age 数据回答下列问题：（a）使用分箱均值光滑对以上数据进行光滑，箱的深度为 3。解释你的步骤评述对于给定的数据，该技术的效果。（b）如何确定数据中的离群点？（c）对于数据光滑，还有哪些其他方法？用箱深度为 3 的分箱均值光滑对以上数据进行光滑需要以下步骤：步骤 1：对数据排序。（

10、因为数据已被排序，所以此时不需要该步骤。）步骤 2：将数据划分到大小为 3 的等频箱中箱 1：13，15，16 箱 2：16 ，19，20箱 4：22，25，25 箱 5：25 ，25，30步骤 3：计算每个等频箱的算数均值。步骤 4：用各箱计算出的算数均值替换每箱中的每个值。箱 1：44/3， 44/3 ，44/3 箱 2：55/3 ， 55/3， 55/3 箱 3：21，21，2124，24，24 箱 5：80/3，80/3，80/3 箱 6：101/3，101/3 ，101/3箱 7：35，35，35 箱 8： 121/3 ， 121/3 ， 121/3 箱 9：56，56，56 （

11、b）如何确定数据中的离群点？聚类的方法可用来将相似的点分成组或“簇” ，并检测离群点。落到簇的集外的值可以被视为离群点。作为选择，一种人机结合的检测可被采用，而计算机轻松的检验，而不必检查整个数据集。光均线到（c）对于数据光滑，还有哪些其他方法？其它可用来数据光滑的方法包括别的分箱光滑方法，如中位数光滑和箱边界滑。作为选择，等宽箱可被用来执行任何分箱方式，其中每个箱中的数据范围是常量。除了分箱方法外，可以使用回归技术拟合成函数来光滑数据，如通过性或多线性回归。分类技术也能被用来对概念分层，这是通过将低级概念上卷高级概念来光滑数据。2.42.10 如下规范化方法

12、的值域是什么？（a）min-max 规范化。（b）z-score 规范化。（c）小数定标规范化。值域是new_min, new_max 。（b） z-score 规范化。值域是（old _min mean）/ ，（old_max mean）/ ，总的来说，对于所有可能的数据集的值域是（， +）。（c）小数定标规范化。值域是（ 1.0, 1.0）。2.52.12 使用习题 2.4 给出的 age 数据，回答以下问题：（a）使用 min-max 规范化将 age 值 35 变换到 0.0 ， 1.0 区间。（b）使用 z-score 规范化变换 age 值 35，其中 age 的标

13、准差为 12.94 岁（c）使用小数定标规范化变换 age 值 35 。（d）对于给定的数据，你愿意使用哪种方法？陈述你的理由。（a）使用 min-max 规范化将 age 值 35 变换到 0.0 ， 1.0 区间。 min A=13 ，maxA=70， new_min A=0.0 ， new _max A=1.0 ，而 v=35 ，v min Av new _ maxA new _ min A new _ minAmaxA min A35 13 1.0 0.0 0.0 0.386070 13（b）使用 z-score 规范化变换 age 值 35，其中 age 的标准差为 12.94

14、岁A 13 15 2 16 19 2 20 21 2 22 4 252730 2 33 4 35 36 40 45 46 52 70或N s 2Ai A167 .4986 ， s 2sA 12.9421v=35略。2.62.14 假设 12 个销售价格记录组已经排序如下： 5， 10，11，13， 15，35，50，55，72，92，204，215。使用如下每种方法将其划分成三个箱。（a）等频（等深）划分。（b）等宽划分。（c）聚类。解答：bin15,10,11,1315,35,50,55bin1 72,91,204,215每个区间的宽度是：（215-5）/3=705,10,11,13,1

15、5,35,50,55,7291204,215我们可以使用一种简单的聚类技术：用 2 个最大的间隙将数据分成 3 个箱。5,10,11,13,1535,50,55,72,912.72.15 使用习题 2.4 给出的 age 数据，（a）画出一个等宽为 10 的等宽直方图；（b）为如下每种抽样技术勾画例子： SRSWOR ， SRSWR ，聚类抽样，分层抽样。使用大小为 5 的样本和层“青年” ，“中年”和“老年” 。（a）画出一个等宽为 10 的等宽直方图；765432100 15 25 35 45 55 65 SRSWOR ，SRSWR ，聚类抽样，分层抽样。元组：T113T1022T1

16、935T215T1125T20T316T12T21T4T13T2236T519T14T2340T620T1530T2445T7T1633T2546T821T17T2652T9T18T2770SRSWOR 和 SRSWR ：不是同次的随机抽样结果可以不同，但前者因无放回所以不能有相同的元组。SRSWOR（n=5）SRSWR聚类抽样：设起始聚类共有 6 类，可抽其中的 m 类。Sample1Sample2Sample3Sample4Sample5Sample6T 10Sample2 Sample5T 21T 22T 23T 24分层抽样：按照年龄分层抽样时，不同的随机试验结果不同youngmid

17、dle ageseniorT 12T 27Senio r2.855555555555555555555555555第 3 章数据仓库与 OLAP技术概述3.13.4 假定 BigUniversity 的数据仓库包含如下 4 个维：student（student_name, area_id , major, status, university）， course（course_name, department）， semester（semester, year）和 instructor（dept, rank）； 2 个度量： count 和 avg_grade 。在最低概念层，度

18、量 avg_grade 存放学生的实际课程成绩。在较高概念层， avg_grade 存放给定组合的平均成绩。（a）为该数据仓库画出雪花形模式图。（b）由基本方体 student, course, semester, instructor 开始，为列出 BigUniversity 每个学生的 CS 课程的平均成绩，应当使用哪些特殊的 OLAP 操作。（c）如果每维有 5 层（包括 all ），如“ studentmajorstatusuniversityall ”，该立方体包含多少方体？a）为该数据仓库画出雪花形模式图。雪花模式如图所示。b）由基本方体 stud

19、ent, course, semester, instructor 开始，为列出 BigUniversity 每个学生的 CS 课程的平均成绩，应当使用哪些特殊的 OLAP 操作。这些特殊的联机分析处理（ OLAP ）操作有：i.沿课程（ course）维从 course_id “上卷”到 department 。ii.沿学生（ student）维从 student_id “ 上卷”到 university 。iii.取 department= “ CS ” 和 university= “ Big University ”，沿课程（ course）维和学生（ student）维切片

20、。iv.沿学生（ student）维从 university 下钻到 student_name 。c）如果每维有 5 层（包括 all ），如“ student这个立方体将包含 54=625 个方体。第四章4.12008-11-294.2有几种典型的立方体计算方法，4.3题 4.12 考虑下面的多特征立方体查询：按 item ， regio n， month 的所有子集分组，对每组找出 2004 年的最小货架寿命，并对价格低于 100 美元、货架寿命在最小货架寿命的 1.251.5 倍之间的元组找出总销售额部分。d）画出该查询的多特征立方体图。e）用扩充的 SQL 表示该查询。f）这是一

21、个分布式多特征立方体吗？为什么？（a）画出该查询的多特征立方体图。 R 0R1（ 1.25*min（shelf）and 1.5*min（shelf）（b）用扩充的 SQL 表示该查询。select item, region, month, Min（shelf）, SUM（R1）fromPurchase whereyear=2004cube by item,region, month: R1such that R1.shelf 1.25*MIN（Shelf） and （R1.Shelf 1.5*MIN（Shelf） andR1.Price100（c）这是一个分布式多特征立方体吗？为什么？

22、这不是一个分布多特征立方体，因为在“ such that ”语句中采用了“”条件。4.42008-11-294.52008-11-29第五章5.1Aprio ri 算法使用子集支持度性质的先验知识。5.25.2.2 节介绍了由频繁项集产生关联规则的方法。提出了一个更有效的方法。解释它为什么比 5.2.2 节的方法更有效。（提示：考虑将习题 5.1（b）和习题5.1（c）的性质结合到你的设计中。）5.3 数据库有 5 个事物。设min_sup=60%min_conf=80 。TID购买的商品T100M, O, N, K, E,YT200D, O, N, K, E,Y T300M, A, K, ET400

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？