ImageVerifierCode 换一换
格式:DOCX , 页数:14 ,大小:31.52KB ,
资源ID:16946291      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/16946291.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘概念与技术部分习题答案Word文件下载.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据挖掘概念与技术部分习题答案Word文件下载.docx

1、 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。 年龄 频率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44 计算数据的近似中位数值。 解答: 先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 200+450+300=95015972450=950+1500; 2050 对应中位数区间。 median= 岁。 假定用于分析的数据包含属性age。数据元组的age 值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,

2、35,35,35,35,36,40,45,46,52,70。(a) 该数据的均值是什么中位数是什么均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=中位数应是第14个,即x14=25=Q2。(b) 该数据的众数是什么讨论数据的峰(即双峰、三峰等)。这个数集的众数有两个:25 和35,发生在同样最高的频率处,因此是双峰众数。(c) 数据的中列数是什么数据的中列数是最大数和最小数的均值。即:midrange=(70+13)/2=。(d) 你能(粗略地)找出数据的第一个四分

3、位数(Q1)和第三个四分位数(Q3)吗数据集的第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7 处。所以:Q1=20。而第三个四分位数应发生在75%处,即在3(N+1)/4=21 处。Q3=35(e) 给出数据的五数概括。一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。(f) 画出数据的盒图。 (g) 分位数分位数图与分位数图的不同之处是什么分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息

4、,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:(a)计算年龄和脂肪百分比的均值、中位数和标准差.年龄均值=(23+23+27+27+39+41+47+49+50+ 52+54+54+56+5

5、7+58+58+60+61)/18=836/18=, 中位数= (50+52)/2=51, 标准差=方差的平方根=开根号( 1/n(Xi)2-1/n(Xi)2)=开根号 1/18=.脂肪百分比均值=, 中位数=, 标准差= . (b)绘制年龄和脂肪百分比的盒图(c)根据这两个属性,绘制散布图,各q-q图 q-q图 散布图(d)根据z-score 规范化来规范化这两个属性(P46)(e)计算相关系数(皮尔逊积矩系数). 这两个变量是正相关还是负相关ra,b=(ai-A)(bi-B)/NAB=(aibi)-NAB)/NAB=(aibi)-18*)/18*=相关系数是。变量呈正相关。 使用习题 给出

6、的age 数据回答下列问题: (a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。 评述对于给定的数据,该技术的效果。 (b) 如何确定数据中的离群点 (c) 对于数据光滑,还有哪些其他方法 解答:评述对于给定的数据,该技术的效果。 用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤: 步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。) 步骤2:将数据划分到大小为3 的等频箱中。 箱1:13,15,16 箱2:16,19,20 箱3:20,21,22 箱4:22,25,25 箱5:25,25,30 箱6:33,33,35 箱7:35,35,35 箱8:

7、36,40,45 箱9:46,52,70 步骤3:计算每个等频箱的算数均值。 步骤4:用各箱计算出的算数均值替换每箱中的每个值。 箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21 箱4:24,24,24 箱5: 80/3 ,80/3, 80/3 箱 6: 101/3,101/3, 101/3 箱7:121/3,121/3,121/3 箱9:56,56,56 聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。这些可能的离群

8、点能被用人工轻松的检验,而不必检查整个数据集。 其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。 如下规范化方法的值域是什么(a) min-max 规范化。值域是new_min, new_max。(b) z-score 规范化。值域是(old_minmean)/,(old_maxmean)/,总的来说,对于所有可能的数据集的值域是(,+)。(c)

9、小数定标规范化。值域是(,。 使用习题 给出的 age 数据,回答以下问题:(a) 使用 min-max 规范化将 age 值 35 变换到,区间。(b) 使用 z-score 规范化变换 age 值 35,其中 age 的标准差为 岁。(c) 使用小数定标规范化变换 age 值 35。(d) 对于给定的数据,你愿意使用哪种方法陈述你的理由。 假设 12 个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。(a) 等频(等深)划分。(b) 等宽划分。 (c) 聚类。bin15,10,11,1315,35,50

10、,55bin1 72,91,204,215每个区间的宽度是:(215-5)/3=705,10,11,13,15,35,50,55,7291204,215(c) 聚类。我们可以使用一种简单的聚类技术:用 2 个最大的间隙将数据分成 3 个箱。5,10,11,13,1535,50,55,72,91 使用习题 给出的 age 数据,(a) 画出一个等宽为 10 的等宽直方图;(b) 为如下每种抽样技术勾画例子:SRSWOR,SRSWR ,聚类抽样,分层 抽样。使用大小为 5 的样本和层“青年”,“中年”和“老年”。8765432115 25 35 45 55 65元组:T 113T 1022T 19

11、35T 215T 1125T 20T 316T 12T 21T 4T 13T 2236T 519T 14T 2340T 620T 1530T 2445T 7T 1633T 2546T 821T 17T 2652T 9T 18T 2770SRSWOR 和 SRSWR:不是同次的随机抽样结果可以不同,但前者因无放回所以不能有相同的元组。SRSWOR(n=5)SRSWRT11聚类抽样:设起始聚类共有 6 类,可抽其中的 m 类。Sample1Sample2Sample3Sample4Sample5Sample6T6T7T8T9Sample2 Sample5T21T22T23T24T25T1young

12、middle ageT2T3T4T5seniorSenio r 假定数据仓库包含三维:time,doctor和patient;和两个度量:count和charge;其中,charge是医生对病人一次诊治的收费。(a)列举三种流行的数据仓库建模模式三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。(b)使用(a)列举的模式之一,画出上面的数据仓库的模式图 数据仓库的星形模型(C)由基本方体day,doctor,patient开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作沿课程(course)维从course_id“上卷”到department。 沿时间(ti

13、me)维从 day “上卷”到 year。 取 time=2004,对维 time作“切片” 操作 沿病人(patient)维从 个别病人 “上卷”到 全部病人。(d)为得到同样结果,写一个SQL查询。假定数据存放在关系数据库中,其模式为fee(day,month,year,doctor,hospital,patient,count,charge)。SQL查询语句如下:select doctor, SUM(charge) from feewhere year=2004group by doctor 假定 BigUniversity 的数据仓库包含如下 4 个维:student(student_

14、name,area_id , major, status, university) , course(course_name, department) , semester(semester, year) 和 instructor(dept, rank);2 个度量:count 和 avg_grade。 在最低概念层, 度量 avg_grade 存放学生的实际 课程成绩。在较高概念层, avg_grade 存放给定组合的平均成绩。(a) 为该数据仓库画出雪花形模式图。(b) 由 基 本 方 体 student, course, semester, instructor 开 始 , 为 列 出

15、BigUniversity 每个学生的 CS 课程的平均成绩,应当使用哪些特殊 的 OLAP 操作。(c) 如果每维有 5 层(包括 all),如“studentmajorstatusuniversityall ”, 该立方体包含多少方体a) 为该数据仓库画出雪花形模式图。雪花模式如图所示。b) 由 基 本 方 体 student, course, semester, instructor 开 始 , 为 列 出 BigUniversity 每个学生的 CS 课程的平均成绩,应当使用哪些特殊的 OLAP 操作。这些特殊的联机分析处理(OLAP )操作有:i. 沿课程(course)维从 cou

16、rse_id “上卷”到 department。ii. 沿学生(student)维从 student_id “上卷”到 university 。iii. 取 department= “CS ”和 university= “Big University ”,沿课程(course)维和学生(student)维切片。iv. 沿学生(student)维从 university 下钻到 student_name。c) 如果每维有 5 层(包括 all),如“student这个立方体将包含 54=625 个方体。 假定数据仓库包含4维:date, spectator, location, 和game,和两

17、个度量:其中,charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图。 星形模式图如下:b. 由基本方体date,spectator,location,game开始,为列出2004年学生观众在GM_Place的总付费,应执行的OLAP操作: 沿时间(date)维从date_id “上卷”到 year。 沿时间(game)维从 game_id “上卷”到全部。 沿时间(location)维从location_id “上卷”到 location_name 。 沿时间(spectator)维从spectator_id

18、“上卷”到 status 。 以 status=students, location name=GM Place and year=2004 作转轴操作 数据仓库可以用星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点,然后分析它们的相对做优、缺点。哪种模式更实用,给出你观点并陈述你的理由。 答:星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。它们主要的不同在于,雪花模式的维表可能是规范化形式,以便减少了冗余,这种表易于维护并节省存储空间。然而,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花形结构可能降低浏览的性能,这样,系统的性能可能

19、相对的受到影响。星型模式的优点是简单、这使得它更有效,但它需要更多的空间。因此,只要空间的要求不是太大时,星形模式比雪花模式更好,因为通常效率比空间具有更高的优先级。在工业上,有时可能将数据从一个雪花模式非规范化为星型模式以加快处理速度,另一种选择是保持雪花模式的维表,然后相同数据的当前用户折叠为星形。 假定基本方体有三维A,B,C,其单元数如下:|A|=1000000,|B|=100,|C|=1000.假定每维均等地分块成10部分。(a)假定每维只有一层,画出完整的立方体的格。 答:完整的立方体的格如下图(b)如果每个立方体单元存放一个4字节的度量,若立方体是稠密的,所计算的立方体有多大所计

20、算的立方体大小如下:all: A: 1,000,000; B: 100; C: 1, 000; 小计: 1,001,100AB: 1,000,000*100=100,000,000; BC: 100*1,000=100,000; AC: 1,000,000*1,000=1,000,000,000;小计: 1,100,100,000 ABC: 1,000,000*100*1,000=100,000,000,000总和: 1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101 * 4 = 404,404,404,404 字节(C)指出空间

21、需求量最小的立方体中的块计算次序,并计算2-D平面计算所需要的内存空间总量。顺序计算,需要最少数量的空间B-C-A.如图所示:计算二维平面需要的总主内存空间是:总空间 = (1001,000) + (1,000,000 10) + (100 10,000) = 20,100,000 单元* 4字节/单元= 80,400,000 字节 Apriori算法使用子集支持性质的先验知识。(a) 证明频繁项集的所有非空的子集也必须是频繁的。设s是一个频繁项集,min_sup 是最小支持度阀值,任务相关的数据D是数据库事务的集合,|D|是D 有事务量,则有Support_count(s) = min_sup|D|;再设s是s的非空子集,则任何包含项集s的事务将同样包含项集s , 即:support_ count(s) support count(s) = min_sup |D|.所以,s也是一个频繁项集。(b) 证明项集s的任意非空子集s的支持至少和s的支持度一样大。设任务相关的数据D是数据库事务的集合,|D|是D 的事务量,由定义得:设s是s的非空子集,由定义得:

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1