ImageVerifierCode 换一换
格式:DOCX , 页数:25 ,大小:1,002.98KB ,
资源ID:14382239      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/14382239.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘概念与技术第三版部分习题答案Word文档格式.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据挖掘概念与技术第三版部分习题答案Word文档格式.docx

1、还有所修的课程的最大数量。􀁺 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) owns(X, “personal computer”)support=12%,

2、 confidence=98% 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一

3、簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。 年龄 频率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44 计算数据的近似中位数值。 解答: 先判定中位数区间:N=200+450+300+1500+700+44=31

4、94;N/2=1597 200+450+300=95015972450=950+1500; 2050 对应中位数区间。 median=32.97 岁。2.2 假定用于分析的数据包含属性age。数据元组的age 值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(a) 该数据的均值是什么?中位数是什么?均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70

5、)/27=29.96中位数应是第14个,即x14=25=Q2。(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。这个数集的众数有两个:25 和35,发生在同样最高的频率处,因此是双峰众数。(c) 数据的中列数是什么?数据的中列数是最大数和最小数的均值。即:midrange=(70+13)/2=41.5。(d) 你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?数据集的第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7 处。所以:Q1=20。而第三个四分位数应发生在75%处,即在3(N+1)/4=21 处。Q3=35(e) 给出数据的五数概

6、括。一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。(f) 画出数据的盒图。 (g) 分位数分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)

7、可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。2.4假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:(a)计算年龄和脂肪百分比的均值、中位数和标准差.年龄均值=(23+23+27+27+39+41+47+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44, 中位数= (50+52)/2=51, 标准差=方差的平方根=开根号( 1/n(Xi)2-1/n(Xi)2)=开根号 1/182970.44=12.85.脂肪百分比均值=2

8、8.78, 中位数=30.7, 标准差= 8.99. (b)绘制年龄和脂肪百分比的盒图(c)根据这两个属性,绘制散布图,各q-q图 q-q图 散布图(d)根据z-score 规范化来规范化这两个属性(P46)(e)计算相关系数(皮尔逊积矩系数). 这两个变量是正相关还是负相关?ra,b=(ai-A)(bi-B)/NAB=(aibi)-NAB)/NAB=(aibi)-18*46.44*28.78)/18*12.85*8.99=0.82相关系数是0.82。变量呈正相关。3.3 使用习题2.4 给出的age 数据回答下列问题: (a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。

9、 评述对于给定的数据,该技术的效果。 (b) 如何确定数据中的离群点? (c) 对于数据光滑,还有哪些其他方法?解答:评述对于给定的数据,该技术的效果。 用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤: 步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。) 步骤2:将数据划分到大小为3 的等频箱中。 箱1:13,15,16 箱2:16,19,20 箱3:20,21,22 箱4:22,25,25 箱5:25,25,30 箱6:33,33,35 箱7:35,35,35 箱8:36,40,45 箱9:46,52,70 步骤3:计算每个等频箱的算数均值。 步骤4:用各箱计算出的

10、算数均值替换每箱中的每个值。 箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21 箱4:24,24,24 箱5: 80/3 ,80/3, 80/3 箱 6: 101/3,101/3, 101/3 箱7:121/3,121/3,121/3 箱9:56,56,56 聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。 其它可用来数据光滑的方法包括别的分箱光滑方法,如中位

11、数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。3.5 如下规范化方法的值域是什么?(a) min-max 规范化。值域是new_min, new_max。(b) z-score 规范化。值域是(old_minmean)/,(old_maxmean)/,总的来说,对于所有可能的数据集的值域是(,+)。(c) 小数定标规范化。值域是(1.0,1.0)。3.7 使用习题 2.4 给出的 age 数据,回

12、答以下问题:(a) 使用 min-max 规范化将 age 值 35 变换到0.0,1.0区间。(b) 使用 z-score 规范化变换 age 值 35,其中 age 的标准差为 12.94 岁。(c) 使用小数定标规范化变换 age 值 35。(d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。3.9 假设 12 个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。(a) 等频(等深)划分。(b) 等宽划分。 (c) 聚类。bin15,10,11,1315,35,50,55bin1 72,91,204,215每个区间的宽度是:(215-5)/3=705,10,11,13,15,35,50,55,7291204,215(c) 聚类。我们可以使用一种简单的聚类技术:用 2 个最大的间隙将数据分成 3 个箱。5,10,11,13,1535,50,55,72,913.11 使用习题 2.4 给出的 age 数据,(a) 画出一个等宽为 10 的等宽直方图;(b) 为如下每种抽样技术勾画例子:SRSWOR,SRSWR ,聚类抽样,分层 抽样。使用大小为 5 的样本和层“青年”,“中年”和“老年”。(a) 画出一个等宽为 10 的等宽直

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1