ImageVerifierCode 换一换
格式:DOCX , 页数:14 ,大小:366.01KB ,
资源ID:536210      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/536210.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(电子科大大数据挖掘作业6.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

电子科大大数据挖掘作业6.docx

1、电子科大大数据挖掘作业6数据挖掘课后习题数据挖掘作业16第一章绪论1) 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种 。1、 关系数据库2、 数据仓库3、 事务数据库4、 高级数据库系统和数据库应用如空间数据库、 时序数据库、 文本数据 库和多媒体数据库等,还可以是Web数据信息。实际生活的例子:1电信行业中利用数据挖掘技术进行客户行为分析, 包含客户通话记录、通话时间、 所开通的服务等, 据此进行客户群体划分以及客户流失性分析。2天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分 析,帮助天文学家发现其他未知星体。3市场业中应用数据挖掘技术进行市场定位、 消费者分析、辅助

2、制定市场营销策略等。2) 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么 样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖 掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时, 很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理 主要用于数据或信息检索,没有发现关联规则的方法。同样地,简单的统计 分析没有能力处理像百货公司销售记录这样的大规模数据。第二章数据仓库和OLAP技术1)简述数据立方体的概念、多维数据

3、模型上的 OLAF操作。数据立方体数据立方体是二维表格的多维扩展,如同几何学中立方体是形 的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和分析数 据集,通常是一次同时考虑三个维度。数据立方体提供数据的多维视 图,并允许预计算和快速访问汇总数据。多维数据模型上的OLAF操作a)上卷(roll-up): 汇总数据通过一个维的概念分层向上攀升或者通过维规约b)下卷(drill-down): 上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现c)切片和切块(slice and dice)投影和选择操作d)转轴(pivot)立方体的重定位,可视化,或将一个 3

4、维立方体转化为一个 2维平面序列2)OLAP多维分析如何辅助决策?举例说明。OLAP 是在多维数据结构上进行数据分析的,一般在多维数据上切片、切块成简单数据来进行分析,或是上卷、下卷来分析。OLAP要查询大量 的日常商业信息,以及大量的商业活动变化情况,如每周购买量的变化 值,经理通过查询变化值来做决策。例如经理看到利润小于预计值是,就会去深入到各地区去查看产品 利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追 踪查询可以发现问题并解决3)举例说明OLAP的多维数据分析的切片操作。切片就是在某两个维上取一定区间的维成员或全部维成员。如用三维数组表示为(地区,时间,产品,销售额),

5、如果在地区维 度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产 品的切片)。第三章数据预处理1)假定用于分析的数据包含属性 age,数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35 ,36,40,45,46,52,70 。(a)使用按箱平均值平滑对以上数据进行平滑,箱的深度为3。解释你的步骤。评论对于给定的数据,该技术的效果已知数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,3

6、3,33,35, 35,35,35,36,40,45,46,52,70 ,且箱的深度为3,划分为(等频)箱:箱 1 : 13,15,16箱 2 : 16,19,20箱 3 : 20,21,22箱 4 : 22,25,25箱 5 : 25,25,30箱 6 : 33,33,33箱 7 : 35,35,35箱 8 : 35,36,40箱 9 : 45,46,52箱 10 : 70用箱均值光滑:箱 1 : 15,15,15箱 2 : 18,18,18箱 3 : 21,21,21箱 4 : 24,24,24箱 5 : 27,27,37箱 6 : 33,33,33箱 7 : 35,35,35箱 8 :

7、37,37,37箱 9 : 48,48,48箱 10 : 70(b)对于数据平滑,还有哪些其它方法?(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;(2)聚类:可以通过聚类检测离群点, 将类似的值组织成群或簇。 直观地,落在簇集合之外的值视为离群点。2)使用习题1)给出的age数据,回答以下问题:(a)使用min-max规化,将age值35转换到0.0 , 1.0区间。已知最大值为70,最小值为13,则可将35规化为:(b)(c)(d)|35-13|(70-13 )=0.386使用z-score规化转换age值35,其中,age的标准偏差为12.94年。 已知均值为30,标准差为1

8、2.94,则可将35规化为:35-30=0.38612.94使用小数定标规化转换age值35。使用小数定标规化可将35规化为:35 小厂=0.35100指出对于给定的数据,你愿意使用哪种方法。述你的理由。对于给定的数据, 你愿意使用min-max规化。理由是计算简单。3)以下是一个商场所销售商品的价格清单 (按递增顺序排列,括号中的数表示前面数字出现次数)1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、 18(8)、20(7)、21(4)、25(5)、28、30(3)。请分别用等宽的方法和等 高的方法对上面的数据集进行划分。(1)等宽方法:划分为3个数据集,每个数据集的

9、宽度为价格 10。价格在1 10之间出现次数为13;价格在11 20之间出现的次数为24;价格 在21 30之间出现的次数为13。(2)等高方法:划分为2个数据集,每个数据集的高度为出现的次数4。出现次数1 4之间的价格为1、& 10、12、14、21、28、30, 共8 个 数据;出现次数5 8之间的价格为5、15、18、20、25,共5个数据。第四章关联规则1)考虑如下的频繁3-项集:1,2, 3,1,2, 4 ,1,2, 5 ,1,3, 4,1,3, 5 ,2, 3, 4 ,2, 3, 5 ,3, 4, 5。(a)根据Apriori 算法的候选项集生成方法,写出利用频繁 3-项集生成的所

10、有候选4-项集。1,2,3,4; 1,2,3,5; 1,2,4,5; 1,3,4,5; 2,3,4,5(b)写出经过剪枝后的所有候选 4-项集.1,2,3,4; 1,2,3,5;2)一个数据库有5个事务,如下表所示。设min_sup=60%, min_conf = 80%。事务ID购买的商品T100M, O, N, K, E, 丫 丁T200D, O, N, K, E, YT300M, A, K, ET400M, U, C, K, YT500C, O, O, K, I ,E(a)FP-growth 算法分别用Apriori 算法和FP-growth算法找出所有频繁项集。比 较两种挖掘方法的效率

11、。Apriori 算法E d匚水沿丄一仆;件RmE,支持度0.6 ,置信度10,E k,支持度0.6 ,置信度13)如下表所示的相依表汇总了超级市场的事务数据。其中 hot dogs 指 包含热狗的事务,hot dogs 指不包含热狗的事务。 hamburgers指包含汉 堡的事务,hamburgers指不包含汉堡的事务。hot dogshot dogs艺rowHamburgers2,0005002,500hamburgers1,0001,5002,500艺col3,0002,0005,000假设挖掘出的关联规则是“ hot dogs ? hamburgers ”。给定最小支持度 阈值25呀口

12、最小置信度阈值50%,这个关联规则是强规则吗?s(hot dogs)=3000/5000=60%;s(hot dogs, hamburgers)=2000/5000=40%C(hot dogs hamburgers)=40%/60%=66.7%故这个关联规则是强规则。计算关联规则“ hot dogs ? hamburgers ”的提升度, 能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是, 两者间存在哪种相关关系?S(hamburgers)=2500/5000=50%提升度 lift(hot dogs f hamburgers) = C(hot dogs f hamburgers)/S

13、(hamburgers)=1.334 提升度大于 1,表明 hot dogs 和 hamburgers不是互相独立的,二者之间存在正相关关系。第五章分类和预测1)简述决策树分类的主要步骤。决策树生成的过程如下:(1)对数据源进行数据预处理,得到训练集和测试集;(2)对训练集进行训练;(3)对初始决策树进行树剪枝;(4)由所得到的决策树提取分类规则;(5)使用测试数据集进行预测, 评估决策树模型;2)考虑下表所示二元分类问题的数据集。AB类标号TF+TT+TT+TF-TT+FF-FF-FF-TT-TF-(a)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?按照属性A和B划分时,数据集可分为如下两种情况:A = TA = F+40-33B = TB = F+31-15划分前样本集的信息熵为E=-0.4 log 20.4 - 0.6 log 20.6 = 0.9710按照属性A划分样本集分别得到的两个子集(A取值T和A取值F)的信息熵分别为:为訂0,怦“环f二雳纭 “抿祜技和探f鼾惮纟二 4二命%厂话知F二。斶3按照属性B划分样本集分别得到的两个子集(B取值T和B取值F)的信 息熵分别为:-*网詁二個132 二o、6s 90 b二E - 屍7厉勾:F二 trz 歹 6,因此,决策树归纳算法将会选

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1