ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:26.04KB ,
资源ID:7361134      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7361134.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(原《数据挖掘》习题doc.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

原《数据挖掘》习题doc.docx

1、原数据挖掘习题docchi1.讨论下列每项活动是否是数据挖掘任务:(fgh是)(a)根据性别划分公司的顾客。(b)根据可赢利性划分公司的顾客。(c)计算公司的总销售额。(d)按学生的标识号对学生数据库排序。(e)预测掷一对骰子的结果。(f)使用历史记录预测某公司未来的股票价格。(g)监视病人心率的异常变化。(h)监视地震活动的地震波。提取声波的频率。2.(chi)数据挖掘可以在很多数据源上进行,如关系数据 库,空间数据库,多媒体数据库,文本数据库等。3.(chi)数据挖掘一定可以得到有趣的强关联规则。4.(chi)为了提高挖掘质量,通常要进行数据预处理,包 括数据清理、集成、选择、变换等。5.

2、(ch5)发烧,上呼吸道感染是(2)项集6.企业要建立预测模型,需准备建模数据集,以下四条描述 建模数据集正确的是(B )oA数据越多越好B尽可能多的适合的数据C数据越少越好D以上三条都正确7.数据挖掘算法以(D )形式来组织数据。A行 B列 C记录 D表格Ch28.(ch2)假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13, 15, 16, 16, 19, 20, 20, 21, 22,22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36,40, 45, 46, 52, 70,求:1) 使用按箱平均值平滑对以上数据进

3、行平滑,箱的深度是3。解释你的步骤。2) 使用按箱边界值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。7、P98 3.4 (ch3)假定大学的数据仓库包含4个维student学生、course课程、 semester 学期、instructor 教师, 2 个度量 count 和 avg_grade0 在最低的概念层(例如对于给定的学生、课程、学期和教师 组合),度量avg_grade存放学生的实际成绩。为数据仓库画 出雪花模式图8、P98 3.5 (ch3)假定数据仓库包含4个维date,spectator,location和game, 2 个度量count和chargeo其中,cha

4、nge是观众在给定的日期 观看节目的付费。观众可以是学生、成年人或老人,每类观 众有不同的收费标准。画出该数据仓库的星形模式图10、 (ch5)数据库有4个事物。设min_s叩=60%,min_conf=80%TID日期购买的物品T10099/10/15K,A,D,BT20099/10/15D,A,C,E,BT30099/10/19C,A,B,ET40099/10/22B,A,Da) 使用Apriori算法找出最大得频繁项集b) 列出所有强关联规则(带支持度s和置信度c)11.(参 P229)假定希望分析爱喝咖啡和爱喝茶得人之间得关系。收集一组人关于饮料偏爱的信息,汇总如下:咖啡不喝咖啡汇总茶

5、15050200不喝茶650150800汇总8002001000若支持度和置信度阈值分别为10%,50%,评估关联规则茶 咖啡。(负相关)12.(ch5,参 P224 )有如下事务数据集。试挖掘频繁项集。(最小支持度为2)TID项1( a,b2( bed3 acde4(ade5(abc6(abed7a8(abc9(abd10( bee结果:后缀频繁项集e e ,( de ,( ade ,( ce ,( aed d ,( cd ,( bed ,( acd ,( bd ,( abd ,( adc c ,( be , abc ( acb( b ( abaa13. (ch5,参 P256,17)假定有

6、一个购物篮数据集,包含1 00个事务和20个项。如 果项a的支持度为25% ,项b得支持度为90%,且项集 ab 得支持度为20% o令最小支持度阈值和最小置信度阈值分 别为10%和60%。1)计算关联 a b的置信度。根据置信度度量,这 条规则是有趣的么?(这条规则是否是强关联规则?)(80%, 是)2) ab是否有趣?(负相关,无趣)11.求出下表的强关联规则(ch5)IDPlP2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread12、 (ch6

7、)下表给出某门课程若干学生期中和期末考试成绩期中 72 50 81 74 94 86 59 83 65 33 88 81期末 84 63 77 78 90 75 49 79 77 52 74 90绘数据图。X和Y看上去具有线性联系吗?13.(ch6)下表是对是否购买计算机的调查表,请根据ID3算法画出是否购买计算机的决策树。计数年龄收入学生/ .、人信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1老中否优买14

8、.预测拖欠银行贷款的贷款者(参P94)TID有房婚姻状况年收入拖欠贷款1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚75K否10否单身90K是一客户信息如下:X=(有房二否,婚姻状况二已婚,年收入=120K)用贝叶斯分类法,预测记录的拖欠贷款类别。(否)可能的分裂年收入点60650.826477072.50.7635575800.689668587.50.875499092.50.846449597.50.51001100.68966120122.50.76355125172.50.8264722

9、0原数据集合修正为:TID有房婚姻状况年收入拖欠贷款1是单身125K(97.5)否2否已婚100K(97.5)否3否单身70K(97.5)否5否离异95K(v=97.5)是6否已婚60K(97.5)否8否单身85K(=97.5)是9否已婚75K(=97.5)否10否单身90K(P(y=0lx=l)所以,队 1 可能取胜。20. (ch6,参 P195, 8)考虑下列数据集:实例ABC类1001-2101+3010-4100-5101+6001+7110-8000-9010+10111+1)估计条件概率 P(A=1I+), P(B=1I+), P(C=1I+), P(A=1I-),P(B=1I-

10、), P(C=1I-)(0.6, 0.4, 0.8, 0.4, 0.4, 0.2)2)根据1)中的条件概率,使用朴素贝叶斯分类方法预测测试样本(A=1,B=1,C=1)得类标号。(+ )3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。(独立)14、 (ch7)假设数据集D含有9个数据对象(用2维空间的点表示):Al(3,2), A2(3,9), A3(8,6), Bl(9,5), B2(2,4), B3(3,10), Cl(2,6),C2(9,6), C3(2,2)采用k-均值方法进行聚类,距离函数采用欧几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C

11、l,求:(1)第一次循环结束时的三个簇的质心。(2)最后求得的三个簇。A2 A3B2B3C2C3A1V49V41V5V64 V52 VICl V10 V36 V4 V17 V49 V16第一次循环结束时:(A1,C3)质心为(2.5, 2)或(3, 2) (B1,A3,C2),质心为:(8.7,5.7)或(9, 6)(C1,A2,B2,B3),质心为:(2.7, 8.3)或(3, 8)平方误差E=28第二次循环A1A2A3B1B2B3C1C2C33,20V49V41V45V5V64V17V5219,6V52V4511V5365490V653,7VV25V26V40VV9V2V37V2625 1

12、0第二次循环结束时:(A1,B2,C3)质心为(2.3, 2.7)或(2, 3)(A3,B1,C2),质心为:(8.7,5.7)或(9, 6)(A2, B3,C1),质心为:(2.5, 7.25)或(3, 7)平方误差E=21第三次循环Al A2 A3 Bl B2 B3 Cl C2 C32,3V2V37V45V53V1V50V9V5819,6V52V4511V53V65V490V 653,7V25V4V26V40V10V9V237V37第三次循环结束时:(A1,B2,C3)质心为(2.3, 2.7)或(2, 3) 不变(A3,B1,C2),质心为:(8.7,5.7)或(9, 6)不变(A2,

13、B3,C1),质心为:(2.5, 7.25)或(3, 7)不变平方误差E=21不变15.(ch7)已知四个点的坐标如下:占 八、X坐标Y坐标P102P220P331P451其欧几里德距离矩阵:P1P2P3P4P10P22.80P33.21.40P45.13.220试进行单链、全链聚类,并画出树形图。答案:单链:PlP2, p3P4P10P2, p32.80P45.120PlP2, p3,p4Pl0P2, p3,p42.80P2,p3 P2,P3,P4 p2,p2,p4,pl全链:第一步同单链PlP2, p3P4Pl0P2, p33.20P4 5.1 3.2 0P2,p3 P2,P3,P4 p2

14、,p2,p4,pl或:P2,p3 P2,P3,P1 p2,p2,pl,p416.请将下列属性分类:(ch7)1) 用AM和PM表示的时间(序数变量)2) 按度测出得。和360之间的角度(区间标度变量)3) 奥运会上授予得铜牌、银牌和金牌(序数)4) 学生的性别(二元)5) 用如下值表示得透光能力:不透明、半透明、透明(序 数)6) 外套寄存号码(当你出席一个活动时,你常常可以将你 的外套交给某个人,然后他给你一个号码,你可以在离开时 来取)(名义)17.计算下表表示的混淆矩阵得隔和纯度族娱乐财经国外都市国内体育合计#1110114676693#22789333827253331562#3326

15、46581051629949合计3545553419432737383204iwmv VIBI VVIIIVVIVII IIIWIIIH IVI bHVI VIVV b 11ClusterEntertainmentFinancialForeignMetroNationalSportsTotalEntropyPurity#11101146766930.200.98#2278933382?2533315621.M0.53#332646581051629W1.700.49Total物555341W273738搠1440.6118.已知四个点的相异度矩阵:占 八、PlP2P3P4Pl0P20.20P30.350.30P40.450.40.10试进行单链、全链聚类,并画出树形图。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1