1、原数据挖掘习题docchi1.讨论下列每项活动是否是数据挖掘任务:(fgh是)(a)根据性别划分公司的顾客。(b)根据可赢利性划分公司的顾客。(c)计算公司的总销售额。(d)按学生的标识号对学生数据库排序。(e)预测掷一对骰子的结果。(f)使用历史记录预测某公司未来的股票价格。(g)监视病人心率的异常变化。(h)监视地震活动的地震波。提取声波的频率。2.(chi)数据挖掘可以在很多数据源上进行,如关系数据 库,空间数据库,多媒体数据库,文本数据库等。3.(chi)数据挖掘一定可以得到有趣的强关联规则。4.(chi)为了提高挖掘质量,通常要进行数据预处理,包 括数据清理、集成、选择、变换等。5.
2、(ch5)发烧,上呼吸道感染是(2)项集6.企业要建立预测模型,需准备建模数据集,以下四条描述 建模数据集正确的是(B )oA数据越多越好B尽可能多的适合的数据C数据越少越好D以上三条都正确7.数据挖掘算法以(D )形式来组织数据。A行 B列 C记录 D表格Ch28.(ch2)假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13, 15, 16, 16, 19, 20, 20, 21, 22,22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36,40, 45, 46, 52, 70,求:1) 使用按箱平均值平滑对以上数据进
3、行平滑,箱的深度是3。解释你的步骤。2) 使用按箱边界值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。7、P98 3.4 (ch3)假定大学的数据仓库包含4个维student学生、course课程、 semester 学期、instructor 教师, 2 个度量 count 和 avg_grade0 在最低的概念层(例如对于给定的学生、课程、学期和教师 组合),度量avg_grade存放学生的实际成绩。为数据仓库画 出雪花模式图8、P98 3.5 (ch3)假定数据仓库包含4个维date,spectator,location和game, 2 个度量count和chargeo其中,cha
4、nge是观众在给定的日期 观看节目的付费。观众可以是学生、成年人或老人,每类观 众有不同的收费标准。画出该数据仓库的星形模式图10、 (ch5)数据库有4个事物。设min_s叩=60%,min_conf=80%TID日期购买的物品T10099/10/15K,A,D,BT20099/10/15D,A,C,E,BT30099/10/19C,A,B,ET40099/10/22B,A,Da) 使用Apriori算法找出最大得频繁项集b) 列出所有强关联规则(带支持度s和置信度c)11.(参 P229)假定希望分析爱喝咖啡和爱喝茶得人之间得关系。收集一组人关于饮料偏爱的信息,汇总如下:咖啡不喝咖啡汇总茶
5、15050200不喝茶650150800汇总8002001000若支持度和置信度阈值分别为10%,50%,评估关联规则茶 咖啡。(负相关)12.(ch5,参 P224 )有如下事务数据集。试挖掘频繁项集。(最小支持度为2)TID项1( a,b2( bed3 acde4(ade5(abc6(abed7a8(abc9(abd10( bee结果:后缀频繁项集e e ,( de ,( ade ,( ce ,( aed d ,( cd ,( bed ,( acd ,( bd ,( abd ,( adc c ,( be , abc ( acb( b ( abaa13. (ch5,参 P256,17)假定有
6、一个购物篮数据集,包含1 00个事务和20个项。如 果项a的支持度为25% ,项b得支持度为90%,且项集 ab 得支持度为20% o令最小支持度阈值和最小置信度阈值分 别为10%和60%。1)计算关联 a b的置信度。根据置信度度量,这 条规则是有趣的么?(这条规则是否是强关联规则?)(80%, 是)2) ab是否有趣?(负相关,无趣)11.求出下表的强关联规则(ch5)IDPlP2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread12、 (ch6
7、)下表给出某门课程若干学生期中和期末考试成绩期中 72 50 81 74 94 86 59 83 65 33 88 81期末 84 63 77 78 90 75 49 79 77 52 74 90绘数据图。X和Y看上去具有线性联系吗?13.(ch6)下表是对是否购买计算机的调查表,请根据ID3算法画出是否购买计算机的决策树。计数年龄收入学生/ .、人信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1老中否优买14
8、.预测拖欠银行贷款的贷款者(参P94)TID有房婚姻状况年收入拖欠贷款1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚75K否10否单身90K是一客户信息如下:X=(有房二否,婚姻状况二已婚,年收入=120K)用贝叶斯分类法,预测记录的拖欠贷款类别。(否)可能的分裂年收入点60650.826477072.50.7635575800.689668587.50.875499092.50.846449597.50.51001100.68966120122.50.76355125172.50.8264722
9、0原数据集合修正为:TID有房婚姻状况年收入拖欠贷款1是单身125K(97.5)否2否已婚100K(97.5)否3否单身70K(97.5)否5否离异95K(v=97.5)是6否已婚60K(97.5)否8否单身85K(=97.5)是9否已婚75K(=97.5)否10否单身90K(P(y=0lx=l)所以,队 1 可能取胜。20. (ch6,参 P195, 8)考虑下列数据集:实例ABC类1001-2101+3010-4100-5101+6001+7110-8000-9010+10111+1)估计条件概率 P(A=1I+), P(B=1I+), P(C=1I+), P(A=1I-),P(B=1I-
10、), P(C=1I-)(0.6, 0.4, 0.8, 0.4, 0.4, 0.2)2)根据1)中的条件概率,使用朴素贝叶斯分类方法预测测试样本(A=1,B=1,C=1)得类标号。(+ )3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。(独立)14、 (ch7)假设数据集D含有9个数据对象(用2维空间的点表示):Al(3,2), A2(3,9), A3(8,6), Bl(9,5), B2(2,4), B3(3,10), Cl(2,6),C2(9,6), C3(2,2)采用k-均值方法进行聚类,距离函数采用欧几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C
11、l,求:(1)第一次循环结束时的三个簇的质心。(2)最后求得的三个簇。A2 A3B2B3C2C3A1V49V41V5V64 V52 VICl V10 V36 V4 V17 V49 V16第一次循环结束时:(A1,C3)质心为(2.5, 2)或(3, 2) (B1,A3,C2),质心为:(8.7,5.7)或(9, 6)(C1,A2,B2,B3),质心为:(2.7, 8.3)或(3, 8)平方误差E=28第二次循环A1A2A3B1B2B3C1C2C33,20V49V41V45V5V64V17V5219,6V52V4511V5365490V653,7VV25V26V40VV9V2V37V2625 1
12、0第二次循环结束时:(A1,B2,C3)质心为(2.3, 2.7)或(2, 3)(A3,B1,C2),质心为:(8.7,5.7)或(9, 6)(A2, B3,C1),质心为:(2.5, 7.25)或(3, 7)平方误差E=21第三次循环Al A2 A3 Bl B2 B3 Cl C2 C32,3V2V37V45V53V1V50V9V5819,6V52V4511V53V65V490V 653,7V25V4V26V40V10V9V237V37第三次循环结束时:(A1,B2,C3)质心为(2.3, 2.7)或(2, 3) 不变(A3,B1,C2),质心为:(8.7,5.7)或(9, 6)不变(A2,
13、B3,C1),质心为:(2.5, 7.25)或(3, 7)不变平方误差E=21不变15.(ch7)已知四个点的坐标如下:占 八、X坐标Y坐标P102P220P331P451其欧几里德距离矩阵:P1P2P3P4P10P22.80P33.21.40P45.13.220试进行单链、全链聚类,并画出树形图。答案:单链:PlP2, p3P4P10P2, p32.80P45.120PlP2, p3,p4Pl0P2, p3,p42.80P2,p3 P2,P3,P4 p2,p2,p4,pl全链:第一步同单链PlP2, p3P4Pl0P2, p33.20P4 5.1 3.2 0P2,p3 P2,P3,P4 p2
14、,p2,p4,pl或:P2,p3 P2,P3,P1 p2,p2,pl,p416.请将下列属性分类:(ch7)1) 用AM和PM表示的时间(序数变量)2) 按度测出得。和360之间的角度(区间标度变量)3) 奥运会上授予得铜牌、银牌和金牌(序数)4) 学生的性别(二元)5) 用如下值表示得透光能力:不透明、半透明、透明(序 数)6) 外套寄存号码(当你出席一个活动时,你常常可以将你 的外套交给某个人,然后他给你一个号码,你可以在离开时 来取)(名义)17.计算下表表示的混淆矩阵得隔和纯度族娱乐财经国外都市国内体育合计#1110114676693#22789333827253331562#3326
15、46581051629949合计3545553419432737383204iwmv VIBI VVIIIVVIVII IIIWIIIH IVI bHVI VIVV b 11ClusterEntertainmentFinancialForeignMetroNationalSportsTotalEntropyPurity#11101146766930.200.98#2278933382?2533315621.M0.53#332646581051629W1.700.49Total物555341W273738搠1440.6118.已知四个点的相异度矩阵:占 八、PlP2P3P4Pl0P20.20P30.350.30P40.450.40.10试进行单链、全链聚类,并画出树形图。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1