1、数据挖掘第二次作业1假设最小支持度为40%,最小置信度为70%o对于下表,使用Apriori算法求解所有的频繁项集,在此基础上推导出所有的强关联规则,并给出相应的支持度和置信度TIDITEMS_BOUGHTT111,12,16T211,13,15,16T311,12,13,16T411,12,14T5I2,I4,I6最小支持数为:5*40% =2Item114124132142IS1164C1Item11412斗216LLItemSup耳123I1J3211.141I1J&312.131I3J42I2J63仇0I3J62I4J61C2ItemSup1141162HJ3J6213ItemSupI
2、1J2J62 HJ3J52C3ItemSupHJ2311冋2I1J63I2J4212,162I3J&2L2.I1=I2support =3/5 =60%I2=I1support =3/5 =60%11,13的非空子集为11, 13I1=I3support =2/5 =40%I3= I1support =2/5 =40%11,16的非空子集为11, 16I1=I6support =3/5 =60%I6 = l1support =3/5 =60%12,14的非空子集为12, 14I2=I4support =2/5 =40%I4 = l2support =2/5 =40%12,16的非空子集为12,
3、 16I2= l6support =3/5 =60%I6= I2support =3/5 =60%13,16的非空子集为13, 16I3= l6support =2/5 =40%I6=I3support =2/5 =40%11,12的非空子集为11, 12因此所有的频繁项集为 :l1, l2, L3, L4, L6, l1,l2, l1,l3, l1,l6, l2,l4, l2,l6, l3,l6,l1,l2,l6,l1,l3,l6confidence =3/4 =75%confidence =3/4 =75%confidence =2/4 =50%confidence =2/2=100%co
4、nfidence =3/4 =75%confidence =3/4 =75%confidence =2/4 =50%confidence =2/2 =100%confidence =3/4 =75%confidence =3/4 =75%confidence =2/2=100%confidence =2/4=50%11,12,16的非空子集为11,12 , 11,16, 12,16, 11, 12, 1611二12八16support= 2/5 =40%confidence =2/4 =50%12二11八16support =2/5 =40%confidence = 2/4 =50%16二11
5、八12support =2/5 =40%confidence =2/4 =50%12八I6= I1support =2/5 =40%confidence = 2/3 =66.67%11八16 = I2support =2/5 =40%confidence =2/3 =66.67%I1AI2= 16support =2/5 =40%confidence =2/3 =66.67%11,13,16的非空子集为11,13, 11,16, 13,16, 11, 13, 16I1=I3AI6support =2/5 =40%confidence =2/4 = 50%I3=I1AI6support= 2/5
6、 =40%confidence = 2/2 =100%I6=I1AI3support= 2/5 =40%confidence =2/4 = 50%I3AI6= I1support= 2/5 =40%confidence = 2/2 =100%I1AI6 = I2support= 2/5 =40%confidence =2/3 =66.67%I1AI3= l6support= 2/5 =40%confidence =2/2=100%因为最小置信度为 70%,所以强关联 :I1=I2support =3/5 =60%confidence =3/4 =75%I2=I1support =3/5 =60
7、%confidence =3/4 =75%I1=I6support =3/5 =60%confidence =3/4 =75%I6 = l1support =3/5 =60%confidence =3/4 =75%I2= l6support =3/5 =60%confidence =3/4 =75%I6= I2support :=3/5 =60%con fide nee =3/4 =75%I3= I1support :=2/5 =40%co nfide nee =2/2=100%13= 16support :=2/5 =40%co nfide nee =2/2=100%I4 = 12suppo
8、rt :=2/5 =40%co nfide nee =2/2 =100%13二11八16support =:2/5 =40%con fide nee =2/2 =100%I3AI6= I1support =2/5 =40%con fide nee =2/2 =100%I1AI3= 16support =2/5 =40%eon fide nee=2/2 =100%2针对下表的数据,a)构造决策树,并给出是否外出游玩的有关规则;b)禾U用贝叶斯分类方法,判断:在(阴晴 二sunny,温度二Mild,湿度二Normal,刮风二False的情况下,是否可以外出游玩。阴晴温度湿度刮风外出游玩SunnyH
9、otHighFalseNoSunnyHotHighTrueNoOvercastHotHighFalseYesRai nyMildHighFalseYesRai nyCoolNormalFalseYesRai nyCoolNormalTrueNoOvercastCoolNormalTrueYesSunnyMildHighFalseNoSunnyCoolNormalFalseYesRai nyMildNormalFalseYesSunnyMildNormalTrueYesOvercastMildHighTrueYesOvercastHotNormalFalseYesRai nyMildHighTr
10、ueNoa)阴晴?b)设 X =(阴晴=sunny,温度二Mild,湿度二Normal,刮风二FalseP (外出游玩二 yes” = 9/14 = 0.643P (外出游玩=No” ) = 5/14 = 0.357p (阴晴= ”Sunny ”| 外出游玩 = ” yes ”2/9)=;P(阴晴二 ” suryn | 外出游玩二”No”)3/5 ;p (湿度= ”Mild ” |外出游玩 =” yes”4/9)=;p(湿度二”Mild 外出游玩二” No” )2/5 ;p (温度二”Norma”|外出游玩二” yes 6/矢p(温度二”Normal” |外出游玩二” No”)特5 ;p(刮风
11、二”False ” 外出游玩二” yes ” 9=6/p(刮风二 “false” | 外出游玩二”No” )2/5 ;p (X| 外出游玩二”yes” 2=9 * 4/9 * 6/9 * 6/9 = 0.044p (X| 外出游玩二” no” 35 * 2/5 * 1/5 * 2/5 = 0 019p (X| 外出游玩二” yes ” 外出游玩二” yes ”0)044 * 0.643 = 0.028p (X| 外出游玩二” no ” 外出游玩二” No” )=.019 * 0.357 = 0.007因此,对于样本X,贝叶斯分类预测,外出游外二”yes”。所以在(阴晴=sunny,温度=Mil
12、d,湿度=Normal,舌风二False的 情况下,可以外出游玩3.简述什么是面向属性的归纳,它的主要步骤有哪些?答:面向属性的归纳是一种面向关系数据查询的、基于汇总的在线数据分析技术。受数据类型和度量类型的约束比较少它的基本思想是:使用关系数据库查询收集任务相关的数据 通过考察任务相关数据中每个属性的不同值的个数进行 概化,方法是属性删除或者是属性概化 通过合并相等的, 概化的广义元组, 并累计他们对应的计 数值进行聚集操作通过与用户交互, 将广义关系以图表或规则等形式, 提交 给用户4.为什么要进行属性相关性分析?答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程, 这使得这个
13、过程中需要有很多用户干预用户必须告诉系统哪些维或属性应当包含在类分析中 ( 难) 。属性 太少,则造成挖掘的描述结果不正确。属性太多,浪费计算、淹 没知识告诉系统每个维应当概化到多高的层次 (易)。直接通过概化的 临界值,说明给定维应当达到的概化程度。对概化层次不满意, 则可以指定需要上卷或下钻的维5.什么是类比较,它的主要步骤有哪些。答:类比较挖掘的目标是得到将目标类与对比类相区分的描述。 步骤:1)数据收集:通过查询处理收集数据库中相关的数据,并将 其划分为一个目标类和一个或多个对比类2)维相关分析:使用属性相关分析方法,使我们的任务中仅 包含强相关的维3)同步概化:同步的在目标类和对比类
14、上进行概化,得到主 目标类 关系 /方体 和 主对比类 关系 / 方体4)导出比较的表示 : 用可视化技术表达类比较描述, 通常会包 含“对比”度量,反映目标类与对比类间的比较 (e.g count%).6.什么是关联规则挖掘,关联规则都有哪些类型?答: 从事务数据库,关系数据库和其他信息存储中的大量数据的项集 之间发现有趣的、频繁出现的模式、关联和相关性。类型有:1)根据规则中所处理的值类型2)根据规则中涉及的数据维3)根据规则集所涉及的抽象层4)根据关联挖掘的各种扩充7.简要说明什么是 Apriori 性质。答:频繁项集的所有非空子集也必须是频繁的。AU B模式不可能比A更频繁的出现Apr
15、iori 算法是反单调的,即一个集合如果不能通过测试,则该集 合的所有超集也不能通过相同的测试。Apriori 性质通过减少搜索空间,来提高频繁项集逐层产生的效率8.简要说明多层关联规则挖掘的方法。通常,多层关联规则的挖掘还是使用置信度-支持度框架,可以采 用自顶向下策略a) 请注意:概念分层中,一个节点的支持度肯定不小于该节点的 任何子节点的支持度b) 由概念层1开始向下,到较低的更特定的概念层,对每个概念 层的频繁项计算累加计数c) 每一层的关联规则挖掘可以使用 Apriori等多种方法9.举例说明为什么强关联规则不一定是有趣的。打篮球不打篮球合计喝麦片200017503750不喝麦片10
16、002501250合计300020005000例如在5000个学生中3000个打篮球3750个喝麦片粥2000个学生既打篮球又喝麦片粥然而,打篮球= 喝麦片粥40%, 66.7%是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高打篮球= 不喝麦片粥20%, 33.3%这个规则远比上面那个要精确,尽管支持度和置信度都要低的多10.分类和预测有什么区别?它们的主要步骤是什么答:区别:分类法主要是用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值) 步骤:第一步,建立一个模型,描述预定数据类集和概念集第二步,使用模型,对将来的或未知的对象进行分类11.除了决策树(判定树)以外还有哪些分类方法,比较这些分类方 法的标准是什么?答:贝叶斯分类,后向传播分类。 使用下列标准比较分类和预测方法(1)预测的准确率:模型正确预测新数据的类编号的能力(2)速度:产生和使用模型的计算花销(3)健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能 力(4)可伸缩性:对大量数据,有效的构建模型的能力(5)可解释性:学习模型提供的理解和洞察的层次(6)规则好坏的评价:决策树的大小和分类规则的简明性
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1