数据挖掘第二次作业Word文档下载推荐.docx
《数据挖掘第二次作业Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据挖掘第二次作业Word文档下载推荐.docx(10页珍藏版)》请在冰豆网上搜索。
1
16
C1
斗
□
LL
Sup
耳12}
3
{I1J3}
{11.14}
{I1J&
}
{12.13}
{I3J4
{I2J6}
仇⑷
{I3J6}
{I4J6}
C2
{114116}
{HJ3J6}
{I1J2J6}
2
{HJ3J5}
C3
{HJ2}
{11冋
{I1J6}
{I2J4}
{12,16}
{I3J&
L2.
I1=>
I2
support=
3/5=60%
I2=>
I1
{11,13}的非空子集为{11},{13}
I3
2/5=40%
I3=>
I1
{11,16}的非空子集为{11},{16}
I6
I6=>
l1
{12,14}的非空子集为{12},{14}
I4
I4=>
l2
{12,16}的非空子集为{12},{16}
l6
I6=>
I2
{13,16}的非空子集为{13},{16}
{11,12}的非空子集为{11},{12}
因此所有的频繁项集为:
{l1},{l2},{L3},{L4},{L6},{l1,l2},{l1,l3},{l1,l6},{l2,l4},{l2,l6},{l3,l6},{{l1,l2,l6}},{l1,l3,l6}}
confidence=3/4=75%
confidence=2/4=50%
confidence=2/2=100%
confidence=2/2=100%
confidence=2/4=50%
{11,12,16}}的非空子集为{11,12},{11,16},{12,16},{11},{12},{16}
11二>
12八16
support
=2/5=40%
12二>
11八16
confidence=2/4=50%
16二>
11八12
12八I6=>
confidence=2/3=66.67%
11八16=>
confidence=2/3=66.67%
I1AI2=>
16
{11,13,16}的非空子集为{11,13},{11,16},{13,16},{11},{13},{16}
I3AI6
confidence=2/4=50%
I1AI6
confidence=2/2=100%
I1AI3
I3AI6=>
I1AI6=>
I1AI3=>
因为最小置信度为70%,所以强关联:
support:
=3/5=60%
confidenee=3/4=75%
=2/5=40%
confidenee=2/2=100%
13=>
12
confidenee=2/2=100%
13二>
:
confidenee=
2/2=100%
eonfidenee
=2/2=100%
2•针对下表的数据,
a)构造决策树,并给出是否外出游玩的有关规则;
b)禾U用贝叶斯分类方法,判断:
在(阴晴二sunny,温度二Mild,湿
度二Normal,刮风二False的情况下,是否可以外出游玩。
阴晴
温度
湿度
刮风
外出游玩
Sunny
Hot
High
False
No
True
Overcast
Yes
Rainy
Mild
Cool
Normal
a)
阴晴?
b)
设X=(阴晴=sunny,温度二Mild,湿度二Normal,刮风二False
P(外出游玩二yes”=9/14=0.643
P(外出游玩=No”)=5/14=0.357
p(阴晴=”Sunny”|外出游玩=”yes”2/9)=;
P(阴晴二”suryn|外出游玩二”No”)3/5;
p(湿度=”Mild”|外出游玩=”yes”4/9)=;
p(湿度二”Mild外出游玩二”No”)2/5;
p(温度二”Norma”|外出游玩二”yes‘6/矢
p(温度二”Normal”|外出游玩二”No”)特5;
p(刮风二”False”外出游玩二”yes”9=6/
p(刮风二“false”|外出游玩二”No”)2/5;
p(X|外出游玩二”yes”2=9*4/9*6/9*6/9=0.044
p(X|外出游玩二”no”35*2/5*1/5*2/5=0019
p(X|外出游玩二”yes”外出游玩二”yes”0)044*0.643=0.028
p(X|外出游玩二”no”外出游玩二”No”)=.019*0.357=0.007
因此,对于样本X,贝叶斯分类预测,外出游外二”yes”。
所以在(阴晴=sunny,温度=Mild,湿度=Normal,舌风二False的情况下,可以外出游玩
3.简述什么是面向属性的归纳,它的主要步骤有哪些?
答:
面向属性的归纳是一种面向关系数据查询的、基于汇总的在
线数据分析技术。
受数据类型和度量类型的约束比较少
它的基本思想是:
使用关系数据库查询收集任务相关的数据通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作
通过与用户交互,将广义关系以图表或规则等形式,提交给用户
4.为什么要进行属性相关性分析?
数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预
用户必须告诉系统哪些维或属性应当包含在类分析中(难)。
属性太少,则造成挖掘的描述结果不正确。
属性太多,浪费计算、淹没知识
告诉系统每个维应当概化到多高的层次(易)。
直接通过概化的临界值,说明给定维应当达到的概化程度。
对概化层次不满意,则可以指定需要上卷或下钻的维
5.什么是类比较,它的主要步骤有哪些。
类比较挖掘的目标是得到将目标类与对比类相区分的描述。
步骤:
1)数据收集:
通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类
2)维相关分析:
使用属性相关分析方法,使我们的任务中仅包含强相关的维
3)同步概化:
同步的在目标类和对比类上进行概化,得到主目标类关系/方体和主对比类关系/方体
4)导出比较的表示:
用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较(e.gcount%).
6.什么是关联规则挖掘,关联规则都有哪些类型?
从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。
类型有:
1)根据规则中所处理的值类型
2)根据规则中涉及的数据维
3)根据规则集所涉及的抽象层
4)根据关联挖掘的各种扩充
7.简要说明什么是Apriori性质。
频繁项集的所有非空子集也必须是频繁的。
AUB模式不可能比A更频繁的出现
Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。
Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率
8.简要说明多层关联规则挖掘的方法。
通常,多层关联规则的挖掘还是使用置信度-支持度框架,可以采用自顶向下策略
a)请注意:
概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度
b)由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数
c)每一层的关联规则挖掘可以使用Apriori等多种方法
9.举例说明为什么强关联规则不一定是有趣的。
打篮球
不打篮球
合计
喝麦片
2000
1750
3750
不喝麦片
1000
250
1250
3000
5000
例如在5000个学生中
3000个打篮球
3750个喝麦片粥
2000个学生既打篮球又喝麦片粥
然而,打篮球=>
喝麦片粥[40%,66.7%是错误的,因为全部学生
中喝麦片粥的比率是75%,比打篮球学生的66.7%要高
打篮球=>
不喝麦片粥[20%,33.3%这个规则远比上面那个要精
确,尽管支持度和置信度都要低的多
10.分类和预测有什么区别?
它们的主要步骤是什么
区别:
分类法主要是用来预测类标号(分类属性值)
预测法主要是用来估计连续值(量化属性值)步骤:
第一步,建立一个模型,描述预定数据类集和概念集
第二步,使用模型,对将来的或未知的对象进行分类
11.除了决策树(判定树)以外还有哪些分类方法,比较这些分类方法的标准是什么?
贝叶斯分类,后向传播分类。
使用下列标准比较分类和预测方法
(1)预测的准确率:
模型正确预测新数据的类编号的能力
(2)速度:
产生和使用模型的计算花销
(3)健壮性:
给定噪声数据或有空缺值的数据,模型正确预测的能力
(4)可伸缩性:
对大量数据,有效的构建模型的能力
(5)可解释性:
学习模型提供的理解和洞察的层次
(6)规则好坏的评价:
决策树的大小和分类规则的简明性