数据挖掘概念复习Word文档下载推荐.docx
《数据挖掘概念复习Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据挖掘概念复习Word文档下载推荐.docx(12页珍藏版)》请在冰豆网上搜索。
主要任务是执行联机事务和查询处理。
联系分析处理OLAP:
数据仓库系统在数据分析和决策方面为用户或’知识工人’提供服务。
这种系统可以用不同的格式和组织提供数据。
OLAP是一种分析技术,具有汇总、合并和聚集功
能,以及从不同的角度观察信息的能力。
特征
面向
用户
功能
DB
数据
访问
OLTP
操作处理
事务
DBA,办事员
日常操作
基于ER
当前最新
读/写
OLAP
信息处理
分析
知识工人
决策支持
星型,雪花
时间跨度
读
汇总
操作
访问记录
优先
DB规模
度量”
原始,详细
数千
主码索引
数十个
高性能可用
100mb-gb
汇总,统
数百
大量扫描
数百万
咼灵活
1OOgb-tb
查询
多维数据模型:
多维数据模型将数据看作数据立方体,允许从多个维度对数据建模和观察。
包含维表和事实表。
最流行的数据仓库数据模型是多维数据模型,这种模型可以是星形模式(事实表在中间,连接到
多个维表)、雪花模式(星型的变种,某些维表规范化,分解到附加维表,以减少冗余)、事实
星座模式(多个事实表共享维表)
数据立方体:
允许从多维对数据建模和观察。
它由维和事实定义。
维:
关于一个组织想要保存记
录的透视图和实体,每个维都有一个表与之相关联,成为维表。
事实表:
包括事实的名称和度量,以及每个相关维表的码。
方体Cuboid:
每个数据立方体。
基本方体BaseCuboid:
存放最底层汇总。
顶点方体ApexCuboid:
最高层汇总,all。
数据立方体DataCube:
给定维的集合,可以对维的每个可能子集产生一个方体。
结果成为方体的格。
多维数据立方体:
提供数据的多维视图,并允许预计算和快速访问汇总数据。
度量:
数值函数,通过对给定点的各维-值对聚集数据,计算该点的度量值。
概念分层:
映射序列,将底层概念映射到更一般的较高层概念。
OLAP操作:
上卷:
上卷操作通过一个维的概念分层向上攀升或者通过维规约,在数据
下钻:
下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。
切片和切块:
切片对一个维进行选择。
切块对两个以上维进行选择,定义子立方体。
转轴:
可视化操作,转动视角。
钻过:
跨越多个事实表。
钻透:
钻到后端关系表。
数据仓库模型的不同类型:
1、企业仓库:
收集了关于跨部门的整个组织主题的所有信息,跨越整个组织,因此是企业范围的。
2、数据集市:
是企业仓库的一个部门子集,它针对选定的主题,对于特定的用户是有用的,因此是部门范围的,其数据通常是汇总的。
3、虚拟仓库:
虚拟仓库是操作数据库上视图的集合,易于建立,但需要操作数据库服务器具有剩余能力。
数据仓库的三层结构:
1、仓库数据服务器:
使用后端工具(抽取、清晰、转换、装载、刷新)和实用程序由操作
数据库和其他外部数据源提取数据,进行数据清理和变换并放入仓库底层
2、OLAP服务器:
直接实现对多维数据的操作,直接为商务用户提供来自数据仓库或数据集
市的多维数据。
ROLAP:
多维数据操作映射到标准关系操作。
MOLAP:
多维数据视图映射到数
组中.HOLAP:
结合,历史数据ROLAP,频繁访问数据放到MOLAP.
3、前端客户层:
包括查询和报表工具、分析工具或数据挖掘工具。
数据仓库的设计:
1、分析建立企业模型并映射到数据仓库概念模型;
2、逻辑模型的设计
3、物理模型的设计
OLAP建模:
维表设计(维的变化,维表的共享,层次信息和分类信息的位置)、事实表设计(事实表的特性,通用数据和专用数据事实表)
逻辑模型设计:
1、系统数据量估算;
2、数据粒度的选择;
3、数据的分割(到各自的物理单元单独处理)
4、表的合理划分(字段的更新频率和访问频率不一样一一稳定性)
5、删除纯操作数据(“收款人”),增加导岀字段(“销售总量”)
元数据:
描述数据的数据,定义数据仓库对象的数据。
包括数据仓库的结构、操作元数据(数据血统、流通,监控信息)、用于汇总的算法、从操作环境到数据仓库的映射;
关于系统性能的数据、商务元数据。
部分物化:
选择性预计算各种方体子集或子立方体。
冰山立方体:
是一个数据立方体,只存放聚集值大于某个最小支持度阈值的立方体单元。
数据立方体计算中多路数组聚集,多路计算
BUC:
bottom-upcomputation
自底向上构造,一种计算稀疏冰山立方体的算法。
数据立方体允许以多维数据建模和观察,它由维和事实定义。
维是关于一个组织想要记录的透视或实体,事实是数值度量的。
物理模型的设计:
1.确定数据的存储结构(并行RAID)2.索引策略(位图索引、连接索引)
3.数据存储策略与性能优化(多路聚集优化、表的归并、分割表的存放、按列存储、存储分配优化)4.数据装载接口5.并行优化设计
位图索引:
在给定属性的位图索引中,属性的每一个值v都有一个位向量,长度为记录的总数,
如果数据表中给定行上该属性的值为v,则在位图索引的对应行上标注该值的位为1,其余为0.,
不适用于基数很大的属性。
连接索引:
传统的索引将给定列上的值映射到具有该值的行的列表上,连接索引登记来自关系数
据库的两个关系的可连接行,对于维护来自可连接的关系的外码和与之匹配的主码的联系特别有用(事实表—维表)。
n
N维,且每个维有Li概念封层,可得到的立方体有T(Li1)
i1
多路数组聚集:
是数据立方体的高效计算方式。
使用多维数组作为基本数据结构,自底向上的、共享地计算完全数据立方体。
使用数组直接寻址的典型MOLAP。
方法:
最大维在形成单块的平面上。
最小为在形成单面的平面上,每个平面必须被排序,并按大
小递增的顺序被计算。
数据预处理
数值规约:
用替代的、较小的数据表示替换或估计数据,如参数模型or非参方法(聚类、抽样、
直方图(Equi-depth、equi-width、v-optimal(最小方差)、maxdiff(考虑每对相邻的之间的差,桶的边界具有<桶数-1>的最大对))。
对一个属性递归地进行离散化,产生属性值的分层或多分辨率划分。
属性的原始数据
用更高层或离散化的值替换。
离散化:
用少数区间标记替换连续属性的数值,从而减少和简化原来的数据。
特征化和区分:
5、在初始工作关系上根据属性泛化阈值使用面向属性的归纳类对比:
1、通过查询处理收集数据库中的相关数据集,并分别划分成目标类和一个或多个对比类。
2、维相关分析(仅选择高度相关的维进一步分析,属性移除和泛化)
3、同步泛化(目标类泛化到维阈值控制的层,对比类概念泛化到相同层)
D权:
p-138,代表和对比类比有多大差别(高D权:
概念主要从目标类导岀)
量化描述规则(充分必要):
x,target_class(X)
condition1(X)[t:
W1,d:
w1]...conditionn(X)[t:
wn,d:
wn]
关联规则挖掘:
2、事务压缩:
不包含任何K频繁项集的事务不可能产生>
K的FI应在后继的扫描中删除
3、划分:
任何频繁项集必须作为局部频繁项集至少出现在一个划分中。
4、抽样:
在样本上降低阈值
5、动态项集计数:
只有子项集都频繁才将其加入候选项集
FP树:
发现频繁项集而不产生候选;
分治策略:
首先将提供频繁项的数据库压缩到一棵FP树上,仍然保留项集相关信息。
然后将压
缩后的数据库划分为一组条件数据库,每个关联一个频繁项或模式段,并分别挖掘每个条件数据
库。
FP核心:
利用FP树递归地增长频繁模式路径(分治)
FP优点:
去除了不相关的信息;
出去节点连接和计数规模比原数据库小;
快速;
将发现长频繁模式的问题转换成递归地搜索一些较短的模式。
ACompleteness:
neverbreaksalongpatternofanytransaction
preservescompleteinformationforfrequentpatternmining
AOtheradvantages:
reduceirrelevantinformation—infrequentitemsaregone
neverbelargerthantheoriginaldatabase(ifnotcountnode-linksandcounts)muchfasterthanApriori
FP性能优于Apriori的原因:
1、没有候选的产生
2、采用紧凑的数据结构
3、消除了对数据库的重复扫描
4、基本的操作既是对FP的构建和计数
提升度(lift):
旦A一,=1表示A、B独立,<
1A、B负相关,>
1A、B正相关
P(A)P(B)
单维关联规则:
包含单个谓词的关联规则。
buys(X,“milk”)buys(X,“bread”)
多维关联规则:
一个以上属性或谓词之间的关联规则。
维间关联规则:
具有名不重复谓词。
混合关联规则:
某些谓词重复出现。
age(X,”-25”)occupation(X,“student”t)uys(X,“coke”)
多层关联规则:
在多个抽象层上挖掘数据产生的关联规则。
高层:
milk—bread[20%,60%].底层:
Sweetmilk->
wheatbread[6%,50%].
一致支持度(对于所有层使用一致的最小支持度)、递减支持度(在较低层使用递减的最小支持
度)、基于分组的支持度(基于项或基于分组的最小支持度)
分层独立策略:
检查所有的节点而不考虑其父节点是否频繁
分类和预测:
找岀描述并区分数据类或概念的模型,以便能够使用模型预测未知对象类的类标记,模型
的构建依赖于训练集和分类属性的类标号的使用。
类标号的预测
非监督学习(聚类):
每个训练元组的类标号是未知的,并且要学习的类的个数或集合也可能事先不知道,力求寻找类或聚类的存在。
ATypicalApplications
creditapproval
targetmarketing
medicaldiagnosistreatmenteffectivenessanalysis
测试集来评估模型的正确性
决策树:
一种类似于流程图的树结构,其中每个结点代表在一个属性值上的测试,每个分支代表
测试的一个输岀,而树叶代表类或类分布。
决策树算法:
Basicalgorithm(agreedyalgorithm)自顶向下、递归、分治的贪心策略:
1、Treeisconstructedinatop-downrecursivedivide-and-conquermanner
2、Atstart,allthetrainingexamplesareattheroot
3、Attributesarecategorical(ifcontinuous-valued,theyarediscretizedinadvanee)
4、Examplesarepartitionedrecursivelybasedonselectedattributes
5、Testattributesareselectedonthebasisofaheuristicorstatisticalmeasure(e.g.,informationgain)
结束条件:
1、所有的样本都属于同一个类
2、没有剩余的样本可用
3、没有剩余的属性用来划分(投票)
避免过度拟合:
AThegeneratedtreemayoverfitthetrainingdata
Toomanybranches,somemayreflectanomaliesduetonoiseoroutliers
Resultisinpooraccuracyforunseensamples
前剪枝(在构造过程中,预定义阈值,如果分裂低于阈值,提前停止树的构造。
一旦停止,该节点成为树叶。
)VS后剪枝(构造完成,由完全生长的树剪去子树,用其子树中最频繁的类标记替换。
):
贝叶斯:
概率学习、增量、概率预测、标准,可以解决不可见样本问题
sampleX,classlabelC寻找使P(C|X)最大的X
朴素假设:
类条件独立P(x1,…,xk|C)=P(x1|C)……P(xk当)出现新的独立类时可在原基础上直
接计算,即增量
神经网络:
一组连接的输入输出单元,每个连接都有一个权重与之相关联,在学习阶段通过调整
这些权重能够预测输入元组的正确类标号。
后向传播(图):
初始化权重向前传播输入向后传播误差调整权值终止条件
终止:
超过预先指定的周期数;
前一周期的权值调整小于预定值/误分的百分比小于预定值。
后向传播算法:
1.将从输入层进过隐藏层到达输出层,得到网络预测值。
2.计算岀网络预测与实际已知目标的差值(error)
3.将error从输出层后向传播到隐藏层
4.修改权重和偏值,使得预测网络值和实际目标值的军方误差最小
5.如果满足标准则停止,否则从循环到steplo
后向传播:
通过迭代地处理一组训练样本,将每个样本的网络预测与实际知道的类标号比较,进
行学习。
对于每个训练样本,修改权,使得网络预测和实际类之间的均方误差最小,这种修改“后
向”进行。
向前传播输入:
计算隐藏层和输出层每个单元的净输入和输出。
向后传播误差:
通过更新权和偏置以反映网络预测的误差,向后传播误差。
急切学习法:
在接收待分类的新元组之前构造分类模型。
懒惰学习法:
给定训练元组时,只是简单存储,并一直等到待检验元组出现才进行泛化,比便根
据存储的训练元组的相似性对元组进行分类。
1、K-近邻找到最接近未知元组的K个训练元组
2、基于案例推理
粗糙集:
基于等价类的建立,给定类的粗糙集定义用两个集合近似:
上近似,不能认为不属于C
的集合;
下近似:
必定属于C的集合。
分类精度高,处理离散属性。
模糊集:
对每个类定义“模糊”的阈值和边界,模糊逻辑0-0.1之间的真值表示一个特定的值是
一个给定类成员的隶属程度,而不是用精确的截断,每个类表示一个模糊集。
分类正确性的验证:
划分(独立的训练集和测试集,大规模);
交叉验证(K个子样本集,中等
规模,k-1个训练集,1个验证集)
分类和预测的组装方法:
装袋:
对训练集有放回随机抽样产生N个训练子集,导出N个模型,对未知数据,给出对应的
N个结果。
每个分类器投岀一票,统计得票,将得票最高的类赋予X。
分类-多数表决;
预测-均
值
提升:
对训练集有放回随即抽样产生N个训练子集,导出N个模型。
每个训练元组都赋予一个
权重。
对每个训练元组从1-N模型迭代地进行,重整每个元组的权重;
使得在下一轮更关注上
一轮误分的元组,并计算每个模型的投票权重。
分类返回具有最大权重的类
聚类挖掘:
在同一个簇中的对象之间具有较
要划分的类是未知的,将数据对象分组成为多个类或簇,高的相似度,而不同簇中的对象差别较大。
GeneralApplications:
'
APatternRecognition
丄SpatialDataAnalysis
丄ImageProcessing
EconomicScienee(especiallymarketresearch)
WWW
划分方法:
Documentclassification
K-均值:
以K为输入参数,将对象分为K个簇,是簇内〜,簇外〜
1、随机选择K个对象作为K个簇的中心
ClusterWeblogdatatodiscovergroupsofsimilaraccesspatterns
2、选择离K最近的点形成簇
3、根据簇中的点计算新的均值,这个均值可以看做簇的中心OR质心
4、以新的中心更新簇,从步骤2开始重复直到簇不再变化
优点:
相对可伸缩,有效率;
往往终止局部最优解;
缺点:
需要用户给出K;
对分类属性的数据均值无定义;
对噪声和离群点敏感;
不适
合凹形;
Applicableonlywhenmeanisdefined,thenwhataboutcategoricaldata?
K-中心点算法:
簇的中心必须落在某个实在的点上,对噪声不敏感。
确定N个对象的K各划分,
随机选择k个初始代替代表对象代表,其余的每个对象聚类到与其最相似的代表对象所在的簇。
然后反复地试图选择簇的更好的代表对象(用代价函数计算聚类的质量,代表对象被误差更小的
对象)。
层次方法:
凝聚的(开始每个对象形成单独的组,然后逐次合并相近的对象或组,直到所有组
合并成一个或满足终止条件);
分裂的(开始所有对象置于一个簇,每次迭代分裂成更小的簇,知道每个对象在一个簇中或满足终止条件);
在运行中可随时停止,不要K参数;
不可回溯
基于密度的方法:
只要邻域中的密度(数据点的数目)大于每个阈值,就继续聚类。
1、发现任意形状的簇;
2、处理噪声;
3、一次扫描;
4、需要密度参数作为终止条件;
DBSCAN:
(具有噪声的基于密度的聚类应用)密度可达和密度相连(这个可能要考)
1、邻域
2、核心对象(对象的eps邻域至少包含minpts的对象,成为核心对象)
3、直接密度可达:
p从q直接密度可达:
如果q为核心对象且p在q的eps邻域
4、密度可达:
如果对象链Pi+1是从Pi关于E和MINPTS直接密度可达的,p1=q,pn=p,则对象p从q关于E和MINPTS密度可达的。
5、密度相连:
p,q都是从o关于E和MINPTS密度可达的,则p到q是关于〜密度相连的。
基于密度的簇是基于密度可达性的最大密度相连对象的集合,不包含在簇中的认为是噪声(MINPTS的限制不可能成为核心对象)。
离群点:
与数据的一般行为或模型不一致。
AProblem
Findtopnoutlierpoints
AApplications:
Creditcardfrauddetection
TelecomfrauddetectionCustomersegmentation
Medicalanalysis
1、基于统计分布:
例如正态分布的3b以外的区域
2、基于距离:
阈值1:
D;
阈值2:
水平eg:
95%
到其他点的距离有大于95%的大于D,则认为是离群点
3、基于偏差:
它通过检查一组对象的主要特征来识别离群点,背离这种对象的被认为是离群点。