数据挖掘知识点整理.docx
《数据挖掘知识点整理.docx》由会员分享,可在线阅读,更多相关《数据挖掘知识点整理.docx(21页珍藏版)》请在冰豆网上搜索。
数据挖掘知识点整理
第一章
1、数据挖掘的概念及其特点
数据挖掘
概念:
在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)
数据挖掘(从数据中发现知识)
特点:
从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)
2、数据挖掘的核心(KDD)是什么?
知识挖掘(KDD)数据挖掘与知识发现
从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识
数据清理:
(这个可能要占全过程60%的工作量)
1、数据集成
2、数据选择
3、数据变换
4、数据挖掘(选择适当的算法来找到感兴趣的模式)
5、模式评估
6、知识表示
3、数据挖掘的体制结构。
4、数据挖掘的主要方法(能够区分)常用模式
5、
6、
7、
分类预测的说明:
比如:
按气候将国家分类,按汽油消耗定额将汽车分类
导出模型的表示:
判定树、分类规则、神经网络
可以用来预报某些未知的或丢失的数字值
聚类分析的说明:
例:
对WEB日志的数据进行聚类,以发现相同的用户访问模式
孤立点分析的说明
(应用)信用卡欺诈检测/移动电话欺诈检测/客户划分/医疗分析(异常)
第二章
1、数据仓库的概念(特点就在概念里)
数据仓库是一个
(1)面向主题的、
(2)集成的、(3)随时间而变化的、(4)不容易丢失的数据集合,支持管理部门的决策过程.
2、OLAP(联机分析处理)和OLTP(联机事务处理)的区别
1、用户和系统的面向性:
面向顾客(事务)VS.面向市场(分析)
2、数据内容:
当前的、详细的数据(事务)VS.历史的、汇总的数据(分析)
3、数据库设计:
实体-联系模型(ER)和面向应用的数据库设计(事务)VS.星型/雪花模型和面向主题的数据库设计(分析)
4、数据视图:
当前的、企业内部的数据(事务)VS.经过演化的、集成的数据(分析)
5、访问模式:
事务操作(事务)VS.只读查询(但很多是复杂的查询)(分析)
6、任务单位:
简短的事务VS.复杂的查询
7、访问数据量:
数十个VS.数百万个
8、用户数:
数千个VS.数百个
9、数据库规模:
100M-数GBVS.100GB-数TB
10、设计优先性:
高性能、高可用性VS.高灵活性、端点用户自治
11、度量:
事务吞吐量VS.查询吞吐量、响应时间
3、多维数据模型
在多维数据模型中,数据以数据立方体(datacube)的形式存在
数据立方体允许以多维数据建模和观察。
它由维和事实定义
维是关于一个组织想要记录的视角或观点。
每个维都有一个表与之相关联,称为维表。
多维数据模型围绕中心主题组织,该主题用事实表表示
事实表包括事实的名称或度量以及每个相关维表的关键字
事实指的是一些数字度量
一个n维的数据的立方体叫做基本方体。
给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。
0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。
3、几种常见的概念模型
星型模式(Starschema):
事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。
雪花模式(Snowflakeschema):
是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。
结果,模式图形成类似于雪花的形状。
事实星座(Factconstellations):
多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式(galaxyschema),或者事实星座(factconstellation)
4、一种数据挖掘查询语言DMQL
一种是立方体定义,一种是维定义
立方体定义(事实表)
definecube[]:
维定义(维表)
definedimensionas()
5、概念分层的概念
一个概念分层定义一个映射序列,将低层概念映射到更一般的高层概念
多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:
6、多维数据模型上的OLAP操作
上卷(roll-up):
汇总数据
通过一个维的概念分层向上攀升或者通过维规约
当用维归约进行上卷时,一个或多个维由给定的数据立方体删除
下钻(drill-down):
上卷的逆操作
由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现(为给定数据添加更多细节)
7、数据仓库设计的三种方法
(自顶向下法、自底向上法或者两者的混合方法)
自顶向下法:
由总体设计和规划开始
在技术成熟、商业理解透彻的情况下使用
自底向上法:
以实验和原型开始
常用在模型和技术开发的初期,可以有效的对使用的技术和模型进行评估,降低风险
混合方法:
上述两者的结合
8、元数据的概念,可以分为哪几类?
元数据就是定义数据仓库对象的数据
1、数据仓库结构的描述
仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容
2、操作元数据
包括数据血统(datalineage)、数据类别(currencyofdata),以及监视信息
3、汇总用的算法
4、由操作环境到数据仓库的映射
5、关于系统性能的数据
索引,profiles,数据刷新、更新或复制事件的调度和定时
6、商务元数据
商务术语和定义、数据拥有者信息、收费政策等
(技术元数据、业务元数据)
第三章
1、什么是数据预处理?
为什么进行?
预处理的主要方法和内容。
概念:
数据预处理是知识发现过程的重要步骤。
检测数据异常、尽早地调整数据,并归约待分析的数据,将在决策过程中得到高回报。
进行的原因:
现实世界的数据是“肮脏的”——数据多了,什么问题都会出现
不完整的:
有些感兴趣的属性缺少属性值,或仅包含聚集数据
含噪声的:
包含错误或者“孤立点”
不一致的:
在编码或者命名上存在差异
没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成
主要方法和内容:
数据清理:
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性
数据集成:
集成多个数据库、数据立方体或文件
数据变换:
规范化和聚集
数据归约:
得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
数据离散化:
数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要
所占工作量最多的过程:
数据清理
2、如何处理空缺值?
最理想的是哪个方法?
忽略元组:
当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。
人工填写空缺值:
工作量大,可行性低
使用一个全局变量填充空缺值:
比如使用unknown或-∞
使用属性的平均值填充空缺值:
使用与给定元组属同一类的所有样本的平均值
使用最可能的值填充空缺值:
使用像Bayesian公式或判定树这样的基于推断的方法(最理想)
3、什么是噪声,引起噪声的原因。
噪声:
一个测量变量中的随机错误或偏差
引起噪声数据的原因:
数据收集工具的问题、数据输入错误、数据传输错误、技术限制、命名规则的不一致。
4、数据平滑地分箱
分箱(binning):
首先排序数据,并将他们分到等深的箱中
然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等
方法:
price的排序后数据(单位:
美元):
4,8,15,21,21,24,25,28,34
划分为(等深的)箱:
箱1:
4,8,15
箱2:
21,21,24
箱3:
25,28,34
用箱平均值平滑:
箱1:
9,9,9
箱2:
22,22,22
箱3:
29,29,29
用箱边界平滑:
箱1:
4,4,15
箱2:
21,21,24
箱3:
25,25,34
5、数据变换(规范化、最小最大要求掌握,计算),并解释为什么要做这样的变换。
规范化:
将数据按比例缩放,使之落入一个小的特定区间
(最小-最大规范化、z-score规范化、小数定标规范化)
最小-最大规范化
数据规范化的一种方法是“最小—最大规范化”,即假设数据的取值区间为[old_min,old_max],“最小—最大规范化”即把这个区间映射到新的取值区间[new_min,new_max]。
对于任意一个在原来区间中的变量,在新的区间中都有一个值和它对应,计算公式为:
现假设“客户基本情况”表中的客户月收入属性的实际值范围为[2100,8300],要把这个属性值规范到[0,1],对月收入属性值5600请应用上述公式将其进行规范,并解释为什么要进行这样的数据变换才是适于挖掘的形式。
练习:
假设数据集D是某公司每月利润增长数据,数据单位为元,取值范围-13000---32000之间,5%点为-9000,95%点在280000,根据3-4-5规则划分区间。
规范化对于基于距离的分类算法(如聚类)和神经网络算法是非常重要的,可以保证输入值在一个相对小的范围内,加快训练速度;另外,不会发生因为输入值的范围过大而使权重过大的情况。
参考:
运算空间量小,处理小数总比大数方便,对于计算效率和速度都有好处
6、3—4—5规划(例子要求掌握)
自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间
规则的划分步骤:
1、如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7->2,3,2)
2、如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;
3、如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;
4、将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;
5、对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。
e.g.5%-95%
例子如下图(参考书上P90—91):
7、关于属性值的类型(名称、序数连续、区间)
8、离散化中的三种类型的属性值:
名称型——e.g.无序集合中的值;
序数——e.g.有序集合中的值;
连续值(区间)——e.g.实数
第四章
1、四种兴趣度量单位
常用的四种兴趣度的客观度量:
简单性:
模式是否容易被人所理解
模式结构的函数(模式的长度、属性的个数、操作符个数)。
e.g.规则长度或者判定树的节点个数。
确定性:
表示一个模式在多少概率下是有效的。
置信度(A=>B)=(包含A和B的元组值)/(包含A的元组值),
e.g.buys(X,“computer)=>buys(X,“software”)[30%,80%]
100%置信度:
准确的。
实用性:
可以用支持度来进行度量:
支持度(A=>b)=(包含A和B的元组数)/(元组总数)
e.g.buys(X,“computer)=>buys(X,“software”)[30%,80%]
同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。
新颖性:
提供新信息或提高给定模式集性能的模式
通过删除冗余模式来检测新颖性(一个模式已经为另外一个模式所蕴涵)
Location(X,“Canada”)=>buys(X,“Sony_TV”)[8%,70%]
Location(X,“Vancouver”)=>buys(X,“Sony_TV”)[2%,70%]
2、特征化单词、关联、分类。
数据挖掘语言,指定挖掘知识类型
特征化minecharacteristics数据区分minecomparison[aspattern_name]关联mineassociations分类mineclassification[aspattern_name]
第四章
1、数据挖掘可以分为描述性挖掘和预测性挖掘,概念描述属于描述性挖掘。
2、面向属性归纳的基本思想
面向属性归纳的基本思想:
1)、使用关系数据库查询收集任务相关的数据
2)、通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化
3)、通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作
4)、通过与用户交互,将广义关系以图表或规则等形式,提交给用户
3、数据概化的两种常用方法,属性删除和属性概化
数据概化的两种常用方法:
属性删除和属性概化
1、属性删除的适用规则:
对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除:
在此属性上没有概化操作符(比如该属性没有定义相关的概念分层)
该属性的较高层概念用其他属性表示
2、属性概化的使用规则:
如果初始工作关系中的某个属性具有大量不同值,且该属性上存在概化操作符,则使用该概化操作符对该属性进行数据概化操作
第五章
1、哪些属性可以删掉,如phone#,name
name:
删除属性
gender:
保留该属性,不概化
major:
根据概念分层向上攀升{文,理,工…}
birth_place:
根据概念分层location向上攀升
birth_date:
概化为age,再概化为age_range
residence:
根据概念分层location向上攀升
phone#:
删除属性
gpa:
根据GPA的分级作为概念分层
2、信息增益(计算)书上有个例子P131
3、特征化target充分、必要条件,量化规则。
写出一个规则能够理解并说出它的意思。
量化特征化规则
必要条件
量化区分规则
充分条件
量化描述规则
充要条件
给出
表明对99年AllElectronics公司的TV和计算机销售,如果一商品在欧洲售出,则其为TV的概率为25%…该公司40%的TV在欧洲售出…
4、对四分位的理解和四分位的极差。
最常用度量:
五数概括(基于四分位数)、中间四分位数区间和标准差
四分位数、孤立点和盒图
百分位数:
第k个百分位数是具有如下性质的值x:
数据项的k%在x上或低于x
四分位数:
Q1(25thpercentile),Q3(75thpercentile)
中间四分位数区间(IQR):
IQR=Q3–Q1
对倾斜分布的描述,除了IQR还常需两个四分位数Q1和Q3,以及中位数M,一个识别孤立点的常用规则是:
挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值
四分位,四分位数极差是多少?
Ppt上的:
百分位数(percentile):
第k个百分位数是具有如下性质的值x:
数据项的k%在x上或低于x
四分位数:
Q1(25thpercentile),Q3(75thpercentile)
中间四分位数区间(IQR):
IQR=Q3–Q1
对倾斜分布的描述,除了IQR还常需两个四分位数Q1和Q3,以及中位数M,一个识别孤立点的常用规则是:
挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值
XX的:
四分位差(quartiledeviation),也称为内距或四分间距(inter-quartilerange),它是上四分位数(QL)与下四分位数(QU)之差,通常用Qd表示。
计算公式为:
Qd=QL-QU
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。
四分位差不受极值的影响。
此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。
四分位差主要用于测度顺序数据的离散程度。
对于数值型数据也可以计算四分位差,但不适合分类数据。
四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数,即中位数)、Q3(第三四分位数)。
其中,Q3到Q1之间的距离的差又称为四分位差,记为Q。
四分位差越小,说明中间部分的数据越集中;四分位数越大,则意味着中间部分的数据越分散。
具体的:
1.极差、四分位数和四分位数极差
开始,让我们先学习作为数据散布度量的极差、分位数、四分位数、百分位数和四分位数极差。
设x1,x2,…,xN是某数值属性X上的观测的集合。
该集合的极差(range)是最大值(max())与最小值(min())之差。
假设属性X的数据以数值递增序排列。
想象我们可以挑选某些数据点,以便把数据分布划分成大小相等的连贯集,如图2.2所示。
这些数据点称做分位数。
分位数(quantile)是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
(我们说“基本上”,因为可能不存在把数据划分成恰好大小相等的诸子集的X的数据值。
为简单起见,我们将称它们相等。
)给定数据分布的第k个q-分位数是值x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0我们有q-1个q-分位数。
2-分位数是一个数据点,它把数据分布划分成高低两半。
2-分位数对应于中位数。
4-分位数是3个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
通常称它们为四分位数(quartile)。
100-分位数通常称做百分位数(percentile),它们把数据分布划分成100个大小相等的连贯集。
中位数、四分位数和百分位数是使用最广泛的分位数。
四分位数给出分布的中心、散布和形状的某种指示。
第1个四分位数记作Q1,是第25个百分位数,它砍掉数据的最低的25%。
第3个四分位数记作Q3,是第75个百分位数,它砍掉数据的最低的75%(或最高的25%)。
第2个四分位数是第50个百分位数,作为中位数,它给出数据分布的中心。
第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围。
该距离称为四分位数极差(IQR),定义为
IQR=Q3-Q1(2.5)
例2.10 四分位数极差。
四分位数是3个值,把排序的数据集划分成4个相等的部分。
例2.6的数据包含12个观测,已经按递增序排序。
这样,该数据集的四分位数分别是该有序表的第3、第6和第9个值。
因此,Q1=47000美元,而Q3=63000美元。
于是,四分位数极差为IQR=63000-47000=16000美元。
(注意,第6个值是中位数52000美元,尽管这个数据集因为数据值的个数为偶数有两个中位数。
)
第六章
1.什么是关联规则挖掘?
及常见应用?
概念:
从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。
应用:
“尿布与啤酒”、购物篮分析、分类设计、捆绑销售等
购物篮分析中
支持度
置信度
2.关联规则的两个兴趣度度量
对所有满足最小支持度和置信度的关联规则
3.Apriori算法求频繁项集
Apriori算法步骤:
第七章
1.分类vs预测概念典型应用
2.训练数据集和训练样本的概念。
训练数据集:
由为建立模型而被分析的数据元组形成
训练样本:
训练数据集中的单个样本(元组)
3.什么是判定树(决策树)?
如何应用它分类?
4.
priori算法利用的是Apriori性质:
频繁项集的所有非空子集也必须是频繁的。
4.多层关联——一致支持度
一致支持度:
对所有层都使用一致的最小支持度
优点:
搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索
缺点:
最小支持度值设置困难
太高:
将丢掉出现在较低抽象层中有意义的关联规则
太低:
会在较高层产生太多的无兴趣的规则
多层关联——递减支持度
使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难
递减支持度:
在较低层使用递减的最小支持度
每一层都有自己的一个独立的最小支持度
抽象层越低,对应的最小支持度越小
第八章
1、什么是聚类分析?
聚类分析:
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
聚类是一种无指导的学习:
没有预定义的类编号
2、聚类分析的数据通常分为哪五个?
二元变量、标称变量、序数型变量、比例标度变量、混合类型的变量
3.划分方法---簇的表示
(1)k-平均算法
由簇的平均值来代表整个簇
k-平均算法当邻近度函数采用曼哈顿距离的时候,合适的质心事簇中各个点的中位数
(2)k中心点算法
由处于簇的中心区域的某个值代表整个簇