1 数据挖掘每章知识.docx
《1 数据挖掘每章知识.docx》由会员分享,可在线阅读,更多相关《1 数据挖掘每章知识.docx(20页珍藏版)》请在冰豆网上搜索。
1数据挖掘每章知识
第一章
1.数据挖掘定义:
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.不能在原数据库上做决策而要建造数据仓库的原因:
传统数据库的处理方式和决策分析中的数据需求不相称,主要表现在:
⑴决策处理的系统响应问题⑵决策数据需求的问题⑶决策数据操作的问题
3.数据仓库的定义
W.H.Inmon的定义:
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。
公认的数据仓库概念基本上采用了W.H.Inmon的定义:
数据仓库是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
4.数据仓库与数据挖掘的关系:
⑴数据仓库系统的数据可以作为数据挖掘的数据源。
数据仓库系统能够满足数据挖掘技术对数据环境的要求,可以直接作为数据挖掘的数据源。
⑵数据挖掘的数据源不一定必须是数据仓库系统。
数据挖掘的数据源不一定必须是数据仓库,可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据。
5. 数据挖掘的功能——7个方面:
⑴概念描述:
对某类对象的内涵进行描述,并概括这类对象的有关特征。
①特征性描述②区别性描述
⑵关联分析:
若两个或多个变量间存在着某种规律性,就称为关联。
关联分析的目的就是找出数据中隐藏的关联网。
⑶分类与预测①分类②预测
⑷聚类分析:
客观的按被处理对象的特征分类,将有相同特征的对象归为一类。
⑸趋势分析:
趋势分析——时间序列分析,从相当长的时间的发展中发现规律和趋势。
⑹孤立点分析:
孤立点:
数据库中包含的一些与数据的一般行为或模型不一致的数据。
⑺偏差分析:
偏差分析——比较分析,是对差异和极端特例的描述,揭示事物偏离常规的异常现象。
6. 数据挖掘常用技术:
⑴数据挖掘算法是数据挖掘技术的一部分
⑵数据挖掘技术用于执行数据挖掘功能。
⑶一个特定的数据挖掘功能只适用于给定的领域。
按照上述思想,数据挖掘技术主要包含以下几种:
⑴聚类检测方法⑵决策树方法⑶人工神经网络方法。
人工神经网络方法:
前馈式网络、反馈式网络和自组织网络。
7. 遗传算法基本算子:
繁殖、交叉和变异。
8.数据挖掘应用领域:
⑴金融业⑵保险业⑶零售业⑷科学研究⑸其他领域
9. 数据挖掘研究方向:
(1)专门用于知识发现的形式化和标准化的数据挖掘语言;
(2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法;
(3)网络环境下的数据挖掘技术;
(4)加强对各种非结构化数据的挖掘。
10. 数据挖掘应用的热点:
(1)网站的数据挖掘
(2)生物信息或基因的数据挖掘(3)文本的数据挖掘
11. 数据挖掘技术是一门综合性的技术领域,主要涉及数据库、人工智能和数理统计3个技术领域。
12. 数据挖掘产生的前提是:
从大量数据中找出隐藏在其中的、有用的信息和规律;计算机技术和信息技术的发展使其有能力处理这样大量的数据。
第二章
1.主题:
是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。
从信息管理的角度——在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。
从数据组织的角度——一些数据集合,对分析对象进行了比较完整的、一致的数据描述,这种描述不仅涉及数据自身,还涉及数据之间的关系。
2.数据仓库数据的4个基本特征:
⑴数据仓库的数据是面向主题的;
⑵数据仓库的数据是集成的;
⑶数据仓库的数据是不可更新的;
⑷数据仓库的数据是随时间不断变化的。
3.元数据“关于数据的数据”,如传统数据库中的数据字典就是一种元数据。
元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心。
4.元数据在数据仓库中的作用
⑴为决策支持系统分析员和高层决策人员服务提供便利 ⑵解决面向应用的操作型环境和数据仓库的复杂关系
5.元数据的分类
⑴按元数据的类型:
关于基本数据、用于数据处理和关于企业组织结构的元数据。
⑵按抽象级别:
概念级、逻辑级和物理级的元数据。
⑶按元数据承担的任务:
静态和动态
⑷从用户的角度:
技术元数据和业务元数据。
6.元数据的内容
⑴数据源的元数据
⑵数据模型的元数据
⑶数据准备区元数据
⑷数据库管理系统元数据
⑸前台元数据
7.粒度的概念
粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。
分为两种形式:
⑴按时间段综合数据的粒度
⑵样本数据库 (根据采样率的高低来划分
8.粒度划分
⑴先估算数据仓库中的总的行数,然后进行粒度的划分。
⑵粒度划分的决定性因素并非总的数据量,而是总的行数。
⑶因为对数据的存取通常是通过存取索引来实现的,而索引是对应表的行来组织的,即在某一索引中每一行总有一个索引项,索引的大小只与表的总行数有关,而与表的数据量无关。
9.分割
⑴概念 分割是指把逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储的方法。
⑵优势 使用数据分割能够便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率。
使用数据分割同时也可有效地支持数据概括。
⑶标准 可以按照时间、业务类型、地理分布等对数据进行分割。
在许多情况下,数据分割采用的标准不是单一的,往往是多个标准的组合。
例如,按照季节和业务类型进行数据分割,将同一时间和同一业务的数据合并在一起。
⑷考虑的因素 ①数据量②数据分析处理的对象③粒度分割的策略
⑸数据量的估算(一种估算数据仓库所占空间的方法)
①估算数据仓库中需要建立的表数目。
②对每一个已知的表,计算1行所占字节数的最大估计值和最小估计值。
③统计在1年内可能出现的数据行的最大行数和最小行数。
④统计在5年内可能出现的数据行的最大行数和最小行数。
⑤计算每个表所占的存储空间大小,公式如下:
1年总的最大空间=一行最大值×1年内最大行数+索引空间 1年总的最小空间=一行最小值×1年内最小行数+索引空间
⑥分别计算数据仓库中所有表的1年内可能出现的最大行数和最小行数及它们所占用的最大存储空间和最小存储空间和5年内可能出现的最大行数和最小行数及它们所占用的最大存储空间和最小存储空间。
10.数据仓库系统设计与数据库系统设计的不同
⑴面向的处理类型不同
⑵面向的需求不同
⑶系统设计的目标不同
⑷两者的数据来源或系统的输入不同
⑸系统设计的方法和步骤不同
11.数据仓库的清理
⑴数据加入到失去原有细节的一个轮转综合结构数据组织形式的文件中;
⑵数据从高性能的介质转移到大容量介质上(如从硬盘转移到光盘);
⑶数据从数据仓库系统中真正清除;
⑷数据从体系结构的一个层次转移到另一个层次等。
12.数据仓库系统设计与数据库系统设计的不同
⑴面向的处理类型不同
⑵面向的需求不同
⑶系统设计的目标不同
⑷两者的数据来源或系统的输入不同
⑸系统设计的方法和步骤不同
13.数据集市通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。
也称为部门级数据仓库。
数据集市有两种:
从属的数据集市和独立的数据集市
第三章 数据预处理
1.原始数据存在的几个问题:
不一致;重复;含噪声;维度高。
2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
3.数据挖掘中使用的数据的原则
应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:
尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
4.处理空缺值的方法:
忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
5.噪声数据的处理方法:
分箱;聚类;计算机和人工检查结合;回归
6.分箱:
分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。
所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。
把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。
在采用分箱技术时,需要确定的两个主要问题就是:
如何分箱以及如何对每个箱子中的数据进行平滑处理。
分箱的方法:
有4种:
等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。
这是最简单的一种分箱方法。
统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
例:
客户收入属性income排序后的值(人民币元):
800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
统一权重:
设定权重(箱子深度)为4,分箱后:
统一区间:
设定区间范围(箱子宽度)为1000元人民币,分箱后
用户自定义:
如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
7.数据平滑方法:
按平均值平滑、按边界值平滑和按中值平滑。
⑴按平均值平滑
对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
⑵按边界值平滑
用距离较小的边界值替代箱中每一数据。
⑶按中值平滑
取箱子的中值,用来替代箱子中的所有数据。
8.聚类:
将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
9.9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。
10.数据集成:
将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。
考虑以下几个问题:
1.模式匹配2.数据冗余3.数据值冲突
11. 数据变换:
1.平滑2.聚集3.数据概化4.规范化
(1)最小-最大规范化
(2)零-均值规范化(3)小数定标规范化
5.属性构造
12.数据集成:
将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。
考虑以下几个问题:
1.模式匹配2.数据冗余3.数据值冲突
13.数据归约:
目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
数据归约的方法:
1.数据立方体聚集:
把聚集的方法用于数据立方体。
2.维归约:
检测并删除不相关、弱相关或冗余属性。
3.数据压缩:
选择正确的编码压缩数据集。
4.数值压缩:
用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。
5.离散化和概念分层生成:
使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
14.数据立方体聚集 :
是数据的多维建模和表示,由维和事实组成。
维归约:
去掉不相关的属性,减少数据挖掘处理的数据量。
属性子集选择的基本方法包括以下几种:
1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约
数据压缩:
方法分为两类:
无损压缩和有损压缩
数值归约常用的方法:
1.直方图2.聚类3.抽样:
不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归
15.数据变换涉及以下几个方面:
1.平滑2.聚集3.数据概化4.规范化
(1)最小-最大规范化
(2)零-均值规范化(3)小数定标规范化5.属性构造
第四章 数据仓库和挖掘频繁模式、关联和相互关系
1、数据挖掘分类:
从数据分析角度出发,数据挖掘可以分为两种类型:
描述型数据挖掘——以简洁概述的方式表达数据中的存在一些有意义的性质。
预测型数据挖掘——通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型,并将该模型用于预测未来新数据的有关性质。
2 、广义知识的概念
(1)定义:
广义知识是指类别特征的概括性描述知识,也称为概念描述。
它反映同类事物共同性质,是对数据的概括、精炼和抽象。
广义知识是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。
(2)最简单的描述型数据(广义知识)挖掘就是定性归纳。
定性归纳常常也称为概念描述。
这里概念描述涉及一组(同一类别)的对象,诸如:
商店常客等。
概念描述生成对数据的定性描述和对比定性描述。
定性概念描述提供了一个有关数据整体的简洁清晰描述(概念内涵)
对比定性概念描述提供了基于多组(不同类别)数据的对比概念描述(概念外延)
3.广义知识的发现方法
数据挖掘功能:
数据泛化,是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。
对大量数据进行有效灵活的概述方法主要有两种:
1.数据立方体2.面向属性的规约
⑴ 数据立方方法(又称为OLAP方法)进行数据泛化,就是在数据立方中存放着预先对部分或所有维(属性)的聚合计算结果。
对多维数据立方的数据泛化和数据细化工作,可以通过roll up或drill down操作实现 上卷(roll-up):
汇总数据 消减数据立方中的维数(维规约),或将属性值泛化为更高层次的概念(概念分层向上攀升) 下钻(drill-down):
上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 数据立方体方法局限性:
①数据类型限制:
多数商用数据立方的实现都是将维的类型限制在数值类型方面,而且将处理限制在简单数值聚合方面。
由于许多应用涉及到更加复杂数据类型的分析,此时数据立方体的方法应用有限。
②缺乏一定的标准:
数据立方方法并不能解决概念描述所能解决的一些重要问题,诸如:
在描述中应该使用哪些维?
在泛化过程应该进行到哪个抽象层次上。
这些问题均要由用户负责提供答案的。
(2)面向属性的规约(AOI)
基本思想:
首先利用关系数据库查询来收集与任务相关的数据,并通过对任务相关数据集中各属性不同值个数的检查完成数据泛化操作。
数据泛化操作是通过属性消减或属性泛化(又称为概念层次提升)操作来完成的。
通过合并(泛化后)相同行并累计它们相应的个数。
这就自然减少了泛化后的数据集大小。
所获(泛化后)结果以图表和规则等多种不同形式提供给用户。
AOI方法的第一步就是首先利用数据库查询语言从大学数据库中将(与本挖掘任务相关的)学生数据抽取出来;然后指定一组与挖掘任务相关的属性集。
而在另一方面,用户或许会提供过多的属性,这时就需要利用前面数据预处理所介绍的数据清理和维归约方法从描述型数据挖掘中过滤掉无关或弱相关的属性。
AOI所涉及的操作主要有两种:
①属性消除:
它基于以下规则进行:
若一个属性(在初始数据集中)有许多不同数值,且(a)该属性无法进行泛化操作(如:
没有定义相应的概念层次树),或(b)它更高层次概念是用其它属性描述的,这时该属性就可以从数据集中消去.
②属性泛化:
它是基于以下规则进行:
若一个属性(在初始数据集中)有许多不同数值,且该属性存在一组泛化操作,则可以选择一个泛化操作对该属性进行处理。
控制泛化过程的方法:
①属性泛化阈值控制:
该技术就是对所有属性统一设置一个泛化阈值,或每个属性分别设置一个阈值;若一个属性不同取值个数大于属性泛化阈值,就需要对相应属性作进一步的属性消减或属性泛化操作。
数据挖掘系统通常都有一个缺省属性阈值(一般从2到8) ②泛化关系阈值控制:
若一个泛化关系中内容不相同的行数(元组数)大于泛化关系阈值,这就需要进一步进行相关属性的泛化工作。
否则就不需要作更进一步的泛化。
通常数据挖掘系统都预置这一阈值(一般为10到30)
这两个技术可以串行使用,即首先应用属性阈值控制来泛化每个属性;然后再应用泛化关系阈值控制来进一步减少泛化关系的(规模)大小。
定义2 设I={ i1, i2,„, ij,„,im }是D中全体项目组成的集合,称为项集。
I的任何子集X( X I )称为D中的项目集(Itemset)。
若|X|=K,则称集合X为K项集。
设 ti 和 X分别为D中的事务和项目集,如果X ti,则称事务 ti 包含项目集X。
显然, ti I。
5.关联知识反映一个事件和其他事件之间依赖或相互关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。
6.关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。
随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。
例如:
从大量的商业交易记录中发现有价值的关联知识就可帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。
7.挖掘关联知识的一个典型应用实例就是市场购物分析 “什么商品组或集合顾客多半会在一次购物时同时购买”
给定:
事务数据库, 每个事务是一系列商品(一个消费者一次购买的物品) 找到:
所有 的规则,这些规则能够表明这些列商品和另一系列商品相关。
E.g., 购买汽车配件的人中有98%会购买汽车服务 应用:
8.关联知识的发现方法
⑴基本概念:
项集:
一个数据项的集合就称为项集(Itemset)
k−项集:
一个包含k个数据项(属性)的项集就称为k−项集。
例:
{computer, financial_management_software}就是一个2-项集。
支持度:
一个项集的出现频度就是整个交易数据集中包含该项集的交易记录数,这也称为是该项集的支持度(support count)。
满足最小支持度阈值:
若一个项集的出现频度大于最小支持度阈值乘以交易记录集D中记录数,那么就称该项集满足最小支持度阈值 最小支持频度:
满足最小支持度阈值所对应的交易记录数就称为最小支持频度(minimum support count)。
强规则:
同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。
频繁项集:
满足最小支持阈值的项集就称为频繁项集(frequent itemset)。
所有频繁k−项集的集合就记为Lk。
⑵Apriori算法:
一种最有影响的挖掘布尔关联规则频繁集的算法,使用候选项集找频繁项集。
基本思想:
①发现所有的频繁项集,根据定义,这些项集的频度至少应等于(预先设置的)最小支持频度;
②根据所获得的频繁项集,产生相应的强关联规则。
根据定义这些规则必须满足最小信任度阈值。
Apriori算法具体做法:
利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。
这一循环方法就是利用k-项集来产生(k+1)−项集。
具体做法就是:
①首先,通过扫描数据集,产生一个大的候选数据项集,并计算每个候选数据项发生的次数,然后基于预先给定的最小支持度生成频繁1-项集的集合,该集合记作L1;②然后基于L1和数据集中的数据,产生频繁2-项集L2;③用同样的方法,直到生成频繁n-项集Ln,其中已不再可能生成满足最小支持度的(N+1)-项集。
④最后,从大数据项集中导出规则。
得出下列规则:
(1)买了摩托车的顾客同时买手套或头盔的支持度是40% ,置信度是66.6%;
(2)买了手套的顾客同时买摩托车或头盔的支持度是40%,置信度是66.6%;
(3)买了头盔的顾客同时买手套或摩托车的支持度是40%,置信度是50%。
按照第
(1)条关系,将摩托车降价以促销手套或头盔,就可能赔本;而按照第(3)条关系,将头盔降价以促销摩托车,就能盈利;利用第
(2)条关系,将手套降价以促销摩托车,有可能引不起顾客的兴趣。
9.分类:
把给定的数据划分到一定的类别中。
分类是预测分类标号,即离散型。
分类知识:
反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识
10.分类规则的挖掘常用方法:
⑴决策树方法⑵贝叶斯方法⑶人工神经网络方法⑷ 粗集方法⑸遗传算法
11.对各种分类方法比较标准
预测准确率—描述(学习所获)模型能够正确预测未知对象类别或(类别)数值的能力。
速度—描述在构造和使用模型时的计算效率。
鲁棒性—描述在数据带有噪声和有数据遗失情况下,(学习所获)模型仍能进行正确预测的能力。
可扩展性—描述对处理大量数据并构造相应学习模型所需要的能力。
易理解性—描述学习所获模型表示的可理解程度
12.通过分析由属性描述的数据库元组来构造模型。
每个元组属于一个预定义的类,由类标号属性确定。
用于建立模型的元组集称为训练数据集,其中每个元组称为训练样本。
由于给出了类标号属性,因此该步骤又称为有指导的学习。
如果训练样本的类标号是未知的,则称为无指导的学习(聚类)。
13.分类与聚类的辨析
分类(classification )是这样的过程:
它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。
分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。
分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。
聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。
它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。
与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。
其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。
14.预测型知识的概念
预测(prediction)是构造和使用模型评估无标号样本类,或评估给定的样本可能具有的属性或区间值
预测型知识:
根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。
预测的目的是从历史数据中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。
在这种观点下,分类和回归是两类主要预测问题。
其中分类是预测离散或标称值,而回归用于预测连续或有序值。
一般认为:
用预测法预测类标号为分类,用预测法预测连续值为预测。
连续值的预测一般用回归统计技术建模。
回归方法包括:
线性回归、多元回归、非线性回归和其他回归方法等。
15.偏差型知识:
对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。
偏差即异常,在数