数据挖掘重点版.docx
《数据挖掘重点版.docx》由会员分享,可在线阅读,更多相关《数据挖掘重点版.docx(18页珍藏版)》请在冰豆网上搜索。
数据挖掘重点版
题型:
1、单项选择题(每小题1分,共10分)2多项选择题(每小题2分,共20分)
3简答题(每小题15分,共30分)4、算法实现(每小题20分,共40分)
重点
1、企业资源的要素组成
企业资源包括如下要素。
有形资源:
(1)人:
人力资源。
(2)财:
资金资源。
(3)物:
包括材料、设备和能源在内的资源。
无形资源:
数据、信息和知识
2、】
3、数据资源的要素组成
数据资源由以下3个要素组成
(1)有用的数据。
(2)作为企业神经系统的信息基础设施(InformationInfrastructure),如计算机硬件、软件以及网络系统。
(3)人的因素,如系统人员和用户。
4、数据资源管理生命周期的各个过程
(1)数据获取:
确保能够收集到必要的原始数据。
(销售小票、员工工资单)
(2)数据加工:
将原始数据加工成为有用的信息。
(统计报表、工作总结)
(3)数据利用:
确保能够在适当的时间、以适当的形式得到必要的数据和信息;从数据中发现决策所需要的知识。
(发展战略、销售计划)
(4)数据报废:
在适当的时候废弃过时的数据,并代之以及时、准确的数据。
5、数据资源管理的技术框架
(1)面向业务操作的数据资源管理:
包括数据库、事务处理系统(TPS)以及管理信息系统(MIS)。
(2)面向决策分析的数据资源管理:
包括数据仓库以及与之紧密相关决策支持系统(DSS)。
(3)知识资源的管理和利用:
包括知识库以及基于知识的系统。
6、数据库与数据仓库的区别
7、数据仓库的关键特征
数据仓库关键特征一——面向主题
面向主题(subject-oriented),数据仓库显著区别于关系数据库系统的一个特征
数据仓库关键特征二——数据集成
数据仓库的集成性(integrated):
是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。
数据仓库关键特征三——随时间而变化
—
数据仓库是从历史的角度提供信息
数据仓库关键特征四——数据不易丢失
8、商务智能的四大部分
包含:
商务分析、OLAP、数据挖掘和数据仓库四大部分
9、多维数据模型的存储形式
在多维数据模型中,数据以数据立方体(datacube)的形式存在数据立方体允许以多维数据建模和观察。
它由维和事实定义维是关于一个组织想要记录的视角或观点。
每个维都有一个表与之相关联,称为维表。
多维数据模型围绕中心主题组织,该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字
事实指的是一些数字度量
10、数据仓库应用的关键步骤
1、数据源
数据仓库的数据源是指存储在数据仓库中的数据来源,数据仓库在使用过程中所涉及的数据来源,主要包括:
(
①业务数据
②历史数据
③办公数据
④Web数据⑤外部数据
⑥数据源元数据
2、数据准备
数据的标准化处理
数据的过滤与匹配
数据的净化处理
标明数据的时间戳
确认数据质量
.
元数据抽取和创建
3、数据重整
数据的集成与分解
数据的概括与聚集
数据的预算与推导
数据的翻译与格式化
数据的转换与映射
4、数据仓库创建
数据仓库的建模
数据的概括
数据的聚集
<
数据的调整与确认
建立结构化查询
5、建立数据集市/知识挖据库
6、数据仓库的数据存取与使用
11、数据仓库的概念模型
数据仓库概念模型的设计是给出一个数据仓库的粗略蓝本,以此为设计图纸来确认数据仓库的设计者是否已经正确地了解数据仓库最终用户的决策信息需求。
在概念模型的设计中,必须将注意力集中在对商务的理解上,要保证管理者的所有决策信息需要都被归纳进概念模型。
在构建数据仓库的概念模型时,可以采用在业务数据处理系统中经常应用的实体联系模型:
E-R图
12、数据仓库的粒度模型
在蔡博课件3的第97-103页
13、元数据
元数据描述了数据仓库的数据和环境,即关于数据的数据(dataaboutdata)。
它描述了数据的结构、内容、码、索引等项内容。
-
传统数据库中的数据字典是一种元数据,但在数据仓库中,元数据的内容比数据库中的数据字典更丰富、更复杂
14、OLAP与OLTP的对比
OLAP是以数据仓库为基础的,其最终数据来源与OLTP一样均来自底层的数据库系统,但由于二者面对的用户不同,OLTP面对的是操作人员和低层管理人员,OLAP面对的是决策人员和高层管理人员,因而数据的特点与处理也明显不同。
用户和系统的面向性面向顾客(事务)VS.面向市场(分析)
数据内容当前的、详细的数据VS.历史的、汇总的数据
数据库设计实体-联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计
数据视图当前的、企业内部的数据VS.经过演化的、集成的数据
访问模式事务操作VS.只读查询(但很多是复杂的查询)
任务单位简短的事务VS.复杂的查询
访问数据量数十个VS.数百万个
用户数数千个VS.数百个
\
数据库规模100M-数GBVS.100GB-数TB
设计优先性高性能、高可用性VS.高灵活性、端点用户自治
度量事务吞吐量VS.查询吞吐量、响应时间
OLTP
OLAP
数据库数据
数据库或数据仓库数据
细节性数据
综合性数据
当前数据
{
历史数据
经常营更新
不更新,但周期性刷新
一次性处理的数据量小
一次处理的数据量大
对响应时间要求高
响应时间合理
用户数量大
用户数据相对较少
面向操作人员,支持日常操作
面向决策人员,支持管理需要
!
面向应用,事务驱动
面向分析,分析驱动
15、多维分析的基本分析动作
切片(Slice)、切块(Dice)、旋转(Pivoting)
1、切片(Slice)
定义1在多维数组的某一维上选定一组成员的动作称为切片,即在多维数组(维1,维2,……,维n,变量)中选一维,即维i,并取其一维成员(设为“维成员Vi”),所得的多维数组的子集(维1,……,维成员Vi,……,维n,变量)称为在维i上的一个切片。
定义2选定多维数组的一个二维子集的动作叫作切片,即选定多维数组(维1,维2,……,维n,变量)中的两个维:
维i和维j,在这两个维上取某一区间或任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i和维j上一个二维子集,称这个二维子集为多维数组在维i和维j上的一个切片,表示为:
(维i,维j,变量)。
2、切块(Dice)
定义1在多维数组的某一维上选定某一区间的维成员的动作称为切块,即限制多维数组的某一维的取值区间。
显然,当这一区间只取一个维成员时,即得到一个切片(切片的定义1)。
定义2选定多维数组的一个三维子集的动作称为切块。
即选定多维数组(维1,维2,……,维n,变量)中的三个维:
维i、维j和维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i、维j和维r上一个三维子集,称该三维子集为多维数组在维i、维j和维r上的一个切块,表示为:
(维i,维j,维r,变量)。
<
3、旋转(Pivoting)
旋转即是改变一个报告或页面显示的维方向。
4、下钻/上探
下钻(drilldown):
从汇总数据深入到细节数据进行观察或增加新维。
例如,用户分析“各地区、城市的销售情况”时,可以对某一个城市、某一年度的销售额,可以继续细分为各个季度的销售额。
通过下钻的功能,使用户对数据能更深入了解,更容易发现问题,做出正确的决策
上探(rollup):
是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;是指自动生成汇总行的分析方法。
通过向导的方式,用户可以定义分析因素的汇总行,例如对于各地区各年度的销售情况,可以生成地区与年度的合计行,也可以生成地区或者年度的合计行。
16、Codd关于OLAP产品的十二条评价准则(少了第十二条)
准则1OLAP模型必须提供多维概念视图
准则2透明性准则
准则3存取能力准则
准则4稳定的报表性能
准则5客户客/服务器体系结构
、
准则6维的等同性准则
准则7动态的稀疏矩阵处理准则
准则8多用户支持能力准则
准则9非受限的跨维操作
准则10直观的数据操纵
准则11灵活的报表生成
17、知识发现KDD的过程
18、数据挖掘工具与传统数据分析工具的比较
《
19、数据挖掘技术的分类
(1)、根据数据挖掘任务,可以分为关联规则挖掘、数据分类规则挖掘、聚类规则挖掘、依赖性分析和依赖性模型发现,以及概念描述、偏差分析、趋势分析和模式分析等;
(2)、根据所挖掘的数据库对象来看,可以分为关系型数据库、面向对象型数据库、空间型数据库、时间型数据库、多媒体型数据库和异构型数据库等;
(3)、按挖掘方法分类:
包括统计方法,机器学习方法,神经网络方法和数据库方法
(4)其它分法:
经常将数据挖掘技术分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。
有时也将数据挖掘技术分为预测模式和知识性模式的验证驱动(Verification-driven)和发现驱动(Discovery-driven)两大类。
20、数据挖掘系统的组成
)
数据库、数据仓库或其它信息库:
它表示数据挖掘对象是由一个(或组)数据库、数据仓库、数据表单或其它信息数据库组成。
通常需要使用数据清洗和数据集成操作,对这些数据对象进行初步的处理;
数据库或数据仓库服务器:
这类服务器负责根据用户的数据挖掘请求,读取相关的数据;
知识库:
此处存放数据挖掘所需要的领域知识,这些知识将用于指导数据挖掘的搜索过程,或者用于帮助对挖掘结果的评估。
挖掘算法中所使用的用户定义的阈值就是最简单的领域知识;
数据挖掘引擎:
这是数据挖掘系统的最基本部件,它通常包含一组挖掘功能模块,以便完成定性归纳、关联分析、分类归纳、进化计算和偏差分析等挖掘功能
模式评估模块:
该模块可根据趣味标准(interestingmeasure),协助数据挖掘模块聚焦挖掘更有意义的模式知识。
当然该模块能否与数据挖掘模块有机结合,与数据挖掘模块所使用的具体挖掘算法有关。
显然若数据挖掘算法能够与知识评估方法有机结合将有助提高其数据挖掘的效率;
可视化用户界面:
该模块帮助用户与数据挖掘系统本身进行沟通交流。
一方面用户通过该模块将自己的挖掘要求或任务提交给挖掘系统,以及提供挖掘搜索所需要的相关知识;另一方面系统通过该模块向用户展示或解释数据挖掘的结果或中间结果;此外该模块也可以帮助用户浏览数据对象内容与数据定义模式、评估所挖掘出的模式知识,以及以多种形式展示挖掘出的模式知识。
21、数据挖掘的过程
数据挖掘是一个反复迭代的人机交互处理过程。
该过程需要经历多个步骤,并且很多决策需要由用户提供。
从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。
(1)定义商业问题
|
(2)建立数据挖掘库
(3)分析数据
(4)准备数据
(5)建立模型
(6)评价和解释
(7)实施
22、数据预处理的主要方法
数据清洗(数据清理)填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性
数据集成集成多个数据库、数据立方体或文件
数据变换规范化和聚集
数据归约(消减)得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
!
包括:
数据聚合、消减维数、压缩数据、数据块消减等。
数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要
2.Clementine中常用的建模节点
神经网络、、C&RT、QUEST、CHAID、Kohonen、K—Means、TwoStep、Apriori、GRI、Carma、序列、主成份/因子分析、特征选择、回归、Logistic
算法:
1、关联规则(Apriori算法)
Apriori算法是最有影响的关联规则挖掘算法之一。
它的中心思想是首先通过对事务数据库进行扫描,找出支持度不小于最小支持度的所有项目,即频繁1-项集.接下来的工作是循环的,每次循环分2步进行:
1)连接,对频繁k-项集中的项进行连接.
2)减枝,在减枝这一步主要根据一个频繁项目集的任何一个子集都应该是频繁的这一思想对连接后的项目集进行筛选,删除那些子集不是频繁集的项目集,得出候选(k+1)-项集.即对数据库进行扫描,计算候选项的支持度,从候选集中删除支持度小于最小支持度的候选项,进而得出频繁(k+1)-项集.循环的终止条件是频繁k-项集为空,也就是说再也找不出相关联的项目了.
连接:
用Lk-1自连接得到Ck
\
修剪:
一个k-项集,如果他的一个k-1项集(他的子集)不是频繁的,那他本身也不可能是频繁的。
伪代码:
Ck:
Candidateitemsetofsizek
Lk:
frequentitemsetofsizek
L1={frequentitems};
for(k=1;Lk!
=;k++)dobegin
Ck+1=candidatesgeneratedfromLk;foreach
transactiontindatabasedo
incrementthecountofallcandidatesinCk+1thatarecontainedint
Lk+1=candidatesinCk+1withmin_supportend
returnkLk;
#
Apriori算法由连接和剪枝两个步骤组成。
连接:
为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选k项集记为Ck。
Lk-1中的两个元素L1和L2可以执行连接操作
的条件是
Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中(为什么)。
因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk。
为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。
"
2、聚类分析(二元变量相异度)
二元变量(binaryvariable)
一个二元变量只有两种状态:
0或1;.smoker来表示是否吸烟
一个对象可以包含多个二元变量。
二元变量的可能性表:
如何计算两个二元变量之间的相似度
如何计算两个二元变量之间的相似度
一种差异计算方法就是根据二值数据计算差异矩阵。
如果认为所有的二值变量的权值均相同,那么就能得到一个2×2条件表,如图所示;表中q表示在对象i和对象j中均取1的二值变量个数;r表示在对象i取1,但在对象j中取0的二值变量个数;s表示在对象i中取0而在对象j中取1的二值变量个数;t则表示在对象i和对象j中均取0的二值变量个数。
二值变量的总个数为p,那么就有:
p=q+r+s+t
对称的VS.不对称的二元变量
对称的二元变量指变量的两个状态具有同等价值,相同权重;.性别
基于对称的二元变量的相似度称为恒定的相似度,可以使用简单匹配系数评估它们的相异度:
不对称的二元变量中,变量的两个状态的重要性是不同的;.HIV阳性VSHIV阴性基于不对称的二元变量的相似度称为非恒定的相似度,可以使用Jaccard系数评估它们的相异度
例:
二元变量之间的相异度(病人记录表)
Name是对象标识
gender是对称的二元变量
其余属性都是非对称的二元变量