数据仓库复习提纲.docx
《数据仓库复习提纲.docx》由会员分享,可在线阅读,更多相关《数据仓库复习提纲.docx(18页珍藏版)》请在冰豆网上搜索。
数据仓库复习提纲
数据库应用技术(数据仓库与数据挖掘复习提纲)
说明:
考试形式:
闭卷
考试题型:
填空、选择、判断、名词解释、简答题、综合题。
(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)
另外:
本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。
~
一、名词解释:
1、数据仓库:
是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程;
2、数据挖掘:
就是从大量数据中获取有效的、新颖的、潜在有用的、最终可以理解的模式的过程;简单的说是从大量数据中提取或挖掘知识,又被称为数据库中的知识发现。
3、操作数据存储:
是一种DW的混合形式,它面向主题的、及时的、最近的和集成的信息,用于支持企业的日常的全局应用和决策制定,其中数据可以作为DW的通用数据源。
4、OLAP:
是数据库系统主要应用,支持复杂的分析操作,侧重决策支持,且提供直观易懂的结果。
5、商业智能:
是数据仓库(DW)、联机分析处理(OLAP)、数据挖掘等技术与资源管理系统ERP结合起来应用于商业活动实际过程中,实现了技术服务于决策的目的。
二、简答题:
1、试叙述数据仓库系统与传统数据库系统的区别:
/
(1)、操作型数据库中的数据针对事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的;
(2)、操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是并构的,而数据仓库中的数据在对原有分期的数据库数据做抽取、清理的基础上经过系统的加工、汇总和整理得到的;
(3)、操作型数据库中的数据通常实时更新,数据根据需要及时发生变化,数据仓库的数据主要用于决策分析,对涉及的数据操作主要是数据查询和定期更细,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存;
(4)、操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史单位,因此总是包括一个时间维,以便可以研究趋势和变化。
2、试叙述数据仓库设计的步骤及每一步完成的工作:
(1)、概念模型:
界定系统的边界;确定主要的主题域;
(2)、技术准备工作:
技术评估;技术环境准备;
(3)、逻辑模型设计:
分析主题域;粒度层次的划分;确定数据分割策略;关系模式定义;定义记录系统;
(4)、物理模型设计:
确定数据存储结构;确定索引策略;确定数据存放位置;确定存储分配;
(5)、数据仓库生成:
设计接口和数据装入;
(6)、数据仓库的使用和维护:
建立DSS;不断理解需求和完善系统;维护DW;
3、OLAP与OLTP的区别有哪些它们适合于运行在同一个服务器上吗为什么
OLTP
OLAP
用户
\
操作人员,低层管理人员
决策人员,高级管理人员
功能
日常操作处理
分析决策
DB设计
面向应用
面向主题
:
数据
当前的,最新的细节的,
二维的分立的
历史的,聚集的,
多维的集成的,统一的
存取
读/写数十条记录
读上百万条记录
*
工作单位
简单的事务
复杂的查询
用户数
上千个
上百万个
DB大小
100MB-GB
…
100GB-TB
时间要求
具有实时性
对时间的要求不严格
主要应用
数据库
数据仓库
?
4、为什么要进行数据的预处理及其方法:
(适当举例即可)
(1)、在现实社会中,存在着大量的“脏”数据
1)、不完整性:
缺少感兴趣的属性;感兴趣的属性缺少部分属性值;仅仅包含聚合数据,没有详细数据;
2)、噪音数据:
数据中包含错误的信息;存在着部分偏离期望值的孤立点;
3)、不一致性
数据结构的不一致性;Label的不一致性;数据值的不一致性;
¥
(2)、数据挖掘的数据源可能是多个互相独立的数据源
关系数据库;多维数据库(DataCube);文件、文档数据库
(3)、数据转换
为了数据挖掘的方便
(4)、海量数据的处理
数据归约(在获得相同或者相似结果的前提下)
数据预处理的方法:
、
(1)、数据清理
填入缺失数据;平滑噪音数据;确认和去除孤立点;解决不一致性;
(2)、数据集成
多个数据库、DataCube和文件系统的集成;
(3)、数据转换
规范化、聚集等;
(4)、数据归约
在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减;
》
(5)、数据离散化
对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数。
5、在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
6、对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么讨论哪种方法最有效,在什么条件下最有效。
7、数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣
8、为了提高数据仓库的性能,可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗
9、数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式
(1)、简单堆积文件
(2)、轮转综合文件(3)、简单直接文件(4)、连续文件
$
10、一般来说,数据仓库采用什么样的数据模型与OLTP的数据库模型相比,这些模型有什么特点
11、数据仓库的设计包括哪些内容
收集、分析和确认业务分析需求,分析和理解主题和元数据,事实及其量度,粒度和维度的选择与设计,数据仓库的物理存储方式的设计等。
12、在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同
内容:
(1)、DW的主题描述:
主题名,公共码键,描述信息等;
(2)、外部数据和非结构化数据的描述:
外部数据源名,存储地点,存储内容描述;
(3)、记录系统定义:
主题名,属性名,数据源系统,源表名,源属性名;
—
(4)、逻辑模型的定义:
关系名,属性1,…,属性n;
(5)、数据进入DW的转换规则;
(6)、数据的抽取历史;
(7)、粒度的定义;
(8)、数据分割的定义;
(9)、广义索引:
广义索引名,属性1,…,属性n;
(10)、有关存储路径和结构的描述。
{
定义:
元数据是关于数据的数据,它描述了数据的结构、内容、码、索引等项内容。
功能:
(1)、元数据为决策人员访问DW提供直接或辅助信息;
(2)、元数据描述和管理从DBS到DW的数据转换;
(3)、元数据要管理DW中的数据。
13、什么是维、维层次、维成员举例说明:
维:
观察数据的特定角度,比如时间维;
维层次:
数据的维可以存在细节程度不同的多个描述方面,比如时间维可以由日期、月份、季度、年等不同的层次来描述;
维成员:
维的一个取值称为该维的一个维成员。
若一个维是多层次的,则该维的维成员是在不同维层次的取值的组合,比如2014年夏季6月22日;
14、OLAP提供哪些基本操作
(1)、切片:
选定二维数组的一个二维子集的动作;
(2)、切块:
选定二维数组的一个三维子集的动作;
(3)、旋转:
改变一个页面显示的维方向的操作;
(4)、上卷:
通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。
(5)、下钻:
下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。
下钻可以通过沿维的概念分层向下或引入新的维来实现。
(6)、查询多维数据库的星型网查询模型:
多维数据库查询也可以基于星型网模型。
星型网由从中点发出的射线组成,其中每一条射线代表一个维概念分层。
】
15、OLAP服务器有哪些实现方法它们的优劣是什么
(1)、关系OLAP(ROLAP)服务器
优势:
没有大小限制;现有的关系数据库技术可以沿用;可以通过SQL实现详细数据与概要数据的存储;现有数据库已经对OLAP做了很多优化,包括并行存储,并行查询,并行数据管理,基于成本的查询优化,位图索引、SQL的OLAP扩展等大大提高了OLAP的速度。
缺点:
一般比MDD相应的速度慢;不支持有关预计算的读写操作;SQL无法完成部分计算:
无法完成多行的计算;无法完成维之间的计算。
(2)、多维OLAP(MOLAP)服务器
优势:
性能好,相应速度快;专为OLAP所设计支持高性能的决策支持计算,如:
复杂的跨维的计算;多用户的读写操作;行级的计算。
缺点:
增加系统复杂度,增加系统培训及维护费用;受操作系统平台中文件大小的限制,难以达到TB级(10-20G)需要进行预计算,可能导致数据爆炸;无法支持维的动态变化,缺乏数据模型和数据访问的标准。
(3)、混合OLAP(HOLAP)服务器
]
16、为什么不能依靠传统的业务处理系统决策分析
(1)、所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不太关心数据查询的方便与快捷。
(2)、业务数据往往被存放于分散的衣钩环境中,不易统一查询问题,而且还有大量的历史数据处于脱机状态,形同虚设。
(3)、业务数据的数据库模式针对事务处理系统而设计,数据的格式和描述方式并不太适合非计算机专业人员进行业务上的分析和统计。
17、自然演化体系结构中存在的问题
(1)、“蜘蛛网”问题;
(2)、数据缺乏可信性:
a、数据无时机;b、数据算法上的差异;c、抽取的多层;d、外部数据问题;
(3)、生产问题:
生产率低;
—
(4)、从信息到数据的转换不可行性:
a、集成化问题;b、没有足够的历史数据
18、试述建立多维数据库的过程
(1)、选择主题域及其主题域的商业过程;
(2)、确定事实表的粒度;
(3)、区分每一个事实表的维层次;
(4)、区分事实表的度量;
(5)、确定每一个维表的属性;
(6)、让用户验证数据类型。
:
19、数据挖掘的主要方法
统计分析方法、决策树、人工神经网络、基因算法、粗糙集、联机分析处理技术
20、数据挖掘中的数据分类是个两步过程,简述每步过程
(1)、学习:
建立一个模型,描述预定的数据类集或概念集,该模型是通过分析由属性描述的DB元组而构造的。
假定每个元组属于一个预定义的类,由类标号属性确定。
为建立模型所使用的元组形成训练数据集。
其中的单个元组称作训练样本,并随机地由样本群选取。
由于提供了每个训练样本的类标号,该步也称作有指导的学习。
(2)、分类:
首先评估模型(分类法)的预测准确率。
保持方法是一种使用类标号样本测试集的简单方法。
这些样本随机选取,并独立于训练样本。
模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。
对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。
21、试述商业智能系统的演化过程
(1)、第一代:
基于主机的查询与报表、面向专家
早期的商务信息系统使用批处理应用程序为商业用户提供它们所需的信息。
@
第一代的商务信息系统只能被诸如业务分析人员之类的熟悉数据且有相当计算机经验的人员使用。
管理人员很少能够使用这些早期的系统,他们必须依靠信息提供者来解答他们的问题,并给他们所需要的信息。
(2)、第二代:
数据仓库
第二代信息系统应用了数据仓库技术。
从而使性能有了一个飞跃。
(3)、第三代:
商业智能
数据仓库仍然不能完全解决商业用户的需求问题。
22、ODS与DW的区别:
—
(1)、存放的数据内容不同(最大差别)
ODS:
当前或接近当前数据,细节数据,可联机更新
DW:
历史数据,细节数据和综合数据,不可变快照
(2)、数据量是不同等级
(3)、技术支持不同
ODS:
要支持面向记录的联机更新,又要保证数据与源数据库系统中数据的一致性,需要的技术支持同面向应用的DBS的一样复杂。
DW:
只需支持装入和存取。
(4)、面向的需求不同
。
ODS:
满足企业的全局应用(企业级OLTP和即时OLAP)或作为DW的通用数据源。
DW:
长期趋势分析或战略决策。
(5)、用户不同
ODS:
企业的中层管理者。
DW:
DSS分析员或企业高级决策者。
23、ODS的作用
(1)、在ODS上可实现企业级的OLTP
(2)、在ODS上可实现即时OLAP
!
(3)、分层ODS体系
24、ODS在DB-ODS-DW三层体系结构的作用
(1)、一方面,在原来独立的各个DB基础上建立了一个一致的、面向主题的数据环境,使原有的DBS得到改造。
(2)、另一面,ODS将DW和DB隔离开,使DW卸去数据集成,结构转换等一系列负担,使往DW的数据追加通过ODS进行从而变得异常简单,大大简化了DW的数据传输接口及DW管理数据的复杂度。
(3)、由于数据已经过ODS集成,并且是面向主题组织的,所以所作的变换仅限于数据模式上某些差异的转换,以及对码结构的改造。
这样使得DW与操作型环境的界面变得简单了。
25、概念分层最常用的两种类型
(1)、概念分层:
以DB模式中属性的全序或偏序来定义的概念分层称作模式分层。
(2)、集合分组分层:
通过将给定维或属性的值离散化或分组来定义概念分层。
{
26、试述维层次和类的概念有什么不同
1)维层次和类表达的意义不同
维层次:
是维所描述的变量的不同综合层次。
类:
某一子集维成员的共同特征。
2)在层次和类上进行分析的动作不同
按维层次关系分析
从维低层到高层的数据综合分析;
从维高层到低层的数据钻取分析。
《
按维成员的类分析
分类(选择类属性分类)
归纳(归纳出类的共同特征)
三、计算题
1、假设有如下的“雇员基本信息”表的结构及数据,其中属性“工资”为类别标识属性,属性“部门”、“职位”、“年龄”作为决策属性集,其中属性“年龄”与“工资”以离散化,表中给出的是离散化后的数据,属性“工资”列中同时给出了相应元组的类别属性
部门
职位
—
年龄
工资
销售部
高级
31—40
41K—55KC2
销售部
初级
(
21—30
26K—40KC3
销售部
初级
31—40
26K—40KC3
系统部
初级
【
21—30
41K—55KC2
系统部
高级
31—40
56K—70KC1
系统部
初级
*
21—30
41K—55KC2
系统部
高级
41—50
56K—70KC1
市场部
高级
.
31—40
41K—55KC2
市场部
初级
31—40
41K—55KC2
秘书处
高级
,
41—50
26K—40KC3
秘书处
初级
21—30
26K—40KC3
根据示例中的类别标识属性的取值,将该示例分为3类(即m=3),分别是c1、c2、c3。
训练样本数据集S中,共有11个元组,其中c1、c2、c3类所对应的子集R1、R2、R3中元组的个数分别为r1=2、r2=5、r3=4。
计算得到集合S的关于分类的期望信息量:
,
对每一个决策属性计算其期望信息量(即熵值):
对属性“部门”有:
当部门=‘销售部’时:
s11=0,s21=1,s31=2,I(s11,s21,S31)=;
当部门=‘系统部’时:
s12=2,s22=2,s32=0,I(s12,s22,S32)=1;
当部门=‘市场部’时:
s13=0,s23=2,s33=0,I(s13,s23,S33)=0;
当部门=‘秘书处’时:
s14=0,s24=0,s34=2,I(s14,s24,S34)=0;
由此得出属性“部门”的熵值:
】
因此属性“部门”的信息增益为:
Gain(部门)=I(r1,r2,r3)-E(部门)=;
同理,可以分别得到属性“职位”及“年龄”的信息增益:
Gain(职位)=;
Gain(年龄)=。
由于属性“部门”具有最大的信息增益值,故而选择该属性作为决策树的根节点。
对应每一个分枝,重复上述步骤,例如,对于分枝:
属性部门=“销售部”来说,可以生成下表给出的子集,对该子集重复上述属性选择操作。
依次对其他分枝进行相同操作,可得到一个完整的决策树。
之后就可以对该决策树进行剪枝操作了。
&
部门
职位
年龄
工资
销售部
高级
31—40
41K—55KC2
)
销售部
初级
21—30
26K—40KC3
销售部
初级
31—40
26K—40KC3
]
决策树:
通过简单贝叶斯分类对未知数据进行分类:
P(C1)=2/11=
P(C2)=5/11=
P(C3)=4/11=
P(部门=‘系统部’|C1)=2/2=1
)
P(部门=‘系统部’|C2)=2/5=
P(部门=‘系统部’|C3)=0/4=0
P(职位=‘高级’|C1)=2/2=1
P(职位=‘高级’|C2)=2/5=
P(职位=‘高级’|C3)=1/4=
P(年龄=‘21—30’|C1)=0
P(年龄=‘21—30’|C2)=2/5=
P(年龄=‘21—30’|C3)=2/4=
】
有上述结果可导出
P(X|C1)=0
P(X|C2)=××=
P(X|C3)=0
P(X|C1)P(C1)=0
P(X|C2)P(C2)=×=
P(X|C1)P(C3)=0
简单贝叶斯分类方法的预测结果是该未知训练样本数据有可能属于C2类,该结果表示对于年龄在21—30岁之间,所属部门是系统部同时其职位属于高级的员工的工资水平最有可能在41K—55K之间。
}
2、假设现有如下所示的一个事务数据库,数据库中有10个事务,即|D|=10。
假定这些事务中的项按顺序存放。
最小支持度minsup=20%,最小置信度阈值minconf=65%,求出强关联规则。
TID
项列表
T1
1,2,5
T2
1,2
?
T3
2,4
T4
1,2,4
T5
1,3
T6
1,2,3,5
#
T7
1,2,3
T8
2,5
T9
2,3,4
T10
3,4
^
利用Apriori算法产生频繁项集的过程如下:
(1)由I={1,2,3,4,5}的所有项目直接产生1-候选项集C1,计算其支持度。
去除支持度小于supmin的项集,形成1-频繁集L1,如下表所示:
项集C1
支持度
项集L1
支持度
{1}
/
6/10
{1}
6/10
{2}
8/10
{2}
8/10
{3}
|
5/10
{3}
5/10
{4}
4/10
{4}
4/10
{5}
!
3/10
{5}
3/10
(2)为发现频繁2-项集L2,首先利用L1中的各项目组合连接,来产生2-候选集C2;然后扫描记录集,以获得C2中各项集的支持度。
去除支持度小于supmin的项集,形成2-频繁集L2,如下表所示:
项集C2
支持度
项集L2
、
支持度
{1,2}
5/10
{1,2}
5/10
{1,3}
3/10
{1,3}
(
3/10
{1,4}
1/10
{1,5}
2/10
{1,5}
2/10
{2,3}
(
3/10
{2,3}
3/10
{2,4}
3/10
{2,4}
3/10
{2,5}
^
3/10
{2,5}
3/10
{3,4}
2/10
{3,4}
2/10
{3,5}
1/10
{4,5}
0/10
(3)为发现频繁3-项集L3,首先利用L2中的各项目组合连接,来产生3-候选集C3;删除存在子集不属于L2的项集,去除支持度小于supmin的项集,形成3频繁集L3如下表所示:
项集C3
支持度
项集L3
支持度
{1,2,3}
2/10
{1,2,3}
2/10
{1,2,5}
2/10
{1,2,5}
2/10
{1,3,5}
1/10
{2,3,4}
1/10
{2,3,5}
1/10
{2,4,5}
0/10
(4)为发现频繁4-项集L4,重复上述步骤,则C4为{1,2,3,5},删除存在子集不属于L2的项集,则L4为空集。
因此算法终止,找出了所有的频繁集。
(5)关联规则如下,每个都列出置信度:
由最小置信度阈值60%得出,第2、3、6、8、9项可以作为强规则输出。