商务智能复习.docx
《商务智能复习.docx》由会员分享,可在线阅读,更多相关《商务智能复习.docx(15页珍藏版)》请在冰豆网上搜索。
商务智能复习
2016合工大商务智能复习
概念:
数据仓库;粒度;数据仓库模型;聚类;关联规则及频繁项集;核函数;距离度量;多维分析;OLAP及OLTP;数据预处理;ETL;元数据及其类型;KDD;特征选择方法;
熵的计算;众数;数据清理;数据增长管理技术;ID3算法;文本挖掘及应用;电子商务环境下的商务智能;决策树;数据挖掘;空缺值处理方法;遗传算法特点;K-均值算法及聚类;Web及Web挖掘;
题型:
选择;填空;名词解释;简答;综述;
1数据仓库:
数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策。
数据仓库
事务型处理:
即操作型处理,是指对数据库的联机操作处理OLTP。
事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。
它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。
在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。
分析型处理:
用于管理人员的决策分析。
它帮助决策者分析数据以察看趋向、判断问题。
分析型处理经常要访问大量的历史数据,支持复杂的查询。
分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。
多库系统的限制
可用性:
源站点或通信网络故障将导致系统瘫痪,源站点不能通过网络在线联入多库系统。
响应速度:
全局查询多级转换和通信传输,延迟和低层效率影响响应速度。
系统性能:
总体性能取决于源站点中性能最低的系统,影响系统性能的发挥;
系统开销:
每次查询要启动多个局部系统,通信和运行开销大
实施数据仓库的条件
数据积累已达到一定规模
面临激烈的市场竞争
在IT方面的资金能得到保障
数据仓库性质
面向主题:
数据仓库中的数据是按照各种主题来组织的。
面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。
集成性:
数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。
为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。
稳定性:
数据仓库内的数据有很长的时间跨度,数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,数据仓库中的数据是不可实时更新的。
时变性:
数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。
数据仓库的技术要求:
复杂分析的高性能体现,对提取出来的数据进行集成,对进行高层决策的最终用户的界面支持。
数据仓库系统的组成:
n源数据:
数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、HTML文档等。
n数据仓库管理系统:
元数据库及元数据管理部件:
元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。
数据转换部件:
该部件把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。
数据集成部件:
该部件根据定义部件的规则、统一各源数据的编码规则,并净化数据,根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。
数据仓库管理部件:
它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。
n数据仓库前端工具集
查询/报表工具:
以图形化方式和报表方式显示数据,帮助了解数据的结构、关系以及动态性。
OLAP工具:
通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察。
数据挖掘工具:
从大量数据中挖掘出具有规律性的知识,以及数据之间的内在联系。
前端开发工具:
提供用户编程接口,便于在现有系统的基础上进行二次开发,增强系统的伸缩性。
n数据仓库:
在数据仓库系统中,数据仓库是一个数据存储集合,它的存储形式通常有多维数据库,关系型数据库及其他存储方式。
2粒度:
对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。
粒度越小,综合程度越低,回答查询的种类越多;粒度越高,综合程度越高,查询的效率也越高。
在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。
3数据仓库模型:
概念模型,逻辑模型,物理模型。
由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。
概念模型简化了这个过程并且允许用户与开发者和其他用户建立联系:
星型图:
数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。
与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。
物理数据模型:
数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。
在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。
重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。
4聚类:
聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可大,组内数据的差异尽可能小。
簇(Cluster):
一个数据对象的集合
聚类分析
把一个给定的数据对象集合分成不同的簇;
聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可大,组内数据的差异尽可能小。
聚类分析:
把一个给定的数据对象集合分成不同的簇。
(簇:
一个数据对象的集合)。
聚类需求:
n可伸缩性
n能够处理不同类型的属性
n能发现任意形状的簇
n在决定输入参数的时候,尽量不需要特定的领域知识;
n能够处理噪声和异常
n对输入数据对象的顺序不敏感
n能处理高维数据
n能产生一个好的、能满足用户指定约束的聚类结果
n结果是可解释的、可理解的和可用的
聚类方法
层次聚类方法把数据组织成若干簇,并形成一个相应的树状图进行聚类。
5关联规则是寻找在同一个事件中出现的不同项的相关性。
对任意的项目集X,若事务数据库D中ɛ%的事务包含项目集X,则项目集的支持率为ɛ,记为support(X)=ɛ,其中包含项目集X的事务数称为项目集X的频度,记为count(X)。
若项目集X的支持率大于或等于用户指定的最小支持率,则项目集X称为频繁项目集
*6核函数:
设x,z∈X,X属于R(n)空间,非线性函数Φ实现输入空间X到特征空间F的映射,其中F属于R(m),n
(1)其中:
<,>为内积,K(x,z)为核函数。
从式
(1)可以看出,核函数将m维高维空间的内积运算转化为n维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题,从而为在高维特征空间解决复杂的分类或回归问题奠定了理论基础。
*7欧氏距离(EuclidDistance)也称欧几里得度量、欧几里得距离,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
在二维空间中的欧氏距离就是两点之间的直线段距离。
例如,p和q间的欧氏距离定义如下:
De(p,q)=[(x-s)^2+(y-t)^2]^1/2对于距离度量,距点(x,y)的距离小于或等于某一值r的像素是中心在(x,y)且半径为r的圆平面。
8多维分析:
客户维——用户维,时间维——财政时间维和用户时间维,地理位置维——物理地理、Web地理和站点地理维,商品维——内容和活动维,促销维——内部促销和外部促
9什么是OLAP
定义1:
OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。
通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
定义2:
OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
(OLAP委员会的定义)
OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
OLAP特性快速性:
用户对OLAP的快速反应能力有很高的要求。
可分析性:
OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
多维性:
多维性是OLAP的关键属性。
系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。
信息性:
不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
ROLAP与MOLAP比较
ROLAP以表的形式存储实视图,MOLAP把多维实视图在概念上看成一个超立方体,多维实视图组成一个多维数组;ROLAP节省存储空间、灵活性强与关系数据库保持一致性好;MOLAP则在性能和管理的简便性方面好。
MOLAP用多维数组实现多维实视图,需要很大的存储空间;在多维数组中,很可能有些单元是空白的;MOLAP与关系数据库系统从存储结构到查询语言都有相当大的差别,不可能在RDBMS的基础上实现。
销9维
10数据预处理
11
数据抽取,数据转换,数据清洗,数据转换。
1.数据分析
2.使Web站点适合电子商务产生的点击流
3.创建高层ETL设计和体系结构
4.设计特定的点击流组件
5.设计和建立维表
6.设计和建立事实表ETL组件
7.建立数据加载机制和整合ETL程序
8.为数据管理建立支持
12元数据:
是用来描述数据的数据。
它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。
元数据可用文件存在元数据库中。
元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。
关于源数据的元数据:
它是现有的操作型业务系统的数据源的描述信息,是对不同平台上的数据源的物理结构和含义的描述。
关于数据仓库多维模型的元数据
标准维:
由一张维表构成,标准的星型模型采用这种维和事实表构成的。
雪花维:
由相互关联的多个维表构成,每个维表中的字段构成了维的层次。
时间维:
用来描述事实数据的时间属性。
13kdd
14特征选择方法
15熵的计算
16众数
17数据清理
数据清理处理内容
格式标准化
异常数据清除
错误纠正
重复数据的清除
常用方法:
聚类,空值处理,冗余和重复。
18数据增长和管理技术
19id3算法
任意样本分类的期望信息:
I(s1,s2,……,sm)=-∑Pilog2(pi)(i=1..m)
其中,数据集为S,m为S的分类数目,Pi
Ci为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数
由A划分为子集的熵:
E(A)=∑j(|s1j|+……+|smj|)/|s|*I(s1j,……,smj)
A为属性,具有V个不同的取值
信息增益:
Gain(A)=I(s1,s2,……,sm)-E(A)
20文本挖掘及运用
21商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。
商务智能不是通常的业务处理。
它的目标是如何更快、更容易地做更好的决策。
商务智能的作用:
制定合适的市场营销策略
改善顾客智能
经营成本与收入分析
提高风险管理能力
改善业务洞察力
提高市场响应能力
商务智能系统的功能
数据集成
信息呈现
经营分析
战略决策支持
商务智能动态
实时
标准化
嵌入式商务智能
移动商务智能
大众化趋势
供应商的动向
22决策树
决策树
一个树形的结构
内部节点上选用一个属性进行分割
每个分叉都是分割的一个部分
叶子节点表示一个分类
决策树使用:
对未知数据进行分割,按照决策树上采用的分割属性逐层往下,直到叶子节点。
23数据挖掘
数据挖掘:
从数据中提取正确的、有用的、未知的和综合的信息并用它进行决策的过程
24空缺值处理方法
处理空缺值的方法:
有些记录的值可能空缺,可以不使用这些记录;某一个属性可能会有大量的空缺值,可以丢弃这个属性.
另一种处理空缺值的方法是归咎
从别的记录中随机抽取一个值添入。
取其他记录中对应属性的最频值,中间数或平均数。
对其他记录中这个属性的值分布做一个统计模型,然后根据分布情况,随机选一个值。
试图用统计或挖掘技术从相似记录的值中预估空缺值
25遗传算法特点
26k均值算法及聚类
K-均值算法:
给定k,从n个对象中任意选择k个对象作为初始聚类中心;计算每个对象与聚类中心的距离,把它们划到不同的簇;重新计算每个簇的聚类中心;知道聚类中心不再发生变化
27web及web挖掘
1.Web的特点
Web的庞大性。
Web的动态性。
Web的异构性。
非结构化的数据结构。
形形色色的用户群体
Web内容挖掘
⑴基于文本信息的挖掘
和通常的平面文本挖掘比较类似
⑵基于多媒体信息的挖掘
基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像挖掘。
3.Web结构挖掘
从WWW的组织结构和链接关系中推导知识
Web结构挖掘有助于用户找到相关主题的权威站点,并可以指向众多权威站点的相关主题站点。
Hub页面提供了指向权威页面的链接集合。
Web使用记录的挖掘
通过挖掘Web日志文件和相关数据,来发现用户访问Web页面的模式。
一般的访问模式追踪和个性化的使用纪录追踪
Web使用记录的挖掘要经过数据预处理阶段、模式识别阶段、模式分析阶段三个阶段。
Web数据挖掘的意义
⑴有助于网络资源的开发和利用
⑵有利于提高网络服务水平
⑶是构建科学的决策支持系统的需要
作用1.网络营销
2.客户的聚类分析
3.客户的个性化服务
4.挖掘潜在的客户
5.挽留老客户
28数据仓库体系结构
1业务分析
2数据仓库系统架构(数据获取,数据管理,信息传递)
3数据etl
4建立数据集市
5元数据管理
29序列模式子串
30k均值和dbscan特点
输入:
数值型记录集
k>1的正整数
输出:
k组样本
每个样本划归到一个类别
给定k,从n个对象中任意选择k个对象作为初始聚类中心;
repeat
计算每个对象与聚类中心的距离,把它们划到不同的簇;
重新计算每个簇的聚类中心;
until聚类中心不再发生变化
DBSCAN算法是一种常见的基于密度的聚类方法,大致过程如下:
首先把所有的样本标记为核心点、边界点或噪声点。
其中一个样本是核心点,满足在该样本的邻域(由距离函数和用户指定的参数R确定)内的样本的个数大于给定的阈值Min。
边界点是位于某核心样本邻域的非核心样本,而噪声点指既非核心样本又不是边界样本的样本。
然后对每个样本,做如下处理:
删除噪声点,而足够靠近的核心点(它们的距离小于R)聚集在同一簇中,与核心点足够靠近(它们的距离小于R)的边界点也聚集在与核心点相同的簇中。
DBSCAN算法可以有效地发现数据库中任意形状的簇,自动确定聚类的簇个数,但也存在一定的局限性,例如参数R和Min仍然需要用户依靠经验设置