BI学习心得.docx

上传人:b****7 文档编号:9432220 上传时间:2023-02-04 格式:DOCX 页数:22 大小:158.80KB
下载 相关 举报
BI学习心得.docx_第1页
第1页 / 共22页
BI学习心得.docx_第2页
第2页 / 共22页
BI学习心得.docx_第3页
第3页 / 共22页
BI学习心得.docx_第4页
第4页 / 共22页
BI学习心得.docx_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

BI学习心得.docx

《BI学习心得.docx》由会员分享,可在线阅读,更多相关《BI学习心得.docx(22页珍藏版)》请在冰豆网上搜索。

BI学习心得.docx

BI学习心得

BI学习心得

1BI是什么

通过学习理解,可将BI归结为一句话:

从数据中挖取利润。

1.1初识BI

初识BI的概念,是从《BI相关知识介绍.ppt》开始的。

通读之后,我了解三件事:

1)、沃尔玛将啤酒和尿布摆在一起出售,提高了啤酒的销量;

2)、BI是BusinessIntelligence的缩写,商务智能。

官方定义:

是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术。

3)、BI的分析过程图,如下:

图1.1—BIAnalyse的过程

同时,幻灯片中还介绍了大量的中英文概念,让我非常的混乱。

为了更好的学习了解BI,首先需要克服的就是名词解释,其次是通过实例了解BI的应用。

1.2常见名词浅释

●DataWarehouse:

数据仓库,是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。

与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。

而不是一种可以购买的产品。

●Datamart:

数据集市,或者叫做"小数据仓库"。

如果说数据仓库是建立在企业级的数据模型之上的话。

那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只是面向某个特定的主题。

数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

●OLAP(On-LineAnalyticalProcessing):

联机在线分析处理,是一类软件技术,它们使用户(业务分析师、经理和执行官)能够以交互形式快速、一致地探查数据,用户看到的是经过转换后的原始数据的各种信息视图,它们可以反映业务的真实维数。

●ROLAP:

基于Codd的12条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(starschema)就出现了。

后来又演化出雪花结构。

为了与多维数据库相区别,则把基于关系型数据库的OLAP称为RelationalOLAP,简称ROLAP。

代表产品有InformixMetacube、MicrosoftSQLServerOLAPServices。

●MOLAP:

ArborSoftware严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。

被人们称为MuiltdimensionOLAP,简称MOLAP,代表产品有Hyperion(原ArborSoftware)Essbase、ShowcaseStrategy等。

●ClientOLAP:

相对于ServerOLAP而言。

部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。

代表产品有BrioDesigner,BusinessObject。

●DSS:

决策支持系统(DecisionSupportSystem),相当于基于数据仓库的应用。

决策支持就是在收集所有有关数据和信息,经过加工整理,来为企业决策管理层提供信息,为决策者的决策提供依据。

●ETL:

数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。

构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

●Adhocquery:

即席查询,数据库应用最普遍的一种查询,利用数据仓库技术,可以让用户随时可以面对数据库,获取所希望的数据。

●EIS:

主管信息系统(ExecutiveInformationSystem),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。

●BPR:

业务流程重整(BusinessProcessReengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作,数据仓库的重要作用之一。

●BI:

商业智能(BusinessIntelligence),指数据仓库相关技术与应用的通称。

指利用各种智能技术,来提升企业的商业竞争力。

●DataMining:

数据挖掘,DataMining是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策

●CRM:

客户关系管理(CustomerRelationshipManagement),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。

但是,从商业运作的角度来讲,CRM其实应该算是一个古老的"应用"了。

比如,酒店对客人信息的管理,如果某个客人是某酒店的老主顾,那么该酒店很自然地会知道这位客人的某些习惯和喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。

当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间和服务。

这就是一种CRM。

●MetaData:

元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。

同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。

为数据仓库的发展和使用提供方便。

1.3实例应用

BI应用实例:

某家上市公司的销售副总裁每周五下午要和全国各大区的销售总监开视频会议,一般情况下他需要事先了解一下公司上周的销售情况,这时他进入公司的商业智能系统,查看销售周报表,报表的横坐标是时间,纵坐标有:

“销售目标”、“实际收入”、“收入指标达成率”。

这张报表显示了每周销售变化情况。

  副总裁为了进一步弄清楚某一大区及大区下属的几大城市的销售数据,只要使用钻取功能,用鼠标轻轻在屏幕上点击几下,该大区及大区下各城市的销售数据便一目了然。

钻取即这种从“全国水平”(宏观)到“地区水平”(微观)的分析过程。

然后,副总裁需要了解在某一区域的销售数据中,哪些是直销完成的,哪些是渠道完成的,这种从报表视图的某一个角度到另外一个角度的视角转换过程被称为“切片”。

钻取和切片的操作都非常简便,只需用鼠标简单地在电子报表上轻点几下即可完成。

在上面的分析过程中,涉及到了“维”这个概念,即观察问题的角度。

   这位销售副总裁的分析维度包括:

时间、大区、销售模式,以这三个维为三个轴线来观察数据,就形成了一个信息立方体,立方体的每一个小单元都包含了企业管理者需要追踪的消息,包括一个特定地区、特定时间、特定销售渠道的各项指标的全部信息,通过对立方体的切片或切块分割,可以从不同的视角观察各种数据。

通过“钻取”和“切片”,这位副总裁知道了销售情况的变化是哪个大区、哪些城市、直销或者代理渠道出现了问题,这种灵活快速的查询和分析如果通过过去的ERP报表查询是很难完成的。

通过实例可知,使用BI系统,可以将不同的数据源关联对应在一起,对企业信息进行管理、分析、自动生成报表,提高分析决策的效率和质量。

1.4BI的定义

商务智能是指将企业的各种数据及时地转换为企业管理者感兴趣的信息(或者知识),并以各种方式展现出来,帮助企业管理者进行科学决策,加强企业的竞争优势。

这里的数据不仅仅指企业内部的各种数据,而且包括企业外部的数据,例如行业、市场状况和客户资源的数据等等。

从技术角度看,商务智能的过程是企业的决策人员以企业中的数据仓库为基础,经由联机分析处理工具、数据挖掘工具加上决策规划人员的专业知识,从数据中获得有用的信息和知识,帮助企业获取利润。

从应用角度看,商务智能帮助用户对商业数据进行联机分析处理和数据挖掘,例如预测发展趋势、辅助决策、对客户进行分类、挖掘潜在客户等等。

从数据角度看,商务智能使得很多事务性的数据经过抽取、转换之后存入数据仓库,经过聚集、切片或者分类等操作之后形成有用的信息、规则,来帮助企业的决策者进行正确的决策。

综上所述,我认为BI的定义:

商务智能是利用各种技术,对数据进行收集、存储、分析并提供可视化界面显示,从而更容易、快捷的获得信息知识,帮助管理者做出更好的业务决策。

2BI技术简析

通过阅读资料,我认为把商业智能看成是一种解决方案的说法比较恰当。

它是将数据仓库、OLAP和数据挖掘等技术组合到一起的综合运用。

BI技术的关键是将来自不同的业务系统数据库中的数据,提取出来,进行清理以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。

商业智能的这个基本过程如图所示:

图2—BI结构图

一些文章中将BI分为四个主要阶段:

数据预处理、建立数据仓库、数据分析、数据展现。

同时认为数据仓库、OLAP和数据挖掘技术是商业智能的三大技术支柱。

2.1数据预处理——ETL

ETL是商业智能(BI)的重要组成部分,是英文Extract-Transform-Load的缩写,即填充、更新数据仓库的数据抽取、转换、装载的过程。

这是实现商业智能之前的数据采集步骤。

这一步骤完成之后,对库中数据的数据挖掘、分析处理才可以进行。

对于ETL而言,“是什么”是很容易理解的,也就是将分散的、不易利用的数据进行整理,变成规则清晰的、易于利用的、(可能同时还是)集中的数据。

2.1.1ETL设计

ETL的设计分三部分:

数据抽取、数据的清洗转换、数据的加载。

数据的抽取是从各个不同的数据源抽取到ODS(OperationalDataStore,操作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。

ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。

数据的加载一般在数据清洗完了之后直接写入DW(DataWarehousing,数据仓库)中去。

2.1.2ETL实现

ETL的实现有多种方法,常用的有三种。

一种是借助ETL工具(如Oracle的OWB、SQLServer2000的DTS、SQLServer2005的SSIS服务、Informatic等)实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合。

前两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。

SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。

第三种是综合了前面二种的优点,会极大地提高ETL的开发速度和效率。

2.1.3数据的抽取

这一部分需要在调研阶段做大量的工作,首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等等,当收集完这些信息之后才可以进行数据抽取的设计。

1、对于与存放DW的数据库系统相同的数据源处理方法

这一类数据源在设计上比较容易。

一般情况下,DBMS(SQLServer、Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问。

2、对于与DW数据库系统不同的数据源的处理方法

对于这一类数据源,一般情况下也可以通过ODBC的方式建立数据库链接——如SQLServer和Oracle之间。

如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中。

另外一种方法是通过程序接口来完成。

3、对于文件类型数据源(.txt,.xls)

可以培训业务人员利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取。

或者还可以借助工具实现,如SQLServer2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去。

4、增量更新的问题

对于数据量大的系统,必须考虑增量抽取。

一般情况下,业务系统会记录业务发生的时间,我们可以用来做增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间所有的记录。

利用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。

2.1.4数据的清洗转换

一般情况下,数据仓库分为ODS、DW两部分。

通常的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,在从ODS到DW的过程中转换,进行一些业务规则的计算和聚合。

1、数据清洗

数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

(1)不完整的数据:

这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。

对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。

补全后才写入数据仓库。

(2)错误的数据:

这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。

这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。

日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

(3)重复的数据:

对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。

数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。

对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。

数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。

2、数据转换

数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。

(1)不一致数据转换:

这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽取过来之后统一转换成一个编码。

(2)数据粒度的转换:

业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。

一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。

(3)商务规则的计算:

不同的企业有不同的业务规则、不同的数据指标,这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中,以供分析使用。

2.1.5数据的装载

ETL的装载部分,可查询的资料较少。

仅查阅到与抽取在一起的部分描述内容。

ETL的核心还是在于T这个过程,也就是转换,而抽取和装载一般可以作为转换的输入和输出,或者,它们作为一个单独的部件,其复杂度没有转换部件高。

和OLTP系统中不同,那里充满这单条记录的insert、update和select等操作,ETL过程一般都是批量操作,例如它的装载多采用批量装载工具,一般都是DBMS系统自身附带的工具,例如OracleSQLLoader和DB2的autoloader等。

2.1.6ETL日志、警告发送

1、ETL日志

ETL日志分为三类。

一类是执行过程日志,这一部分日志是在ETL执行过程中每执行一步的记录,记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式。

一类是错误日志,当某个模块出错的时候写错误日志,记录每次出错的时间、出错的模块以及出错的信息等。

第三类日志是总体日志,只记录ETL开始时间、结束时间是否成功信息。

如果使用ETL工具,ETL工具会自动产生一些日志,这一类日志也可以作为ETL日志的一部分。

记录日志的目的是随时可以知道ETL运行情况,如果出错了,可以知道哪里出错。

2、警告发送

如果ETL出错了,不仅要形成ETL出错日志,而且要向系统管理员发送警告。

发送警告的方式多种,一般常用的就是给系统管理员发送邮件,并附上出错的信息,方便管理员排查错误。

ETL是BI项目的关键部分,也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为BI项目后期开发提供准确的数据。

2.2BI支撑技术——数据仓库/数据集市

数据仓库:

商业智能的基础。

对于一个企业来说,最关键也最为重要的是,如何以一种有效的方式逐步整理各个业务处理系统中积累下来的历史数据,并通过灵活有效的方式为各级业务人员提供统一的信息视图,从而在整个企业内实现真正的信息共享。

数据仓库技术正好满足了这一需求。

数据仓库是商业智能系统的基础,如果没有数据仓库,没有企业数据的融合,数据分析就成为了无源之水。

数据仓库定义为:

“一个面向主题的、集成的、反映历史变化的、相对稳定的数据集合,用于支持管理决策”。

与传统的事物处理系统有不同的是,数据仓库是一种过程,它是对分布在组织或企业内部各处的业务数据进行整合、加工和分析的过程。

而不是一种可以购买的产品。

2.2.1数据仓库常用术语

●数据仓库

数据仓库是一个支持管理决策的数据集合。

数据是面向主题的、集成的、不易丢失的并且是时间变量。

数据仓库是所有操作环境和外部数据源的快照集合。

它并不需要非常精确,因为它必须在特定的时间基础上从操作环境中提取出来。

●数据集市

数据仓库只限于单个主题的区域,例如顾客、部门、地点等。

数据集市在从数据仓库获取数据时可以依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。

●事实

事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。

事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。

每个事实包括关于事实(收入、价值、满意记录等)的基本信息,并且与维度相关。

在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。

我们稍后讨论有关缺无事实的情况。

●维度

维度是绑定由坐标系定义的空间的坐标系的轴线。

数据仓库中的坐标系定义了数据单元,其中包含事实。

坐标系的一个例子就是带有x维度和y维度的Cartesian(笛卡尔)坐标系。

在数据仓库中,时间总是维度之一。

●数据挖掘

在数据仓库的数据中发现新信息的过程被称为数据挖掘,这些新信息不会从操作系统中获得。

●分析空间

分析空间是数据仓库中一定量的数据,用于进行数据挖掘以发现新信息同时支持管理决策。

●切片

一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。

●切块

一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。

●星型模式

一种使用关系数据库实现多维分析空间的模式,称为星型模式。

星型模式将在本白皮书中稍后进行进一步讨论。

●雪花模式

不管什么原因,当星型模式的维度需要进行规范化时,星型模式就演进为雪花模式。

2.2.2面向主题(Subject-oriented)

“主题”是一个较为抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面。

从信息管理的角度看,主题是在一个较高的管理层次上对数据进行综合、归类所形成的分析对象;从数据组织的角度看,主题就是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据本身,还涉及到数据之间的关系。

“面向主题”则表明了数据仓库中数据组织的基本原则,是指数据仓库内的信息是按主题进行组织的,而不像传统事物处理系统那样单一地按照业务功能及性能要求进行组织。

传统的操作型系统是围绕公司的应用进行组织。

如对一个电信公司来说,应用问题可能是营业受理、专业计费和客户服务等,而主题范围可能是客户、套餐、缴费和欠费等。

2.2.3集成(Integrated)

“集成”是指数据仓库中的信息并不是对各个数据源简单的选择、抽取,而是首先进行一系列的加工、整理和转换等来消除源数据中的不一致;同时按照本行业的逻辑模型设计便于查询及分析的数据仓库。

然后按照组织或企业的需求,针对不同的主题对数据进行某种程度的综合、概括和聚集,将源数据加载进数据仓库。

经过这样的处理,数据就具有了集成性,可以用于决策分析。

2.2.4反映历史变化(Time-variant)

“反映历史变化”是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。

通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

而信息本身相对稳定,是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作。

2.2.5相对稳定(Non-volatile)

“相对稳定”是指数据一旦进入数据仓库,一般情况下会被长期保留,所涉及的数据操作也主要是查询、分析,很少会被修改或删除,通常也只需要定期地加载和刷新。

相对稳定性保证了数据仓库中的数据能够真实地反映历史变化。

数据仓库中所存放的数据在物理上是分离的。

由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。

通常它只需要两种数据访问:

数据的初始化装入和数据访问。

2.2.6了解实时数据仓库的定义

实时数据仓库是两种事物的组合:

实时行为和数据仓库。

实时行为是一种即时发生的行为。

行为可以是任何事情,如超市中小商品的销售行为。

一旦行为完成,就有关于它的数据。

数据仓库捕获有关商业行为的数据,而实时数据仓库在商业行为发生时就捕获数据。

当商业行为完成时,相关数据就已经进入到数据仓库并且能立即使用。

换句话说,实时数据仓库是这样一个系统,只要行为发生、数据变得可用时,就能从中获得信息。

实时vs.近似实时之间的区别可以下面一个词概括:

反应时间。

反应时间是指行为的完成时间和该行为的数据在数据仓库中可利用时间之间的延迟。

实时情况下,反应时间是可以忽略不计的;在近似实时情况下,反应时间是一段时间,比如2小时。

为了使系统变得更精确,一些人使用了"实时"这个概念。

2.3BI分析技术——OLAP

2.3.1什么是OLAP

当今的数据处理大致可以分成两大类:

联机事务处理OLTP(on-linetransactionprocessing)、联机分析处理OLAP(On-LineAnalyticalProcessing)。

OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

下表列出了OLTP与OLAP之间的比较。

联机分析处理(OLAP)是以海量数据为基础的复杂分析技术。

它支持各级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析处理,并且能以直观易懂的形式将查询和分析结果展现给决策人员。

OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 文学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1