元数据在数据仓库的建设过程不同工具间的集成共享解析.docx

上传人:b****5 文档编号:6904640 上传时间:2023-01-12 格式:DOCX 页数:8 大小:621.36KB
下载 相关 举报
元数据在数据仓库的建设过程不同工具间的集成共享解析.docx_第1页
第1页 / 共8页
元数据在数据仓库的建设过程不同工具间的集成共享解析.docx_第2页
第2页 / 共8页
元数据在数据仓库的建设过程不同工具间的集成共享解析.docx_第3页
第3页 / 共8页
元数据在数据仓库的建设过程不同工具间的集成共享解析.docx_第4页
第4页 / 共8页
元数据在数据仓库的建设过程不同工具间的集成共享解析.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

元数据在数据仓库的建设过程不同工具间的集成共享解析.docx

《元数据在数据仓库的建设过程不同工具间的集成共享解析.docx》由会员分享,可在线阅读,更多相关《元数据在数据仓库的建设过程不同工具间的集成共享解析.docx(8页珍藏版)》请在冰豆网上搜索。

元数据在数据仓库的建设过程不同工具间的集成共享解析.docx

元数据在数据仓库的建设过程不同工具间的集成共享解析

元数据在数据仓库的建设过程不同工具间的集成共享

苏家怡

2004年6月

数据仓库之路原创资料

一、元数据概述

元数据是描述数据的数据。

应用程序在正确访问、操作处理和显示数据时需要参考元数据。

元数据是对数据进行统一管理的基础,是各种数据库和应用共享企业信息的关键。

把适当的元数据提供给适当的用户,对于数据仓库工作的成功是至关重要的。

在数据抽取过程中,元数据可以清楚地描述源数据库、应用和其它数据源的来源、位置、种类等信息,同时也制定数据的流向、数据的转换规则、数据目标和数据的版本及数据的描述信息等等。

数据仓库系统的建设过程(从设计到发布一般涉及有三个阶段:

需求建模,ETL开发,前端应用展示。

以目前数据仓库的技术现状而言,在上述的三个阶段中,需要不同的厂商的各类工具的集成一起协同工作,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。

与上述阶段对应的数据仓库工具大致可分为三类:

建模工具:

数据库设计和业务建模工具。

如Sysbase的PowerDesigner,CA的Erwin和Rational的Rose等;

ETL工具:

把业务系统中的数据抽取、转换、清洗到数据仓库中的工具。

Informatica的PowerMart,Ascential的DataStage,SAS的DataBuilder.前端展示工具:

包括报表,OLAP分析和商业智能工具等。

如BRIO,BO,

Cognos的PowerPlay等;

在拥有不同厂商、不同功能和不同元数据知识库的数据仓库的环境下,如何使这些工具有效地协同工作起来,实现从一种产品获得元数据,映射到另外一种产品中,实现不同产品之间的元数据同步,跨越不同环境的元数据能够共享?

能迅速收集、传播知识,然后通过这些知识的重复利用,节省了工作时间,减少了信息交流成本?

这些对数据仓库过程开发实施的工作,对后续开发和维护等都会提供很大的帮助。

二、元数据的获得和使用

元数据是将各类工具连接起来的“黏合剂”。

在这里我们主要介绍数据仓库系统建设过程中元数据的获得和使用实例。

在实际的系统中,建模工具使用Sybase的PowerDesigner,ETL工具使用Informatica的PowerMart,前端开发工具使用Brio。

2.1元数据的获得和使用

项目中元数据主要通过以下途径获得和使用步骤:

1在项目的逻辑设计阶段,使用PowerDesinger进行需求建模,构建数据仓库模型的结构和定义,包括仓库模式、视图、维、层次结构,数据类型等,使用特定业务相关的语义来定义业务术语;此处获得的包括技术元数据和业务元数据。

Sysbase可以把这阶段收集的元数据集中保存到自己的一个知识库中(Repository;

2在ETL的开发阶段,通过InformaticaPowerMart的Designer设计工具中的ImportFromDatabase功能可以方便获取OLTP数据源的元数据;此处获得的是技术元数据。

另外可以也通过Informatica元数据导入工具(MetadataExchage把存储在Sysbase的知识库中的目标数据仓库元数据写入Informatica的元数据的知识库中,并通过Informatica的Designer设计工具进行关系映射,获取目标库的数据结构和定义,以实现产品间元数据的信息同步。

此处获得的是技术元数据和业务元数据。

3通过PowerMartDesigner定义数据的映射、转换规则,此处为技术元数据;

4通过PowerMartServerEngine定义所有定义的数据转换清洗的调度规则,此处为操作元数据;

上述2,3,4步收集的元数据会保存在Informatica的元数据的知识库中,它在关系型的数据库中建立了一系列用作元数据管理的表,利用元数据来驱动数据的整合过程。

通过该产品的相关组件来浏览和管理知识库中所有的元数据。

由于Informatica的元数据的知识库中是建立在开放的关系数据库中,这时我们编写程序,使用SQL或动态SQL,通过ODBC或JDBC等来访问相关的元数据。

5在前端应用开发阶段,通过Brio前端工具来访问元数据,从而屏蔽业务人员对数据库物理结构的理解,让业务人员可以根据自己熟悉的业务术语来操纵数据仓库中的数据。

此处获得是为业务元数据;通过Brio可以访问存储在Informatica的元数

据的知识库中的业务元数据和技术元数据。

Brio为元连接向导添加OEMInformaticaMX(MetaeXchange元定义以访问在Oracle,DB2,SQLSERVER,Sybase等数据库的基础Informatica知识库的共享库。

2.2元数据使用实例

2.2.1建模过程

在POWERDESIGNER中建立数据仓库的数据模型。

根据业务分析需求,进行建模;建立数据仓库的数据模型(星型结构;把设计完成的数据模型的保存到SYSBASE的REPOSITORY中;

图1

2.2.2ETL开发

1、建立源和目标

INFOMATICA的POWERMARTDESIGNER提供了数据结构的提取,装载程序,能够自动地将业务源数据库中的各表的数据结构(如字段名,字段类型,数据描述信息等传递到DESIGNER中;这就避免了重复输入结构和维护结构的工作,对数据结构的转换保证了一致性与可靠性。

另外我们可以利用INFORMATICAMATADATEEXCHANGE工具把建模工具(POWERDESIGNER保存的知识库中的元数据信息来建立数据抽取转换过程中的元数据,把数据模型的元数据倒入Informatica的知识库中保存;如图2:

图2

读取Informatica知识库中目标区域的数据模型。

如图3:

图3

2、使用Powermart产品建立这个销售主题的整个ETL过程;

图4

2.2.3前端应用展示

使用前端工具如BRIO来展示数据时,帮助用户了解数据仓库中有什么样的数据,按商业用语的习惯来使用数据。

1首先建立一个与INFORMATICA的知识库的连接inforep.oce;笔者的INFORMATICA的知识库是建立在SQLSERVER2000上的。

如:

ODBC—》SQLSERVER2000

2再建立一个与目标数据库(testtgt的一个连接文件(tbc_testtg.OCE,利用INFORMATICA的知识库中的元数据来帮助用户使用该数据仓库的数据;

3使用元数据的连接文件:

4选择INFORMATICA知识库的类型;建在不同的数据库类型的知识库的一些连接数据类型是不一样的;对应的SDK是不一样的;如果知识库是建立在SQLSERVER数据上,使用FOR该数据库的连接向导;如果知识库是建立在DB2数据上,使用FORDB2的连接向导;

元数据在数据仓库的建设过程不同工具间的集成共享5)输入用户名与密码-10-当前PDF文件使用【皓天PDF打印机】试用版创建

元数据在数据仓库的建设过程不同工具间的集成共享6)保存该OCE文件;7)通过该OCE文件建立应用;8)建立查询的数据模型-11-当前PDF文件使用【皓天PDF打印机】试用版创建

元数据在数据仓库的建设过程不同工具间的集成共享三、结束语当今市场上数据仓库建设涉及的产品很多,笔者只是根据自己在工作中的几种工具中做一个经验的归纳,读者可以选择适合自己的处理方式。

同时恳请各位批评指正,也希望有好的想法或建议随时告知我sujy@.-12-当前PDF文件使用【皓天PDF打印机】试用版创建

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1