informatica与datastage对比.docx

上传人:b****6 文档编号:7570218 上传时间:2023-01-25 格式:DOCX 页数:11 大小:21.56KB
下载 相关 举报
informatica与datastage对比.docx_第1页
第1页 / 共11页
informatica与datastage对比.docx_第2页
第2页 / 共11页
informatica与datastage对比.docx_第3页
第3页 / 共11页
informatica与datastage对比.docx_第4页
第4页 / 共11页
informatica与datastage对比.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

informatica与datastage对比.docx

《informatica与datastage对比.docx》由会员分享,可在线阅读,更多相关《informatica与datastage对比.docx(11页珍藏版)》请在冰豆网上搜索。

informatica与datastage对比.docx

informatica与datastage对比

Informatica

VS

IBM-DataStage

对比项InformaticaPowerCenterIBMDatastage

产品完整性对

比数据整合部分:

PowerCenter,是业界公认领导者

数据质量管理:

DataQuality,成熟稳定技术,在

中国有大规模应用的成功案例。

实时数据捕获:

PowerExchange,业界领先实时

采集技术,支持广泛数据源的CDC和Realtime,

与PowerCenter无缝集成。

元数据管理:

MetadataManager,是业界领先的

企业级元数据管理平台,可做到字段级的元数据

各项分析,有广泛的元数据采集接口,图形化无

需编程,并可自动维护变更。

数据整合部分:

Datastage,属于业

界一类产品

数据质量管理:

QualityStage,收购

的技术,不是主要其主要产品组成

实时数据捕获:

MQ和DataMirror

的技术,技术复杂,与DataStage

是不同风格产品,产品的耦合度极

差。

元数据管理:

MetaStage,几乎免费

的产品,应用性极差,并不能管理

企业级的元数据。

而新推出的产品

与旧有产品线耦合度差,并未经过

市场的考验。

开发人员的使用效率Informatica是全图形化的开发模式,不需要编

码,工具易使用,界面友好、直观。

专业的三天培训,可使开发人员快速入门,进行

开发设计。

开发人员只要懂得数据库知识,即可。

Informatica产品是以元数据为核心的,其开发过

程中,所有的元数据,包括规则和过程,均是可

复用,共享的。

经过简单配置即可支持大数据量的处理。

Informatica是完全基于引擎级别的,所有功能模

块化,扩展性强,维护成本低。

虽然也是图形化的界面,但复杂的

转换过程,里面嵌入了很多类Basic

脚本的成份。

要求开发人员,有编程语言基础。

在处理大数据量,必须使用

Datastage企业版。

但如果客户原先

使用的Datastage标准版,其作业

的版本移植问题很大。

这两个版本

的工作平台、机制完全不同。

作业

移植,大概要有70%左右需要重新

开发定义。

Datastage是基于脚本级的,底层基

于PICKBASIC和COBOL(Main

Frame上内核开发,要求不同的

平台需要不同的系统环境变量配

置。

应用需求的改变和拓展的支

持Informatica是以元数据为核心的平台,现在完全

支持SOA的思想,其最大特点就是完全支持松

耦合.可拆分成Service进行调用.这样需求变

化,其需改动的部分,其影响会很小。

开发转换过程,均为共享的、可复用的。

元数据发生变化,可通过ViewDependencies功

能,生成所有相关对象的报表,方便跟踪、校验,

以应对需求的变化。

应用需求变化,调整作业后,直接可以运行,不

需要重新编译。

作业移植等,也不需要重新编译。

与平台和数据

库无关。

支持跨操作系统的集群技术,可方便的进行平台

级的扩展。

需求发生变化,需调整相应的作

业。

如果是复杂需求,改动已有的

脚本,其维护成本相对比较高。

每次作业变化调整,均需重新编

译,才可执行。

Datastage企业版与Datastage标准

版,其作业的版本移植问题很大。

这两个版本的工作平台、机制完全

不同。

作业移植,大概要有70%左

右需要重新开发定义。

一旦新的需

求,需要企业版,其移植和再次开

发,工作量要增加很多。

也因为两个版本的不兼容和脚本

编译的开发模式,使之产品面对变

化和扩展上,均有一定的限制。

项目实施的支

持Informatica结合15多年的数据集成领域的经验,

总结出一套针对Informatica产品实施数据仓库、

数据管理等项目的最佳方法论Velocity2008。

成熟的开发方法论,是指导客户实现快速、高质

量项目实施的最佳武器。

现在全国拥有众多的名高级技术专家与顾问,与

国内如大唐,联创、神州数码、东软,中软等多

家知名集成商成立战略合作伙伴,Informatica产

品开发人员全国上千人规模。

Informatica支持服务中心是有非常熟练的技术支

持工程师充当的,这些工程师具备你需要的、成

功的专家知识。

在中国有专门的售后服务工程

师。

无专业/成熟,基于产品的项目最佳

开发方法论

很难找到熟悉类Basic开发语言的

Datastage开发工程师

IBM是以服务为主的公司,如果客

户采用了其DataStage产品,将要

支付大笔的IBM咨询服务费。

产品安装完全图形化安装,无需额外安装平台软件,且不需修

改系统内核参数

需耗用时间安装和准备C编译环

境,不同平台软件安装的C编译器

也不尽相同

需修改系统内核参数,对其他应用

影响较大,有潜在的危险。

产品升级平滑升级,完全图形化,不需修改已设计完作业。

主要是升级资料库,工作量很小。

需重新编译已有作业

大版本之间以及跨平台的升级,很

多作业需重新编写/编译代码,重复

操作和维护工作量大。

产品移植PowerCenter支持逻辑和物理设计分离的开发模

式,有一个Mapping(逻辑的和Session(物理

的或者可运行的概念,Mapping是逻辑上的ETL

规则,而Session才是真正可以实例化运行的任

务。

可以跨平台、跨不同数据库进行作业的单个、整

体移植。

不需改变作业设计等,原有的任务可以

直接在新环境下运行,并且只要更改Session的

数据库联接串,则使用原有的Session任务访问

不同的数据库类型数据,大大简化项目移植的工

作。

如果数据源,目标类型变化了,得

修改以前所有的Job。

必须在新平台上编译所有作业,此

移植的工作量较大。

元数据开放性元数据资料库可基于所有主流系统平台的关系DataStage的元数据DB是基于

型数据库(Oracle、DB2、SybaseASE,MicrosoftSQLServer

用户可通过Informatica提供的MetadataExchange视图读取元数据,Informatica提供详细文档描述其元数据视图的结构和含义。

可通过CMW标准跟其它BI工具共享元数据。

提供Global元数据库,Local资料库可共享Gloal资料库的元数据。

元数据对象可以快速导出/导入为XML文件,快速在多个项目中共享元数据

通过PowerCenter的AdministrationConsole,PowerCenter元数据库可快速的导出为Informatica能识别的二进制文件,该元数据内容可再快速移植到其他关系型数据库中。

Universe7的,Universe不是一个开

放型的数据库,(Universe目前最

新版本是Universe10,IBM采用

的元数据库技术上已明显落后。

虽然有计划要将之实现DB2的支

持,但从本质上改动产品,不是短

期内可以实现的。

元数据库没有log备份恢复机制,如果知识库损坏后很难修复,易导

致整个项目丢失。

元数据库需要特定的Client才可以查看,所有DataStage在Universe

中的元数据没有相关的描述,

难与其它元数据库交互共享元数据,跨不同环境的元数据共享,必

须重新编译该对象。

无Global元数据库

元数据管理MetadataManager可整合包括模型工具、数据

集成、数据库、报表工具的各环节元数据的综

合平台,支持各种主流UNIX平台和window平

台。

元数据管理可跨不同工具平台进行血缘分析,在

表级和字段级均可自动匹配。

生成血缘分析和影

响分析报告。

MetadataManager提供跨各种工具的元数据血统

分析;提供自定义元数据接口。

MetadataManager支持OMG的CWM标准,其

XConnects的接口非常广泛,扩展性高。

MetaStage是其元数据管理工具,

仅能运行在NT平台上.

可进行简单的元数据分析报告。

元数据分析只在表级,不能进行字

段级元数据分析。

不能跨工具进行元数据跟踪,无法

完成整体连贯的血缘分析和影响

分析。

操作便捷性全图化开发,无编码,操作性强

被TDWI连续10年评为“数据仓库最佳实践”

脚本式工具,需要学习类Basic语

需要写大量的类Basic脚本,不便

于快速开发以及后期维护。

增加了开发周期和投资成本

健壮的安全性多范围的用户角色和操作权限(只读、操作和设

计等

提供基于Folder的权限管理

权限可以分到用户或组

使用细致的锁(Lock机制,提供了完善的安全,

便于多用户的协作开发

可基于LDAP认证模式

只提供少量角色:

ProductManager,

Developer和Operator

只提供基于数据库的权限

没有基于Folder的权限管理,开发

者只要有Developer的权限即可访

问所有的Folder。

元数据的安全性和完整性没有很

好的保障措施

并行处理可并行多个Session提高性能

Session支持多线程和管道技术(pipeline

支持Session分区功能,性能跟CPU数据可达到

基于线性的增长。

可将Session的分区任务分发到多个节点上

(SessiononGrid功能,性能可随着节点的增加而

不能很好的多个Job的并行

并行组件(Torrent需另付费购买,

在Window平台上,无法使用

Torrent的并行技术。

IBMDataStage企业版中才提供

TorrentOrchestrate并行功能,由于

增长。

Informatica支持跨不同操作系统的GRID。

在ETL设计时需要考虑很多TorrentOrchestrate的技术因素,并且没有具体的技术文档,开发难度较大。

单个任务的并行能力提供多种Session分区(Partition功能

⏹Round-Robin

⏹HashAuto-Keys

⏹HashUserKeys

⏹KeyRange

⏹Pass-Through

⏹DatabasePartitioning

可将单个Session分配给Grid,PowerCenter会

根据系统资源和用户配置,将单个Session任务

拆分为多个子任务,以达到多并行任务的负载均

衡。

并且随着Grid中的可用资源(Node的增加,

该Session的性能理论上会得到不断的提高。

必须使用Datastage企业版才可以

实现单个任务并行功能

若想实现并行,必须要在源和目标

数据库上各安装一套Datastage企

业版,增加了企业的投资成本。

而且标准版与企业版兼容性极差,

作业需要重新开发。

运行灵活性可在mapping环节点上,执行Presql和post

sql;可执行SQL语句块

在session的点上,执行pre-sessioncmd、

Post-sessionsuccesscmd、Post-session

failurecmd、OnsuccessE-mail、Onfailure

E-mail等命令

对于非连接lookup,可实现动态调用

Mapping的源/目标可通过参数控制。

无presql、postsql和session

cmd的功能

Lookup方法一:

使用ODBC来做一

行行的搜索,速度很慢

Lookup方法二:

使用自定义的hash

file来索引要Lookup的表,该文

件存放在Universe数据库中。

Lookup操作的hashfile需要维护

和调优,其性能也不稳定,经常在

没有提示的情况下崩溃。

读取文件列表(FileList功

能可灵活读取多个同结构/非同目录的多个文本文

件。

可快速读取大数据量的FileList

无内置的读取文件列表(FileList

的功能,开发和维护量较大。

大数据量操作的性能有多种任务并行以及Session分区的技术

有官方TPC-H性能测试报告,PowerCenter8.1

在64位Linux平台上的性能达到了

7.7MB/sec/CPU。

大数据量处理性能稳定。

ETL性能可跟硬件资源(CPU为主,内存为辅

达到近线性增长!

无官方性能测试报告

大数据量的汇总、排序、关联,

Lookup效率差且不稳定,作业会

莫名其妙的死掉。

跨广域网/防火墙的安全数据传输PowerChannel可实现跨广域网和防火墙,实现加

密/压缩的安全数据库传输。

没有产品和方案实现该功能

对异常数据的

处理提供Session级别的“RowErrorLogging”功

能,可自动捕获异常数据,能将所有出错的记录

写到关系型数据库表中,包括如下主要信息:

⏹出错记录的RowID

⏹出错时记录的当前值

⏹出错记录的原始值

⏹出错代码和信息

无内置捕获错误记录的功能

必须写大量的脚本,读取其log来

得到错误记录信息。

任务的自动恢复(Recovery功能(选项自动WorkflowRecovery功能(需要HA选项:

短暂的异常(如网络故障会暂时停止Workflow的运行,故障被修复后,Informatica可从Workflow的断点处继续执行任务。

Session功能:

自动SessionRecovery功能:

Informatica能保存Session失败前的断点信息,可从断点处继续运行任务。

Informatica提供了PowerCenterMappingArchitectforVisio功能,能在VISIO中开发Mapping模板,快速产生多个Mapping,大大提高多个类似任务的开发和维护。

在数据迁移,数据仓库的项目当中非常有用。

提供了MappingWizards,内置了很多的Mapping开发模板,如数据仓库中经常用到的SlowlyChangingDimensions3种类型的模板,从而可提高开发效率。

提供WorkflowSchedule功能,可连续调度任务可基于时间/自定义事件/支持文件来触发任务可实现实时的数据抽取没有断点恢复的能力无缓慢变化维向导,需自行开发,开发效率低。

Mapping开发模板ETL任务调度不支持连续运行(continuously)和频率执行调度,无法实现数据达到即时抽取的能力,频率执行需通过自编译内部代码或循环工作流人工逻辑实现,开发难度和维护难度较高。

这是DataStage设计开发中一个比较棘手的问题。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 面试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1