大数据治理系列第四部分 大数据治理统一流程参考模型的第四步到第九步Word文档下载推荐.docx
《大数据治理系列第四部分 大数据治理统一流程参考模型的第四步到第九步Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《大数据治理系列第四部分 大数据治理统一流程参考模型的第四步到第九步Word文档下载推荐.docx(10页珍藏版)》请在冰豆网上搜索。

按业务条块单独进行的好处是业务部门非常熟悉其业务问题可以快速上手,缺点是难以解决跨业务条块的数据治理问题。
跨业务部门统一进行数据治理的好处是可保证整个企业数据治理的一致性,缺点是协调工作比较多,进展不如按业务条块快速。
同时越来越多的企业倾向于委任数据治理的综合所有者进行统一的数据治理协调和管理,该所有者可能是首席信息安全官(CISO)、首席信息官(CIO)、首席风险官(CRO)、首席合规官(CCO)和首席隐私官(CPO)等,也可能是全职的首席数据官(CDO)。
回页首第六步:
执行成熟度评估根据能力成熟度模型(CMM)提供的分类方法,成熟度可以分为5个等级,1级为初始级,此时流程通常是临时的,整体环境不够稳定;
2
级为受管级,成功是可重复发生的,但可能无法针对组织中所有项目重复流程,存在基本的项目管理和流程规则,但仍有超出预期成本和时间的风险;
3
级为定义级,建立了标准流程集,通过组织的标准流程集定制标准、流程描述和项目过程,以适应特定项目或组织单位;
4
级为定量管理级,对流程进行定量度量和控制,所选的子流程大大提高了整体流程绩效;
5
级为优化级,在该级明确了组织的定量流程改进目标,并不断优化以适应变化的业务目标。
IBM数据治理成熟度模型如图1所示,共包含11个类别来度量数据治理能力,分别隶属于四个相互关联的组[1]。
成果(Outcomes):
数据治理计划预期结果,通常致力于降低风险和提升价值等,而降低成本和提高收入反过来又促进了实现这些结果。
数据风险管理及合规性(DataRisk
Management&
Compliance):
确定数据治理与风险管理关联度,用来量化、跟踪、避免或转移风险等。
价值创造(Value
Creation):
确定数据资产是否帮助企业创造更大价值。
支持条件(Enablers):
组织结构和意识(OrganizationalStructures
&
Awareness):
主要用来评估企业针对数据治理是否拥有合适的数据治理委员会、数据治理工作组和全职的数据治理人员,是否建立了数据治理章程以及高级主管对数据的重视程度等。
管理工作(Stewardship):
是指质量控制规程,用来管理数据以实现资产增值和风险控制等。
策略(Policy):
为企业如何管理数据在高级别指明方向。
核心规程(Core
Disciplines):
数据质量管理(DataQuality
Management):
主要指用来提高数据质量,保证数据准确性、一致性和完整性的各种方法。
信息生命周期管理(InformationLifecycle
主要指对结构化、半结构化以及非结构信息化全生命周期管理相关的策略、流程和分类等。
信息安全与隐私(InformationSecurityand
Privacy):
主要指保护数据资产、降低风险的各种策略、实践和控制方法。
支持规程(Supporting
数据架构(Data
Architecture):
是指系统的体系结构设计,支持向适当用户提供和分配数据。
分类与元数据(Classificationand
Metadata):
是指用于业务元数据和技术元数据以及元模型、存储库创建通用语义定义的方法和工具。
审计信息记录与报告(AuditInformationLogging
and
Reporting):
是指与数据审计、内部控制、合规和监控超级用户等有关的管理流程。
图1.
IBM数据治理成熟度模型IBM数据治理成熟度模型框架提供了衡量当前状态和未来状态之间差距的参考,比如某用户其数据治理成熟度评估结果如图2
所示,成熟度级别与能力成熟度模型一一对应。
图2.
数据治理成熟度评估示例回页首第七步:
构建路线图路线图是关于人员、流程和技术方案的短期和中长期计划,通常,企业需要制定未来1到2年数据治理计划的路线图。
根据数据治理成熟度的评估结果(11
类数据治理成熟度的当前状态)以及与未来目标的差距,列出弥补这些差距所需要关键人员、流程和技术计划并根据计划的优先级制定路线图。
随着大数据对企业越来越重要,信息治理计划需要将大数据纳入路线图之中。
回页首第八步:
建立组织蓝图企业需要组建具有足够权限的数据治理组织架构以便可以贯穿整个企业各个业务、技术和管理部门对整个信息供应链进行治理。
针对大数据治理计划,企业需要明晰大数据治理的目标和关键流程图,以识别大数据治理中的利益攸关者,酌情任命大数据主管并确定新增角色和现有角色的适当组合,确定各个角色应当承担的大数据责任。
当企业的数据治理计划相对成熟时,就会有很多确定的角色如首席信息官(CIO)、首席信息安全官(CISO)、首席隐私官(CPO)、首席数据官(CDO)、信息治理主管和数据主管等,企业需要明确这些已经存在的角色是否可以承担大数据治理职责,还是需要设立新的大数据角色,二者都可以,企业可以根据自己的情况进行选择。
比如很多企业特别是金融机构都会设有首席数据官(CDO),负责制定企业的信息治理计划,保证整个企业层面的信息可信度,很多时候首席数据官也会将大数据纳入其职责范围。
建立组织蓝图总共包括以下步骤:
定义数据治理章程:
描述数据治理主要目标和关键流程图、关键利益相关方、角色、职责、决策权和成功的度量方式等。
定义数据治理的组织结构:
通常建议在三层模式运行数据治理效果最佳,顶层为数据治理委员会(包括高级利益相关方),中间是数据治理工作组(包括负责定期治理数据的成员),底层是数据管理员工作组(负责数据的日常处理)。
建立数据治理委员会:
由数据治理计划的主管发起人组成,该委员会负责数据治理的愿景和目标、并协调企业内各部门,掌控数据治理计划的总方向。
该委员会可能包含首席信息官(CIO)、首席信息安全官(CISO)、首席风险官(CRO)、首席合规官(CCO)、首席隐私官(CPO)和首席数据官(CDO),还可能包括来自财务、法律、HR
团队以及各业务部门的代表等。
建立数据治理工作组:
主要负责数据治理计划的日常运作并负责监督数据管理员工作组,该组组长通常由数据治理委员会成员兼任,如果存在首席数据官(CDO)常常会由该角色担任。
确定数据管理员:
数据管理员负责处理每天具体的问题和事物。
定期召开数据监管委员会和工作组会议。
回页首第九步:
了解数据想要成功地实施大数据治理计划,需要了解信息供应链中的各个环节的数据模型、主外键关系、数据分布情况、数据源之间的数据沿袭和转换逻辑等。
针对狭义大数据,可以根据用例的实际情况详细了解该用例中信息供应链各个环节的详细情况,具体实施第九步了解数据时可以通过使用
IBMInformationServer相关组件减少工作量,提高工作效率。
InfoSphereInformationServerV9.1(以下简称
IIS)主要用来帮助企业实现数据集成并构建健壮的信息架构,其由多个产品模块组成,这些模块可以一起部署也可以单独部署。
IIS
提供了全方位数据整合的功能,使信息能够在企业内跨不同系统实现无缝共享。
如图3所示,IIS
主要实现的功能有:
了解、清理、变换、交付和执行统一元数据管理:
了解数据:
IIS可以帮助您自动发现信息内容和结构,并对其进行建模、定义和监管,以帮助您了解和分析信息的含义、关系和继承。
通过
IIS可以更好的了解数据源和关系,并定义业务规则来消除使用火扩散错误数据的风险。
清理数据:
通过对数据执行标准化、验证、匹配和合并操作,支持信息质量和一致性管理。
该平台通过匹配数据源之间或数据源内的记录,可以帮助您创建一个全面而准确的信息视图。
将数据转换为信息:
IIS转换并整合信息,确保其具有正确的含义,通过
ETL(抽取,转换和装入)提供大容量的复杂数据转换和移动能力,根据需要可以提供批处理或实时数据处理。
交付信息:
IIS允许对信息进行虚拟化和同步,允许转换规则发布为service并被多个应用部署和复用,支持SOA
体系架构。
统一的元数据管理:
在共享元数据存储库的基础上统一进行业务、操作和技术等领域元数据的管理,采用统一元数据基础架构,支持基于字段的影响分析和元数据的血缘分析。
图3.IBMInfoSphereInformationServer信息服务器集成功能IIS对应的产品组件如图4
所示,所有组件由一个全面的集成服务平台支持,提供统一的用户界面、统一的并行处理引擎、统一的元数据管理、共用的连接能力(可以连接各种信息源,无论是结构化还是非结构化)和共用的基础服务(比如用户管理、安全管理、日志记录和报告等)。
包含四层:
客户机、元数据存储库、服务和引擎,客户机包含InformationServer
控制台(面向任务的控制界面,比如创建作业调度)和InformationServerWeb
控制台(主要用来浏览信息服务目录)两部分;
元数据存储库主要由MetadataServer提供服务;
服务层主要由
InformationServicesDirector提供,其本身是一组在WAS上运行的EJB程序,并将IIS
组件任务生成为EJB会话Bean,比如DataStage作业或QualityStage作业如果发布为服务就会生成为会话
Bean;
引擎层是实际提供信息服务程序所在的位置,比如DataStage、QualityStage和Federation
Server都在这里。
图4.IBMInfoSphereInformationServer信息服务器产品组件如图5所示,在IIS各个组件中我们可以使用BusinessGlossary来获取数据的业务视图,使用DataArchitect
定义数据模型,使用InformationAnalyzer来分析数据,使用FastTrack来指定数据关系和变换,使用
DataStage进行数据转换并使用QualityStage进行数据标准化,使用MetadataServer
进行统一元数据管理,并使用MetadataWorkbench对公共元数据存储库中的信息进行查询、分析和报告,还可以使用
InformationServicesDirector发布web服务。
图5.IBMInfoSphereInformationServer
信息服务器各组件协作流程回页首InfoSphereInformationAnalyzerInfoSphereInformationAnalyze(以下简称
IA)是一款数据质量分析工具软件,用来在项目初期对数据源进行数据质量分析,以便真正地了解源数据的结构、质量和数据分布等,提早发现数据的缺失、错误、重复和不一致等问题,为后面的数据复制、ETL
等过程提供支持,以便降低项目实施风险。
通过使用IA,项目开发人员可以方便的了解源数据的特性从而为
ETL、复制等制定合适的规则,确保项目的顺利进行。
IA的逻辑体系结构如图6所示:
图6.IA
系统体系结构IA通过读取数据源的表结构DDL信息,对表中数据进行扫描、统计,并将统计结果存入自带的IADB数据库中。
通过IADB
中的各种信息,可以为用户提供各种数据质量分析结果。
IA数据质量分析功能主要包括:
强劲和可扩充的数据轮廓分析:
完全并行处理的系统架构,提供强大的数据处理能力。
针对全部分析任务,提供对字段、数据表和多数据表之间的抽样运行选项。
实现多个字段、主键/外键的灵活组合分析。
提供立刻或定时运行分析任务的选项。
与IBM数据服务器集成:
与IBMQualityStage/DataStage软件工具共享元数据。
支持IBMBusinessGlossary元数据录入和管理的软件工具。
通过分析结果,进行验证并可生成可供参考的映射表。
高安全性的分析架构:
以项目为基础,控制并允许对重要数据的访问。
支持以角色为基础,和以用户为基础的安全访问权限控制。
支持广泛数据库系统和平台:
通过IBM-brandedODBC驱动软件,连接全部符合业界标准数据库,也可连接IBM主机系统数据库。
支持全部开放操作系统平台,包括:
AIX、Solaris、RedHatEnterpriseLinuxAS、HP-UX
、SuSEEnterpriseLinux、MicrosoftWindows。
灵活分析机制:
支持多种分析逻辑流程组合。
支持多种层次分析,可选择从数据目标(Schema)、数据表(Table)、或指定字段(Column)作分析。
支持全部字段或部分数据抽样分析。
支持交互式分析数据。
标准元数据管理:
无需把源系统的数据传送和复制到本地数据库,仅对源数据作分析。
存放分析结果和对应元数据的数据库,是标准的关系型(RDBMS)数据库并支持DB2、Oracle、SQLServer
等。
提供多达40种out-of-the-box分析报告,元数据库可开放给任何BI
系统或报表工具系统,以共享分析结果数据。
IA工具软件具体提供的功能有:
列分析:
通过对源数据库表的列进行分析,帮助用户了解源数据的结构、内容、质量和准确性等,允许用户对具体的列进行钻取以便对该列进行特殊的质量控制,支持用户进行值域(某个属性正确值的集合)分析。
主键分析:
通过对源数据库一个或多个表的所有候选列进行分析,帮用户找出表中哪些列适合做主键,以及哪些列不适合做主键等(比如存在大量重复记录)。
外健分析:
检查表之间的内容和关系,帮助用户识别外键,并检查主键和外键之间的参照完整性。
跨域分析:
检查表之间的内容和关系并进行分析,以确定列之间值的重叠以及表内和表间数据的冗余情况。
基准分析:
帮助查看内容和数据结构随时间而发生的变化。
数据规则和指标:
支持用户创建逻辑规则进行数据验证,验证规则分析可以延伸数据源或跨数据源的评估,以定义数据之间的关系。
允许以多种方式表达验证规则。
回页首InfoSphereFederationServerInfoSphereFederationServer
提供了对同构和异构数据源的虚拟化集成,从而使应用程序可以访问和集成不同数据和内容源(就如同它们是单个资源一样)。
InfoSphere
FederationServer
执行此操作时与信息所在的位置无关,同时保留了数据和内容源的自主性和完整性。
联邦系统是一个典型的分布式数据管理系统,通过联邦功能,我们可以透明实时的访问分布在企业各个竖井中的数据,包括同构和异构数据,数据源可以是各种关系型数据库和半结构化数据,比如
XML、Excel
只要对数据源具有足够的权限,就可以对源库表中的数据做增加、删除、更改和查询操作,在实际使用过程中,企业倾向于只拥有源库的查询权限,以便万一源库数据出现问题时责任比较清晰。
InfoSphereFederationServerV10.1支持多种数据源,包括
DB2、DB2/390、DB2/400、Informix、Oracle、Sybase、MSSQLServer、postgreSQL
等多种关系型数据库,也包支持非关系型的半结构化数据源。
联邦服务器(InfoSphereFederation
Server)通过包装器(Wrapper)与各个数据源进行通信,针对各类数据源,联邦服务器提供专用的包装器实现对异构数据源的SQL
处理,支持对异构数据库直接的数据类型和函数的转换。
对主流关系型数据库(比如DB2、Informix、Oracle、Sybase、MS
SQLServer等)包装器通过该数据库的客户端与该数据库进行交互,对开源关系型数据库通过ODBC
驱动与其进行交互。
对非关系型数据源,包装器直接进行数据访问。
联邦服务器不需要在数据源端做任何更改,也不安装任何插件,只需要安装配置联邦服务器,即可实现实时的信息整合。
联邦服务器的原理如下图
7所示:
图7.
联邦服务器原理回页首InfoSphereReplicationServerInfoSphereReplicationServerV10.1(从10.1开始,将和CDC一起合并为InfoSphere
DataReplication)能跟踪源数据库的更新并将其中部分或全部更新复制到目标数据库,利用ReplicationServer
提供的复制能力可以实现在不同数据库直接的数据复制。
复制支持1
个数据源对多个目标数据库,多个数据源对一个目标数据库,既可以单向复制,也可以双向复制,从而实现数据整合、业务分离、数据容灾的功能要求。
ReplicationServer具体支持两种数据复制:
SQL复制和Q复制。
SQL
复制可以在主流关系型数据库(同构或异构)之间实现数据复制,Q复制是基于对数据源日志文件捕获对源表所作的更改,并通过Websphere
MQ
消息队列将已落实的更改传输至目的服务器,并将更改应用于目标表。
这两种复制技术都能支持多种数据同步拓扑结构,提供数据同步监控、数据一致性校验和容错机制。
复制具体复制方式包括准实时复制、定时复制、双向复制、复制转发、增量复制等,复制范围可整表复制或表中部分行复制,可对复制对象进行简单转换、归并、拆分等操作。
复制支持的数据源有DB2z/OS版、DB2forLinux,UNIXandWindows、DB2i
版、Informix、MicrosoftSQLServer、Oracle和Sybase,目的数据库除了上述源库以外还支持
Teradata。
当数据源是DB2数据库时,ReplicationServer通过读取数据库日志获取数据的更新,当数据源是非
DB2数据库时,则通过触发器机制捕获源库的更新并存储到CCD表中,然后通过Capture服务器提取源库的更新信息,Apply
服务器获取Capture的结果后根据复制映射关系进行转换并按照一定的刷新周期应用到目标数据库。
Q复制是一种高吞吐量、低延迟的数据同步方法,通过使用WebsphereMQ
的消息队列,在源数据库和目的数据库之间以及源系统和目标系统之间传递事务。
通过捕获并同步数据变化的增量信息,使数据源和目标数据之间数据内容保持一致。
与
SQL复制相比,Q复制对网络的要求不高,因为Q复制可以做到数据的异步复制(基于MQ的消息异步传输)。
Q
复制目前支持的数据源有DB2?
z/OS版、DB2forLinux,UNIXandWindows、DB2VSE&
VM服务器和Oracle(10.2和更高版本),目的数据库在上述源数据库中不支持DB2VSE&
VM服务器,对
Oracle数据库没有版本限制,另外还支持Informix、MicrosoftSQLServer、Sybase和
Q复制设计用于支持业务连续性、数据备份、工作负载分发和应用程序集成场景。
Q复制具有以下几个优点:
低延迟:
通过与WebsphereMQ
的有效集成,使得对源表进行的修改一旦提交,并从日志中读取到这些修改,这些变化就会立即被发送出去。
对数据源影响小:
最大程度减小对源数据库上的操作。
高吞吐量:
QCapture程序始终可以跟踪在源表发生的快速变化,并且QApply
程序使用多线程,使得它能够及时跟踪通信通道中的消息。
低网络流量:
消息使用一种压缩格式在队列中传送,而且在发送数据的选项中允许选择传送最少量的数据。
异步性:
消息队列使得QApply程序可以不连接源数据库或者源子系统就可以接收事务。
如果QCapture程序或者Q
Apply
程序停止,在程序可用后,需要进行处理的消息仍然存在于队列中。
由于消息是永久的,所以数据源和目标即使在系统或设备故障的情况下仍可以保持同步。
可以对数据进行筛选,使得仅复制需要的数据。
通过调用存储过程方便的实现数据的转换,以适应不同应用的要求。
复制技术是数据库表级的数据同步技术,可以灵活的指定需要同步的数据内容。
比如,可指定某些表作为复制来源,指定一个或多个表作为每一张数据源表的复制目标;
可配置复制源与复制目标间的数据映射关系,如选取数据源表中的某些列,或者用
SQL语言的where子句进行过滤选取数据源表中符合where子句条件的某些行;
可过滤数据源表上的Delete操作而只获取
Insert和Update操作产生的数据增量。
复制技术可以支持各种灵活的数据同步配置拓扑结构。
可以在远程服务器之间或者仅在一个单一的服务器上进行复制。
可以选择进行单向复制,或者选择多向复制。
其中,多向复制可以是双向的(对于管理备份系统十分有用),或者是对等复制(对于交易系统上的数据同步很有帮助)。
回页首InfoSphereChangeDataCaptureInfoSphereChangeDataCaptureV6.5(以下简称
CDC)是用