元数据管理与数据质量平台Word文档格式.docx
《元数据管理与数据质量平台Word文档格式.docx》由会员分享,可在线阅读,更多相关《元数据管理与数据质量平台Word文档格式.docx(19页珍藏版)》请在冰豆网上搜索。
数据正确是决策的关键,数据不正确,数据仓库项目就等于失败。
但数据的正确性难以通过自身检查。
应该对重要数据和重要统计设置正确性检查。
要紧方法是:
数据自身统计检验
纵向对比检验
数据间按逻辑交叉检验
横向对比校验
要紧检查的内容:
ETL过程正确性
加工过程正确性
数据整合正确性
模型正确性
展现正确性
查询正确性
核对过程是否充分
准确性
数据的正确性基础上才有意义讨论准确性。
准确性包括精度和近似规则。
精度:
系统定义的数据必须满足的精确性要求。
例如,客户生日,能够精确到年,或月,或日;
全局收入统计或许到万元即可,也许到角分。
可用性
数据的可用性不是一个简单数据质量咨询题,而是系统质量咨询题,所有质量因素都可能阻碍到可用性。
数据的可用性要紧体现在使用的效率上
时效性
清晰性
数据的清晰性考查系统元数据的精度。
元数据必须清晰定义每一个数据的来龙去脉。
必须没有歧义。
充足性
数据的充足性定义在保证数据正确性和准确性基础上是否能对要紧业务专题提供足够的数据进行足够精度的分析需求。
例如,进行时刻序列分析通常需要至少36个连续时刻单位的数据,是否能够提供那个时刻序列。
数据积存是否足够广泛,例如设计上尽管包含了足够宽广的业务领域,但每项业务的数据是否确实收集到了足够多,
数据积存是否足够时刻,充足性的专门情形,是否收集了足够时刻长度的数据
元数据和字典数据的充足性,描述性是否足够
数据质量保证框架
战略
战略–从企业战略方向主动的考虑数据质量状况。
战略的意义:
提供了战略上的、可操作的数据质量保证方向
识不企业数据的关键因素
指明数据质量的范畴
战略的范畴:
策略:
包含以下方面的内容,
任务定义
与业务的关系
切入点
约束条件
可行性
关键方法:
包含以下方面,
方向
使规范化
保证策略被顺利执行的手段
变更治理:
为了适应企业变更而采取相应的数据质量治理变更机制
组织
组织–为了达成企业的数据质量目标,从企业行政治理以及职能设置上进行考虑。
组织指的是如何组织相应的人员、设置相应的数据质量机构对数据质量进行治理,包含以下方面:
组织机构规划
人员及其职责设计
制定考核制度
治理
治理–关于企业中元数据以及业务规则的爱护上予以治理
治理包含以下范畴:
定义完整的元数据集
定义无二义性、易于明白得的业务规则
建立一个健壮的、高可扩展的数据模型
架构
架构–从整体上(数据、应用程序、技术架构)对改进数据质量予以考虑
架构的建立应从以下方面进行考虑:
数据架构
应用程序架构
基础架构
过程
过程–过程的改进
过程关注的是数据质量治理的过程,应从以下方面进行考虑:
数据质量治理的实施过程
过程操纵点以及操纵路线
(错误或专门的)补救措施
验证
验证–定义数据质量的评测标准并按所制定的标准对其进行验证,只有确立相应标准,数据质量的操纵才具有现实意义。
验证包含以下内容:
数据的重要程度,能够从以下方面进行判定:
对日常操作的阻碍
对一样业务的阻碍
对财务上的阻碍
对客户服务的阻碍
对决策的阻碍
数据质量维度--数据质量咨询题域汇总
序号
数据质量咨询题
细目
备注
1
完备性
是否涵盖所有生产系统和必要的外部数据
是否涵盖所有业务
是否覆盖所有客户
是否覆盖所有产品
系统设计完备性
2
数据完整性
业务完整性
数据模型完整性
加工层次完整性
粒度完整性
3
对咨询题域的解决方案是否有足够的数据作为分析基础
数据积存是否足够广泛
数据积存是否足够时刻
元数据和字典数据的充足性
4
5
数据精度是否足够
近似模型是什么
6
数据库一致性
主键,外键完整性
和源数据一致性
7
逻辑性
逻辑严密性
是否有严密的逻辑约束
数据逻辑关系
表内表间关系
8
职业道德和法律
结果不可修改特性
9
数据质量保证体系
数据出错处理和防范预案
10
分析质量
报表质量
查询质量
接口数据质量
非生产数据质量
例如市场竞争数据
沟通
沟通–关注使用数据信息的有关责任者之间的沟通,要充分关注数据质质量组织机构中的职员、不同的团体以及单位之间的相互沟通。
执行
执行–指组织中的每个成员都应改遵守数据质量治理所制定的要求、决定
。
数据质量连续改进过程
发起–按照制定的规范猎取相应的项目资源、支撑工具以及制定工作打算。
定义–定义详细的过程、数据、组织的划分以及质量元素、标准及测算方法。
评估–对现存数据及业务环境进行评估,以便识不项目对数据、过程、系统以及组织架构所造成的阻碍。
清洗/改进/评测–改进现有数据的数据质量,并采取措施修改业务环境,幸免类似错误连续发生。
强调循环改进
元数据治理架构
国有资产治理支持系统数据仓库数据源广泛,数据消费者群体跨度也专门广,各种指标、维度、统计口径等元数据有关的咨询题必定是项目面临的庞大挑战之一。
元数据差不多概念
元数据(MetaData)是关于数据的数据。
当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便能够看作是元数据;
元数据要紧用来描述数据的上下文信息。
通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据。
元数据之因此有其它方法无法比拟的优势,就在于它能够关心人们更好的明白得数据,发觉和描述数据的来龙去脉,专门是那些立即要从OLTP系统上升到DW/BI体系建设的企业,元数据能够帮他们形成清晰直观的数据流图。
元数据的概念尽管在国内刚刚被人们熟悉起来,但在国外他差不多历了较长的进展历史。
从上世纪60年代,人们认识到元数据的需要,到数据字典、CASE工具的应用,以及上世纪90年代数据仓库体系中元数据储备库的显现,直到现时期国外企业以元数据为驱动的IT系统建设的方法论流行。
企业关于元数据的价值越来越有深刻的体会。
元数据按其描述对象的不同能够分三大类:
技术元数据、业务元数据和治理元数据。
技术元数据要紧用是用来描述数据实体和数据处理过程中的技术细节和处理规则。
例如我们所熟知的表结构、ETL映射关系等,这类元数据要紧是系统建设的技术人员使用。
业务元数据要紧是对IT系统的数据实体和数据处理的业务化描述,包括业务规则、业务术语、统计口径、信息分类等。
我们经常提及的KPI定义和报表统计规则等就属于此类元数据。
业务元数据要紧的使用者是业务人员和公司决策人员。
治理类元数据要紧是对项目治理、IT运维、IT资源设备等有关信息的描述。
这类元数据要紧是企业IT部门的治理人员使用。
利用此类元数据能够进行工作分配、网络资源等方面的治理。
元数据的治理方式有三种:
集中式、分布式和混合式。
集中式的治理方式是把原有系统中的元数据抽取出来,用一个独立的系统来集中治理。
此类治理方式优点是:
可高效存取信息、独立于被集成的系统和具备储备附加元数据的能力;
缺点是:
由于额外的执行和爱护降低了ROI和实时性。
分布式治理方式是不具备独立的元数据储备库,系统实时的连接到原有的系统。
这种方式的优点是:
适时性比较好和能保证元数据的质量;
过度依靠于集成系统和不能储备附加元数据。
混合式元数据治理既有独立的元数据储备库又可实时的连接到原有的系统。
混合式治理方式克服了集中式和分布式治理的各自缺点,同时集成了前两种治理方式的优点,既能适时的捕捉和反映原有系统元数据的情形,又能让用户扩展和定义附加的元数据。
元数据治理目前遵循的规范为CWM(CommonWarehouseModel)。
该规范是由OMG组织制定的,此规范目的是能在不同的系统之中能够自由、便利的交换元数据。
CWM核心的技术有三个:
UML(UnitedModelingLanguage)、MOF(MetadataObjectFacility)和XMI(XMLMetadataInterchange)。
UML要紧用来定义元模型;
MOF用来提供操作元数据接口;
XMI用来定义交换元数据的机制。
元数据治理的五种状态
第一级:
随机状态(Ad-hoc)
行为特点在这一级上,对元数据的治理是随机的。
元数据由某个人或某一组人员在局部产生或猎取,并在局部使用。
在大多数时刻里,元数据是隐匿在信息中,例如储备于诸如Word、Excel等形式的办公文档,这些文档使用的术语仅局部的用户能明白其确切含义。
人们通过与“责任人”直截了当通信或通过信息会话来猎取这些知识。
在局部环境工作数月或数年后,人们使这些元数据以及对它的明白得内在化,使对这种信息有适应性的明白得。
在这一时期,元数据通过组织机构缓慢的传播或全然不传播,这取决于局部小组与其他小组间的通信量的大小,这些元数据可能永久“待”在该局部小组或某个人那儿。
如果如此的小组或个人调离,则这种元数据信息可能永久丢失。
人元数据知识保留在人的大脑中。
在这种环境中,明白(或不明白)与谁交谈关于明白得元数据成为一件十分重要的事。
处理元数据要通过与“责任人”的交谈才能共享。
新来者需要通过他们的日常工作来学习元数据。
外部人员难以明白得元数据,他们必须与“责任人”交谈才能得到他们想要的东西。
因为元数据在局部产生或抓取并在局部使用,因此通常也只能在局部修改,这种修改通常也可不能通知公司里其他的组织。
技术能够用各种不同的工具来生成元数据。
绝大部分是面向个人电脑的应用软件。
例如,ERWin可用于数据库建模,Rational用于为对象建模、Excel用于生成商品列表等。
这些工具都没有设计成能够交换信息,因此,只能在当地的文件系统中储存所生成的元数据。
第二级:
可发觉
行为特点在元数据治理的这一级上,能够发觉在不同企业之间的元数据。
像第一级的情形一样,元数据仍旧在局部产生和抓取,然而,它处于可发觉状态,如此的元数据在企业一级显露,使得每一个对它有爱好的人都能随时了解“什么差不多存在”。
元数据仍旧能够在局部级上爱护,然后更新中央知识库,但它们仍旧使用不同的命名法。
结果,相同的名字被用于表示意义不同的情况,而同一件情况则使用了几个不同的名字。
尽管如此,相比之下,从不同来源来的数据和数据的含义差不多具有了更多的透亮度。
关于商业用户,如果他们需要,现存的技术可为他们提供有关数据的来源和如何样对数据进行运算的信息。
人人们开始感知到共享元数据信息的重要性。
业务分析员、数据拥有者和应用开发者现在自觉地将元数据信息加载到中央知识库中。
处理元数据知识经由中央数据库进行共享。
凭借对中央知识库地明白得,人们能够发觉在其他应用系统中的数据。
然而,由于使用术语的不同,人们互相之间需要交流,以便弄清某些元数据的含义。
而且,由于元数据的更新不受任何方式的操纵,使得这种更新没有告示或贴切的分析。
技术有一些元数据治理工具可用于共享来自数据源的元数据,并能把来自不同建模工具的逻辑元数据导入到元数据知识库中。
AGRochade、Unicon、MetaMatrix是该类产品的一些例子。
然而,除了以商业含义来定义数据表格的栏目名之外,这些工具没有一个能专门好地抓取元数据。
第三级:
治理操纵
行为特点这一级对元数据的修改进行集中治理。
局部业务单元或开发小组如不通知其他的元数据保管者和用户,就不再能按照自己的方法对元数据进行修改。
在一个地点发起的元数据的修改将传播给其他地点。
有各种工具和方法可用于不同业务单元之间交换元数据。
为了整合不同数据源中的数据,仍旧必须用手工进行数据的映射,以解决不同数据源的数据整合。
然而,这种映射在一个中央知识库上进行爱护和治理。
人数据拥有者、应用开发人员、用户和其他的数据储存者现在比以往任何时候更清晰元数据治理的重要性。
人们遵循有关元数据治理的“监督”处理操作规程。
在对元数据进行修改前,他们就分析这种修改将会产生的阻碍。
他们认识到元数据的共享将使组织的运作更有效,并使他们的生活更轻松。
处理建立了监督体系结构(谁是数据和应用的拥有者),监督资产(数据仓库、数据集市、命名标准)和流程(何时开始更新、如何更新)。
技术有几个工具经常被用于元数据的监督处理。
SchemaLogic是一种新兴的工具,通常被用于关心监督处理发觉业务的词汇及其分类。
还有一些软件提供商正在相互竞争,以填补这一空间,但还没有一家能提供商用的产品。
第四级:
优化
行为特点在对元数据实施集中储备并通过监督体制对元数据进行治理后,企业会发觉,通过标准化和整合能够实施有意义的优化。
为了优化各业务单元之间的各种冲突和各个副本,人们开发了一个企业数据模型和词汇表。
人们能够将这些标准模型和词汇表用于各种新的应用。
时机成熟时,能够把各种老的应用迁移到这些模型上。
人在这一级,人们坚持不懈地探究优化的途径。
人们协同工作,通过在数据的入口点确认数据的有效性来提升数据的质量。
通过确定各业务实体的权威数据源,使数据的映射达到最小化。
数据开始从一个业务单元平滑地流到另一个业务单元,而不用担忧昂贵的数据集成成本。
处理第一,生成企业数据模型,并在中央知识库进行爱护。
第二,对数据模型中定义的每一个实体确定权威数据源或企业应用的主参照数据,然后将业务的上下文信息和含义与这些数据源进行关联。
在整个组织中对业务的词汇表进行标准化。
鼓舞应用开发小组使用这些标准化的术语,来生成、传播和表示信息。
技术目前,仅有少数几个能关心企业实施优化的工具。
而且,每一个工具只能完成其中一到两个任务,还没有哪个工具能做企业优化所需的所有情况。
第五级:
自动化
行为特点在这一级,元数据治理是自动进行的。
当在逻辑层次发生元数据更新时,它们将被传播到物理层次。
反之,当在物理层次发生更新时,逻辑层次将被更新,以反映这种更新。
在元数据中的任何变化也将触发业务工作流,以处理其他各个业务系统所需的相对应的任何修改。
由于各个应用系统遵照相同的词汇表,它们之间的关系可以通过知识本体进行推断,因此,各应用系统之间数据格式的映射自动产生。
人人们把元数据治理作为常规业务的组成部分。
就像电信网对业务的支持一样,元数据成为组织运作中一种关键的、普遍存在的、无形的资产。
元数据治理变成业务处理的一个要紧组成部分,而且,整个业务运作都要依靠于它。
事实上,如果元数据治理实施得专门好,人们能够无需关怀它在何处。
在自动化级,元数据治理成为一种使能器,而不被视为一种障碍。
处理在这一级,元数据治理的处理较为理想。
绝大多数处理是自动完成的。
人们从手工和程序处理过程中解放出来。
他们在元数据判定上能够工作得更有效。
当业务变化时,由知识工人对企业数据模型、词汇表和知识本体进行爱护。
如此一种改变赶忙会在各个应用中反映出来。
例如,如果一个新产品被引进,把它加到企业词汇表和知识本体中,这一情形将自动地被传播给金融系统、制造业系统和营销系统。
使得每个应用系统无需花费昂贵的代价,去完成相应的修改。
技术各个应用必须使用企业数据模型、词汇表和知识本体来猎取、传播和表示数据。
人们开发了各种代理,将数据从一种格式翻译成另一种格式。
为了实现这些功能,当前正在展开知识库表示和知识集成方面的许多研究。
元数据治理工具差不多功能
元数据治理典型的应用有:
ETL映射分析、血统分析/阻碍分析和差异分析等。
这些应用关于整个企业、技术人员、业务人员和IT治理人员都的挥着至关重要的作用。
关于整个企业而言,元数据治理能够协助企业进行数据资产治理;
关心解决数据孤岛的现象,形成统一企业信息地图;
实现集中扫瞄分布在企业内部的所有电子文档;
同时协助企业建立企业级视图的指标库。
随着企业信息化建设的持续深入和积存,元数据治理平台能够发挥企业知识传承的平台。
通过元数据的“ETL映射分析”功能,从企业级视图去查看“Transformer”那个转换的具体细节。
关心技术人员更好的明白得数据内部的来龙去脉。
关于那些差不多建设有BI/DW系统的企业而言,企业内部分散着数十种系统的情形是专门普遍的现象。
这些企业的业务人员和决策层所关注的一些统计报表和指标,往往是通过许多业务系统和若干数据处理环节而形成的。
当最末端的数据发生专门时,在没有元数据治理系统的情形下,需要许多单位和部门(包括软件集成商)的人共同参与,利用手工的方式去逐级查找数据出错的缘故。
这种方式不仅不利于咨询题的及时发觉,而且一旦显现咨询题,专门难短时刻内定位咨询题,甚至全然不可能定位咨询题的所在。
而利用元数据治理系统的血统分析等功能,能够专门容易的定位咨询题,再配合监控规则的设置,使咨询题发觉的及时性大大提升。
利用元数据治理系统,企业能够建立数据元(标准)的统一视图。
通过统一数据口径、完善指标体系、建立统一数据视图,可确保数据的完整性、准确性、一致性,从而有效的在各个业务系统内进行数据的转换和整理工作。
目前,许多企业经常会面临同一个指标在不同部门或者不同系统中定义不一致的情形,以至于最终的统计数据显现偏差,为决策者提供了错误的决策依据。
如某企业某月A省分公司和B省分公司都给总公司上报了“产品销售量”的指标,A省分公司的产品销售量为500万件,B省分公司的产品销售量为300万件。
按常识判定A省分公司的销售量应该远远小于B省分公司的销售量,但报表的数据却与常识相差甚远,怎么讲是什么缘故造成这种与常识的不一致性呢?
在没有元数据治理系统时,我们专门难发觉其中的缘故,但有了元数据治理系统的指标差异分析等功能,通过元数据的差异分析专门容易讲明这些现象。
如图5所示:
之因此显现统计的专门是由于A、B两省分公司对同一指标“产品销售量”的定义不一致而造成的。
此外,元数据治理系统可在统一数据视图上进行全行业内的指标一致性分析,可对关键业务的监控规则进行设置和治理。
随着数据量的持续积存,数据质量咨询题的日益突出,元数据治理平台可承担起全企业的数据质量治理的基础平台。
同时,利用需求类元数据和流程类元数据,来协助IT治理人员进行项目和流程的治理,从而减少企业人员流淌关于项目造成的阻碍。
在那个“惟一不变的确实是变化本身”的时代,在那个数据和知识爆炸的时代,如何有效的进行企业IT系统建设的扬弃和传承?
如何高效的利用企业数据资产?
这些咨询题犹如“格尔迪奥斯绳结”摆在我们的面前,而元数据恰是解开那个“结”的关键所在。
关于企业IT系统建设而言,我们依旧信奉“元数据不是万能的,但没有元数据是万万不能的”这句经典诠释。
专门是关于那些组织结构复杂、IT系统众多的企业,那个组织和支撑它的IT系统要想有效运转起来,一定少不了元数据这种“润滑剂”。
目前主流的元数据治理工具
总起来看,目前国内的元数据治理工具大致有三类。
一是像IBM、CA等公司都提供的专门工具,例如IBM收购Ascential得到的Metastage,CA的DecisionBase差不多上如此;
二是像DAG的Metacenter,它不依靠于某项BI产品,是一种第三方的元数据治理工具,三是国内部门开发商在某些具体的项目中也在开发自己的元数据治理工具。
各种元数据治理工具有专门多。
理论上讲,用户能够用其中一种治理其他系统中的数据,例如选择数据仓库系统厂商提供的元数据治理工具来治理其他层面的元数据。
但实际应用中的治理成效如何呢?
一样情形是,这些专门工具治理自己本系统的元数据尚可,一旦跨系统治理,成效就不尽如人意了。
从国内的实际应用来看,DAG的Metacenter这一工具使用最多,目前所看到的在电信、金融领域建设的元数据治理项目差不多上差不多上应用了这一产品。
至于像CA等公司的工具,在国内差不多上没有成功案例。
国有资产治理支持系统元数据治理架构
现状
尽管元数据治理差不多专门久被业界所关注,然而大多数企业的元数据治理事实上依旧处在一个纷乱的状态中,元数据没有被有效的纪录下来,大量的元数据嵌入在软件应用编码中,甚至更多的存在于职员的“部落知识”中,某个职员的离职都可能对企业造成极其糟糕的阻碍。
正如我们在元数据治理的五种状态的第一级状态所描述:
要紧的障碍
元数据治理咨询题是业界头痛已久的一个咨询题,目前看似还没有专门好的解决方案,国内已知的元数据治理工具和已知的元数据治理项目都能够讲是成效一样。
其关键的难点在于:
一方面工具本身的缺陷,目前已知的工具几乎都只能支持与几种有限的工具平