数据质量与元数据.ppt

上传人:b****9 文档编号:270478 上传时间:2022-10-08 格式:PPT 页数:110 大小:1.69MB
下载 相关 举报
数据质量与元数据.ppt_第1页
第1页 / 共110页
数据质量与元数据.ppt_第2页
第2页 / 共110页
数据质量与元数据.ppt_第3页
第3页 / 共110页
数据质量与元数据.ppt_第4页
第4页 / 共110页
数据质量与元数据.ppt_第5页
第5页 / 共110页
点击查看更多>>
下载资源
资源描述

数据质量与元数据.ppt

《数据质量与元数据.ppt》由会员分享,可在线阅读,更多相关《数据质量与元数据.ppt(110页珍藏版)》请在冰豆网上搜索。

数据质量与元数据.ppt

1,潘定教授、博士生导师2009年5月,数据质量与元数据,目录,基本概念数据质量连续统数据质量模型TDQM方法学测量与改进技术元数据与信息质量应用数据质量工具总结,1基本概念,当获得的数据与你认为的不一样时,就出现数据质量问题数据不符合说明:

垃圾进,垃圾出,etc.不了解说明:

复杂性,缺少元数据多数据来源和表现现象数据质量问题的高成本和普遍性DQ问题:

600Billion/yearDQ问题:

管理决策面临的重要问题,例子,如何解释数据?

字段的含义?

Key?

度量?

数据故障输入、多种格式、缺失/缺省值元数据与领域专家经验Field3isRevenue.Indollarsorcents?

Field7isUsage.Isitcensored?

Field4isacensoredflag.Howtohandleit?

T.Das|97336o8327|24.95|Y|-|0.0|1000TedJ.|973-360-8779|2000|N|M|NJ|1000,数据故障,由生成数据过程之外因素导致的数据变化Changesindatalayout/datatypesIntegerbecomesstring,fieldsswappositions,etc.Changesinscale/formatDollarsvs.eurosTemporaryreversiontodefaultsFailureofaprocessingstepMissinganddefaultvaluesApplicationdonothandleNULLvalueswellGapsintimeseriesEspeciallywhenrecordsrepresentincrementalchanges.,传统的数据质量定义(Redman,1992),AccuracyThedatawasrecordedcorrectlyCompletenessAllrelevantdatawasrecordedTimelinessThedataiskeptuptodateSpecialproblemsinfederateddata:

timeconsistencyConsistencyThedataagreeswithitselfUniquenessEntitiesarerecordedonce,传统定义的问题,难以测量Accuracyandcompletenessareextremelydifficult,perhapsimpossibletomeasure.与上下文无关Noaccountingforwhatisimportant.不完全Whataboutinterpretability,accessibility,metadata,analysis,etc.含糊不清Theconventionaldefinitionsprovidenoguidancetowardspracticalimprovementsofthedata.,新环境中的数据问题,新的数据范型自动数据采集、大量数据,对收集数据或设计难控制不适当使用已知的数据表示方式联邦数据异构集成数据、跨企业/部门数据,近似连接数据采集与数据分析的分离缺少一致或标准的数据表达,缺少数据含义和解释新型应用数据用于决策、预测,需要融合领域知识的挖掘,信息质量的定义,

(1)L.English(1999)Consistentlymeetingallknowledgeworkerandend-customerexpectationsinallqualitycharacteristicsoftheinformationproductsandservicesrequiredtoaccomplishtheenterprisemissionorpersonalobjectives;Thedegreetowhichinformationconsistentlymeetstherequirementsandexpectationsofallknowledgeworkerswhorequireittoperformtheirprocesses.

(2)IAIDQ(2006):

Thefitnessforuseofinformation;informationthatmeetstherequirementsofitsauthors,users,andadministrators.,影响质量的因素

(1),对不同类型的数据,有不同的质量问题FederateddataMassive,HighdimensionaldataDescriptivedataLongitudinaldataStreamingdataWebdataNumericvs.categoricalvs.textdata,影响质量的因素

(2),不同的应用类型操作型应用聚合分析客户关系数据解释没有元数据,没有数据后面的业务规则,数据就难以理解数据的适用性-从现有数据中得到回答替代数据的使用相关数据缺失,测量数据质量-DQ约束,使用基于模式的静态约束可以捕捉到许多数据质量问题Nullsnotallowed,fielddomains,FK,constraints,etc.使用动态约束可以捕捉到工作流中的其他许多数据质量问题ordersabove$200areprocessedbyBiller2约束遵循80-20法则约束是可测量的建立度量(Metrics)测量数据达到约束的程度,数据质量度量,需要可测量的数量指示什么是错的,应如何改进难以找到最好的数量集度量的类型静态约束vs.动态约束Operationalvs.diagnostic度量应是指导性地更正,达到数据使用的改进可能会建立大量的度量,选择最重要的实施,数据质量度量例子,模式一致性-staticdiagnosticmetric评价一个快照上的约束业务规则一致-dynamicdiagnosticmetric评价数据库变更上的约束准确性-staticdiagnosticmetric现行库存量(费用),审计抽样?

可存取性-generaldiagnosticmetric可解释性end-to-end过程成功完成,DQ研究问题与应用领域,相关研究领域,2数据质量连续统,数据收集&数据交付,数据存储,数据集成,数据检索,数据分析/数据挖掘,准确回答,解决方法,决策.,数据收集阶段,数据怎样进入系统问题手工输入对内容和格式没有统一的标准重复输入测量错误缺少事先计划,解决方法,先发制人设计自动工作流,建立完整性检验保证一次正确输入处理管理数据共享与维护数据与元数据不可分明确数据管理员责任持续审计追溯既往诊断方法自动故障检测清除方法重复删除、合并/清除名&地址匹配、字段值标准化,数据交付阶段,数据由原始地送向永久存储地的过程问题数据损坏/损伤(因不适当的预处理)不适当聚合、缺省赋值、测量设备限制(截断、删节)数据丢失缓冲区溢出传输问题引起文件丢失未检验,解决方法,建立可靠的传输协议中继服务器检验检查和,验证语法分析器上载文件符合预定模式明确关系数据来源间的依赖关系、处理步骤是否增量?

需要重新匹配模型?

接口合作书数据提供者的DQ承诺,有文档?

提示变更?

数据存储阶段,问题缺少、不完整的元数据复杂的规则和例外未文档化;元数据的变更未及时反应不适当的数据模型丢失时间戳、不正确的规范化特定修改与变化短视的决策影响长期的使用硬件/软件的约束截断与删改数据,解决方法,元数据管理记入文档并发布数据规范规划、计划假设每件事都会出问题难以实施的事数据探索使用数据浏览和数据挖掘工具检查数据达到指定的规范了吗?

发生了什么事?

数据集成阶段,整合联邦数据,形成最难跟踪的DQ问题问题异构数据:

没有公共键、字段格式差异;近似匹配不同的定义acustomer:

anaccount,anindividual,时间同步是否同一时期的数据?

时间间隔是否兼容?

遗留数据电子表格,特定结构社会、政治因素,解决方法,强制精确时间戳商用工具数据集成方面研究的主要对象已有许多工具用于匹配、模式匹配数据浏览和探索有许多隐藏问题和含义必须抽取元数据察看结果前、后:

集成是否正常进行?

数据检索,输出数据集合是数据库的一个视图人为错误数据源未完全理解导出数据的需求不理解仅仅简单的错误,如内联结vs.外联结,NULL值计算约束例如,代价太大不能给出全部历史数据,仅提供快照软件不兼容,解决方法,工具使用XML进行数据交换,数据和元数据协同测试预先计划,数据分析阶段,用所有这些数据分析什么?

问题规模与性能信心保障黑盒子与飞镖板对某些模型的偏爱领域经验不足不经意的数据设定,解决方法,数据探索确定哪个模型和技术是合适的,找出数据bugs,开发领域经验持续分析结果稳定吗?

它们将如何变化?

明确责任设定反馈回路的分析部分,数据质量过程,数据收集,数据加载(ETL),数据清洗dataprofiling,validatedataconstraints,数据集成functionaldependencies,开发业务规则与度量interactwithdomainexperts,验证业务规则,稳定业务规则,检验业务规则,数据质量监视,分析定量结果总结经验,3数据质量模型,模型广泛使用在数据库设计、需求分析模型也使用在业务处理的表达、输入/输出、因果关系、处理功能/非功能概念/逻辑数据模型的扩充信息系统模型,结构数据模型的扩充,扩充成为带有质量特征的ERM使用属性增加质量度量一种简单的概念模型方法,如下图,数据质量模式,质量属性模型,信息系统模型,处理描述模型:

信息产品图(IP-MAP)模型IP-MAP模型原理:

数据可看作是一种制造活动的特殊产品数据质量的描述模型能采用类似制造传统产品的质量控制方式IP-MAP是一种图形模型,用于帮助人们理解、评估和描述IP是如何组装在业务过程中的IP-MAP是一种系统的表示法,捕捉IP制造过程中的相关细节显示IP过程、识别处理阶段主人、理解信息和组织边界,估计产品处理的时间和质量度量,IP-MAP构件块,IP-MAP例子,IP-MAP与其他方法的比较

(1),IP-MAP与其他方法的比较

(2),IP-MAP与其他方法的比较(3),评估数据质量,DQ评估需要不同的技术和元数据评估形式公平的(impartial)-基于结构上下文的(contextual)-基于内容和特定使用场景某些质量属性更适合“公平的”,而另一些则适合“上下文的”,也有两个都适合IP-MAP支持上下文的评估交流公平的数据质量测量(引用质量元数据、质量信息)交流数据源、制造过程、过程元数据的细节使用已有方法计算数据质量,支持IP-MAP的元数据库模型,IP-MAP的扩展,事件处理链图业务处理概览-数据、事件和处理间的关系交互模型(企业单元如何交互)-在源、消费者和组间的交流结构组织模型(谁做什么)-组织分组/功能的层次构件模型(发生什么)-数据、事件及其触发器关系数据模型(需要什么数据)-产品、存储等数据间的关系IP-UML,基于IP-MAP的数据质量profileClass、relationshipConstraintTagdefinition、taggedvalueStereotype,IP-UML:

数据质量profile,数据分析模型为消费者规定哪个数据(其质量对组织成功起关键作用)是重要的IP、原始数据、构件数据表示成stereotypedUML类(质量数据类)质量分析模型由表示数据的质量需

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1