ImageVerifierCode 换一换
格式:PPT , 页数:110 ,大小:1.69MB ,
资源ID:13200445      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/13200445.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据质量与元数据PPT文档格式.ppt)为本站会员(b****9)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据质量与元数据PPT文档格式.ppt

1、600 Billion/yearDQ问题:管理决策面临的重要问题,例子,如何解释数据?字段的含义?Key?度量?数据故障输入、多种格式、缺失/缺省值元数据与领域专家经验Field 3 is Revenue.In dollars or cents?Field 7 is Usage.Is it censored?Field 4 is a censored flag.How to handle it?,T.Das|97336o8327|24.95|Y|-|0.0|1000Ted J.|973-360-8779|2000|N|M|NJ|1000,数据故障,由生成数据过程之外因素导致的数据变化Chang

2、es in data layout/data typesInteger becomes string,fields swap positions,etc.Changes in scale/formatDollars vs.eurosTemporary reversion to defaultsFailure of a processing stepMissing and default valuesApplication do not handle NULL values well Gaps in time seriesEspecially when records represent inc

3、remental changes.,传统的数据质量定义(Redman,1992),AccuracyThe data was recorded correctlyCompletenessAll relevant data was recordedTimelinessThe data is kept up to dateSpecial problems in federated data:time consistencyConsistency The data agrees with itselfUniquenessEntities are recorded once,传统定义的问题,难以测量Ac

4、curacy and completeness are extremely difficult,perhaps impossible to measure.与上下文无关No accounting for what is important.不完全What about interpretability,accessibility,metadata,analysis,etc.含糊不清The conventional definitions provide no guidance towards practical improvements of the data.,新环境中的数据问题,新的数据范型

5、自动数据采集、大量数据,对收集数据或设计难控制不适当使用已知的数据表示方式联邦数据异构集成数据、跨企业/部门数据,近似连接数据采集与数据分析的分离缺少一致或标准的数据表达,缺少数据含义和解释新型应用数据用于决策、预测,需要融合领域知识的挖掘,信息质量的定义,(1)L.English(1999)Consistently meeting all knowledge worker and end-customer expectations in all quality characteristics of the information products and services required

6、to accomplish the enterprise mission or personal objectives;The degree to which information consistently meets the requirements and expectations of all knowledge workers who require it to perform their processes.(2)IAIDQ(2006):The fitness for use of information;information that meets the requirement

7、s of its authors,users,and administrators.,影响质量的因素(1),对不同类型的数据,有不同的质量问题Federated dataMassive,High dimensional dataDescriptive dataLongitudinal dataStreaming dataWeb dataNumeric vs.categorical vs.text data,影响质量的因素(2),不同的应用类型操作型应用聚合分析客户关系 数据解释没有元数据,没有数据后面的业务规则,数据就难以理解数据的适用性-从现有数据中得到回答替代数据的使用相关数据缺失,测量数

8、据质量-DQ约束,使用基于模式的静态约束可以捕捉到许多数据质量问题Nulls not allowed,field domains,FK,constraints,etc.使用动态约束可以捕捉到工作流中的其他许多数据质量问题orders above$200 are processed by Biller 2约束遵循 80-20 法则约束是可测量的建立度量(Metrics)测量数据达到约束的程度,数据质量度量,需要可测量的数量指示什么是错的,应如何改进难以找到最好的数量集度量的类型静态约束 vs.动态约束Operational vs.diagnostic度量应是指导性地更正,达到数据使用的改进可能会

9、建立大量的度量,选择最重要的实施,数据质量度量例子,模式一致性-static diagnostic metric评价一个快照上的约束业务规则一致-dynamic diagnostic metric评价数据库变更上的约束准确性-static diagnostic metric现行库存量(费用),审计抽样?可存取性-general diagnostic metric可解释性end-to-end 过程成功完成,DQ研究问题与应用领域,相关研究领域,2 数据质量连续统,数据收集&数据交付,数据存储,数据集成,数据检索,数据分析/数据挖掘,准确回答,解决方法,决策.,数据收集阶段,数据怎样进入系统问题手

10、工输入对内容和格式没有统一的标准重复输入测量错误缺少事先计划,解决方法,先发制人设计自动工作流,建立完整性检验保证一次正确输入处理管理数据共享与维护数据与元数据不可分明确数据管理员责任持续审计追溯既往诊断方法自动故障检测清除方法重复删除、合并/清除名&地址匹配、字段值标准化,数据交付阶段,数据由原始地送向永久存储地的过程问题数据损坏/损伤(因不适当的预处理)不适当聚合、缺省赋值、测量设备限制(截断、删节)数据丢失缓冲区溢出传输问题引起文件丢失未检验,解决方法,建立可靠的传输协议 中继服务器检验检查和,验证语法分析器上载文件符合预定模式明确关系数据来源间的依赖关系、处理步骤是否增量?需要重新匹配

11、模型?接口合作书数据提供者的DQ承诺,有文档?提示变更?,数据存储阶段,问题缺少、不完整的元数据复杂的规则和例外未文档化;元数据的变更未及时反应不适当的数据模型丢失时间戳、不正确的规范化特定修改与变化短视的决策影响长期的使用硬件/软件的约束截断与删改数据,解决方法,元数据管理记入文档并发布数据规范规划、计划假设每件事都会出问题难以实施的事数据探索使用数据浏览和数据挖掘工具检查数据达到指定的规范了吗?发生了什么事?,数据集成阶段,整合联邦数据,形成最难跟踪的DQ问题问题异构数据:没有公共键、字段格式差异;近似匹配不同的定义a customer:an account,an individual,时

12、间同步是否同一时期的数据?时间间隔是否兼容?遗留数据电子表格,特定结构社会、政治因素,解决方法,强制精确时间戳商用工具数据集成方面研究的主要对象已有许多工具用于匹配、模式匹配数据浏览和探索有许多隐藏问题和含义必须抽取元数据察看结果前、后:集成是否正常进行?,数据检索,输出数据集合是数据库的一个视图人为错误数据源未完全理解导出数据的需求不理解仅仅简单的错误,如内联结 vs.外联结,NULL值计算约束例如,代价太大不能给出全部历史数据,仅提供快照软件不兼容,解决方法,工具使用XML进行数据交换,数据和元数据协同测试预先计划,数据分析阶段,用所有这些数据分析什么?问题规模与性能信心保障黑盒子与飞镖板

13、对某些模型的偏爱领域经验不足不经意的数据设定,解决方法,数据探索确定哪个模型和技术是合适的,找出数据bugs,开发领域经验持续分析结果稳定吗?它们将如何变化?明确责任设定反馈回路的分析部分,数据质量过程,数据收集,数据加载(ETL),数据清洗 data profiling,validate data constraints,数据集成 functional dependencies,开发业务规则与度量 interact with domain experts,验证业务规则,稳定业务规则,检验业务规则,数据质量监视,分析定量结果总结经验,3 数据质量模型,模型广泛使用在数据库设计、需求分析模型也使

14、用在业务处理的表达、输入/输出、因果关系、处理功能/非功能概念/逻辑数据模型的扩充信息系统模型,结构数据模型的扩充,扩充成为带有质量特征的ERM使用属性增加质量度量一种简单的概念模型方法,如下图,数据质量模式,质量属性模型,信息系统模型,处理描述模型:信息产品图(IP-MAP)模型IP-MAP 模型原理:数据可看作是一种制造活动的特殊产品数据质量的描述模型能采用类似制造传统产品的质量控制方式IP-MAP 是一种图形模型,用于帮助人们理解、评估和描述 IP 是如何组装在业务过程中的IP-MAP 是一种系统的表示法,捕捉IP制造过程中的相关细节显示 IP 过程、识别处理阶段主人、理解信息和组织边界

15、,估计产品处理的时间和质量度量,IP-MAP构件块,IP-MAP例子,IP-MAP与其他方法的比较(1),IP-MAP与其他方法的比较(2),IP-MAP与其他方法的比较(3),评估数据质量,DQ评估需要不同的技术和元数据评估形式公平的(impartial)-基于结构上下文的(contextual)-基于内容和特定使用场景某些质量属性更适合“公平的”,而另一些则适合“上下文的”,也有两个都适合IP-MAP支持上下文的评估交流公平的数据质量测量(引用质量元数据、质量信息)交流数据源、制造过程、过程元数据的细节使用已有方法计算数据质量,支持IP-MAP的元数据库模型,IP-MAP的扩展,事件处理链

16、图业务处理概览-数据、事件和处理间的关系交互模型(企业单元如何交互)-在源、消费者和组间的交流结构组织模型(谁做什么)-组织分组/功能的层次构件模型(发生什么)-数据、事件及其触发器关系数据模型(需要什么数据)-产品、存储等数据间的关系IP-UML,基于IP-MAP的数据质量profileClass、relationshipConstraintTag definition、tagged valueStereotype,IP-UML:数据质量profile,数据分析模型为消费者规定哪个数据(其质量对组织成功起关键作用)是重要的IP、原始数据、构件数据表示成stereotyped UML类(质量数据类)质量分析模型由表示数据的质量需

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1