1、600 Billion/yearDQ问题:管理决策面临的重要问题,例子,如何解释数据?字段的含义?Key?度量?数据故障输入、多种格式、缺失/缺省值元数据与领域专家经验Field 3 is Revenue.In dollars or cents?Field 7 is Usage.Is it censored?Field 4 is a censored flag.How to handle it?,T.Das|97336o8327|24.95|Y|-|0.0|1000Ted J.|973-360-8779|2000|N|M|NJ|1000,数据故障,由生成数据过程之外因素导致的数据变化Chang
2、es in data layout/data typesInteger becomes string,fields swap positions,etc.Changes in scale/formatDollars vs.eurosTemporary reversion to defaultsFailure of a processing stepMissing and default valuesApplication do not handle NULL values well Gaps in time seriesEspecially when records represent inc
3、remental changes.,传统的数据质量定义(Redman,1992),AccuracyThe data was recorded correctlyCompletenessAll relevant data was recordedTimelinessThe data is kept up to dateSpecial problems in federated data:time consistencyConsistency The data agrees with itselfUniquenessEntities are recorded once,传统定义的问题,难以测量Ac
4、curacy and completeness are extremely difficult,perhaps impossible to measure.与上下文无关No accounting for what is important.不完全What about interpretability,accessibility,metadata,analysis,etc.含糊不清The conventional definitions provide no guidance towards practical improvements of the data.,新环境中的数据问题,新的数据范型
5、自动数据采集、大量数据,对收集数据或设计难控制不适当使用已知的数据表示方式联邦数据异构集成数据、跨企业/部门数据,近似连接数据采集与数据分析的分离缺少一致或标准的数据表达,缺少数据含义和解释新型应用数据用于决策、预测,需要融合领域知识的挖掘,信息质量的定义,(1)L.English(1999)Consistently meeting all knowledge worker and end-customer expectations in all quality characteristics of the information products and services required
6、to accomplish the enterprise mission or personal objectives;The degree to which information consistently meets the requirements and expectations of all knowledge workers who require it to perform their processes.(2)IAIDQ(2006):The fitness for use of information;information that meets the requirement
7、s of its authors,users,and administrators.,影响质量的因素(1),对不同类型的数据,有不同的质量问题Federated dataMassive,High dimensional dataDescriptive dataLongitudinal dataStreaming dataWeb dataNumeric vs.categorical vs.text data,影响质量的因素(2),不同的应用类型操作型应用聚合分析客户关系 数据解释没有元数据,没有数据后面的业务规则,数据就难以理解数据的适用性-从现有数据中得到回答替代数据的使用相关数据缺失,测量数
8、据质量-DQ约束,使用基于模式的静态约束可以捕捉到许多数据质量问题Nulls not allowed,field domains,FK,constraints,etc.使用动态约束可以捕捉到工作流中的其他许多数据质量问题orders above$200 are processed by Biller 2约束遵循 80-20 法则约束是可测量的建立度量(Metrics)测量数据达到约束的程度,数据质量度量,需要可测量的数量指示什么是错的,应如何改进难以找到最好的数量集度量的类型静态约束 vs.动态约束Operational vs.diagnostic度量应是指导性地更正,达到数据使用的改进可能会
9、建立大量的度量,选择最重要的实施,数据质量度量例子,模式一致性-static diagnostic metric评价一个快照上的约束业务规则一致-dynamic diagnostic metric评价数据库变更上的约束准确性-static diagnostic metric现行库存量(费用),审计抽样?可存取性-general diagnostic metric可解释性end-to-end 过程成功完成,DQ研究问题与应用领域,相关研究领域,2 数据质量连续统,数据收集&数据交付,数据存储,数据集成,数据检索,数据分析/数据挖掘,准确回答,解决方法,决策.,数据收集阶段,数据怎样进入系统问题手
10、工输入对内容和格式没有统一的标准重复输入测量错误缺少事先计划,解决方法,先发制人设计自动工作流,建立完整性检验保证一次正确输入处理管理数据共享与维护数据与元数据不可分明确数据管理员责任持续审计追溯既往诊断方法自动故障检测清除方法重复删除、合并/清除名&地址匹配、字段值标准化,数据交付阶段,数据由原始地送向永久存储地的过程问题数据损坏/损伤(因不适当的预处理)不适当聚合、缺省赋值、测量设备限制(截断、删节)数据丢失缓冲区溢出传输问题引起文件丢失未检验,解决方法,建立可靠的传输协议 中继服务器检验检查和,验证语法分析器上载文件符合预定模式明确关系数据来源间的依赖关系、处理步骤是否增量?需要重新匹配
11、模型?接口合作书数据提供者的DQ承诺,有文档?提示变更?,数据存储阶段,问题缺少、不完整的元数据复杂的规则和例外未文档化;元数据的变更未及时反应不适当的数据模型丢失时间戳、不正确的规范化特定修改与变化短视的决策影响长期的使用硬件/软件的约束截断与删改数据,解决方法,元数据管理记入文档并发布数据规范规划、计划假设每件事都会出问题难以实施的事数据探索使用数据浏览和数据挖掘工具检查数据达到指定的规范了吗?发生了什么事?,数据集成阶段,整合联邦数据,形成最难跟踪的DQ问题问题异构数据:没有公共键、字段格式差异;近似匹配不同的定义a customer:an account,an individual,时
12、间同步是否同一时期的数据?时间间隔是否兼容?遗留数据电子表格,特定结构社会、政治因素,解决方法,强制精确时间戳商用工具数据集成方面研究的主要对象已有许多工具用于匹配、模式匹配数据浏览和探索有许多隐藏问题和含义必须抽取元数据察看结果前、后:集成是否正常进行?,数据检索,输出数据集合是数据库的一个视图人为错误数据源未完全理解导出数据的需求不理解仅仅简单的错误,如内联结 vs.外联结,NULL值计算约束例如,代价太大不能给出全部历史数据,仅提供快照软件不兼容,解决方法,工具使用XML进行数据交换,数据和元数据协同测试预先计划,数据分析阶段,用所有这些数据分析什么?问题规模与性能信心保障黑盒子与飞镖板
13、对某些模型的偏爱领域经验不足不经意的数据设定,解决方法,数据探索确定哪个模型和技术是合适的,找出数据bugs,开发领域经验持续分析结果稳定吗?它们将如何变化?明确责任设定反馈回路的分析部分,数据质量过程,数据收集,数据加载(ETL),数据清洗 data profiling,validate data constraints,数据集成 functional dependencies,开发业务规则与度量 interact with domain experts,验证业务规则,稳定业务规则,检验业务规则,数据质量监视,分析定量结果总结经验,3 数据质量模型,模型广泛使用在数据库设计、需求分析模型也使
14、用在业务处理的表达、输入/输出、因果关系、处理功能/非功能概念/逻辑数据模型的扩充信息系统模型,结构数据模型的扩充,扩充成为带有质量特征的ERM使用属性增加质量度量一种简单的概念模型方法,如下图,数据质量模式,质量属性模型,信息系统模型,处理描述模型:信息产品图(IP-MAP)模型IP-MAP 模型原理:数据可看作是一种制造活动的特殊产品数据质量的描述模型能采用类似制造传统产品的质量控制方式IP-MAP 是一种图形模型,用于帮助人们理解、评估和描述 IP 是如何组装在业务过程中的IP-MAP 是一种系统的表示法,捕捉IP制造过程中的相关细节显示 IP 过程、识别处理阶段主人、理解信息和组织边界
15、,估计产品处理的时间和质量度量,IP-MAP构件块,IP-MAP例子,IP-MAP与其他方法的比较(1),IP-MAP与其他方法的比较(2),IP-MAP与其他方法的比较(3),评估数据质量,DQ评估需要不同的技术和元数据评估形式公平的(impartial)-基于结构上下文的(contextual)-基于内容和特定使用场景某些质量属性更适合“公平的”,而另一些则适合“上下文的”,也有两个都适合IP-MAP支持上下文的评估交流公平的数据质量测量(引用质量元数据、质量信息)交流数据源、制造过程、过程元数据的细节使用已有方法计算数据质量,支持IP-MAP的元数据库模型,IP-MAP的扩展,事件处理链
16、图业务处理概览-数据、事件和处理间的关系交互模型(企业单元如何交互)-在源、消费者和组间的交流结构组织模型(谁做什么)-组织分组/功能的层次构件模型(发生什么)-数据、事件及其触发器关系数据模型(需要什么数据)-产品、存储等数据间的关系IP-UML,基于IP-MAP的数据质量profileClass、relationshipConstraintTag definition、tagged valueStereotype,IP-UML:数据质量profile,数据分析模型为消费者规定哪个数据(其质量对组织成功起关键作用)是重要的IP、原始数据、构件数据表示成stereotyped UML类(质量数据类)质量分析模型由表示数据的质量需
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1