基于数据仓库数据空间.docx

上传人:b****3 文档编号:27474087 上传时间:2023-07-01 格式:DOCX 页数:7 大小:21.81KB
下载 相关 举报
基于数据仓库数据空间.docx_第1页
第1页 / 共7页
基于数据仓库数据空间.docx_第2页
第2页 / 共7页
基于数据仓库数据空间.docx_第3页
第3页 / 共7页
基于数据仓库数据空间.docx_第4页
第4页 / 共7页
基于数据仓库数据空间.docx_第5页
第5页 / 共7页
点击查看更多>>
下载资源
资源描述

基于数据仓库数据空间.docx

《基于数据仓库数据空间.docx》由会员分享,可在线阅读,更多相关《基于数据仓库数据空间.docx(7页珍藏版)》请在冰豆网上搜索。

基于数据仓库数据空间.docx

基于数据仓库数据空间

基于数据仓库的数据空间

一、数据空间的概念提出

(一)从数据库到数据仓库。

随着基于计算机管理信息系统的应用普及,用于储存并管理大量有规则数据的管理系统—数据库应运而生。

“数据库”的定义是存储在计算机内,大量有结构的,在一定范围内共享的数据集合。

但由于传统烟囱型的管理信息系统不断涌现,其中的数据自成体系、相互孤立、结构各异,形成了大量“信息孤岛”。

于是人们尝试对数据库中的数据进行再加工,基于数据库技术,利用一系列综合的、面向分析决策的应用环境和应用工具,构建成专业化的数据仓库系统。

“数据仓库”的定义是面向主题的、集成的、非易失性的,且随时间不断变化(不同时间)的数据集合,用以支持管理人员的决策。

根据这个定义,数据仓库管理系统是按照主题进行信息分类加工;从其他应用系统中抽取、清洗和转化相应的数据结果,经过集成确保其完整性和一致性;按照时间的进程进行积累、汇总和存储;其存储的数据是不允许被修改的,真实反映数据变化过程的历史数据;仍然是一个按照传统管理信息建设模式,专门辅助于分析、决策、预测的管理信息系统。

(二)大型综合性管理信息系统的出现。

整个组织的管理信息系统一体化。

在信息化应用较好的组织中,正逐步开始进行传统管理信息系统的整合,采用SOA架构统一门户、统一权限、统一流程、提升用户体验,传统的数据仓库管理信息系统也将面临整合,需要一种新的构件化的数据仓库服务于整个组织的一体化数据应用;整个组织的信息共享。

传统管理信息系统所形成的信息孤岛,采用传统数据仓库技术虽然可以实现一定程度的数据共享,但受到传统数据仓库概念的影响,虽然实现了结果的共享、结果的增值、决策层的应用,但对于原始数据的共享、数据加工的共享、全面数据的查询、生产过程中的数据应用,仍然分布在各应用系统中难以共享;实时交易和数据利用的专业化分工。

传统数据仓库技术实现了辅助决策、宏观决策、数据挖掘等高端数据应用的专业化,但对于凭证处理、账务处理、报表处理、汇总统计、分析查询等日常数据应用,仍然依托原有的应用系统,既不能为其减轻系统开销,又存在大量的数据冗余和数据一致性的问题。

(三)数据处理过程需要科学化。

一是易共享的原始数据。

所谓原始数据,在管理信息系统中通常特指以一定的样式和格式,通过人机对话或导入手段获取的,反映管理活动的初始凭证(如登记表、申请表、报销单据等)。

这些数据在一定的时间范围内,含意是基本确定的、属性是不易变化的、规则是共同遵守的。

而数据处理的中间结果,在各种相关的应用系统中,其结构、口径、属性、规则往往各不相同很难共享;二是源头控制数据质量。

数据处理有一个行话“进来的是垃圾,出来的还是垃圾”,强调的就是数据质量的源头控制。

但传统数据仓库抽取的都是各类应用系统的中间结果,很难实现对源头数据质量的控制和维护;三是专业化的加工过程。

数据的增值加工通常分为分类、汇总、计算、分析等过程,传统数据仓库只考虑后端数据的增值加工,没有考虑数据加工的全过程,造成了对传统应用系统的依赖,难以提升数据加工的专业化程度;四是可管理的处理规则。

传统信息系统中数据的加工规则,通常都是以编码形式固化在应用系统中的,不仅难以维护,且用户不可见,更谈不上管理;五是可追溯的血缘关系。

“只有可见才可管理,只有可管理才可进步”,为此,数据仓库产品中才会有元数据管理工具,用以跟踪数据变化和增值的关系。

但正因为传统数据仓库只抽取与主题有关的,经过加工的历史数据,无法全过程跟踪数据的血缘关系;六是可复用的档案管理。

传统的数据仓库只是从各类应用中获取与主题相关的中间结果信息,既不关注这些结果来源的稳定性,也不考虑可复用性(每到应用需要其他主题时,再从应用系统中重新抽取),所以不能形成数据整个生命过程的稳定性和可复用性。

如果将信息化的档案管理引入数据仓库,既可以利用数据仓库技术形成一体化的,可全过程管控的档案管理,又可以为数据仓库应用信息的拓展提供可复用的数据源;七是全覆盖的结果展示。

数据仓库的展现工具是发展相当快的产品线,但其用途都局限在数据仓库加工结果的展示上,如果将数据仓库的数据源加以拓展,再引入全面数据档案的管理,这些展示工具将能发挥更大的应用效果,并给用户带来更佳的用户体验。

社会的发展是有一定规律的,信息社会的产品生产,必然与农业社会、工业社会一样,要经历手工劳动、小作坊制作发展到大规模专业化生产。

管理信息系统,这一信息社会的特有产品,必然要进入专业化和规模化的生产,首先是要通过构件的产品化、配置的模块化、规则的自定义、展现的智能化将传统的刚性管理信息系统,转变为柔性的管理信息系统;其次是要将交易和数据处理分开,因为它们的环境需求不一样,前者强调的快速响应,后者强调的高速计算和大容量存储。

作为数据处理的代表性产品“数据仓库”,自其诞生开始就因为数据源难以整理、算法要持续发展、结果的应用面窄和使用率低等原因,成功地案例很少。

为此,将数据仓库的概念加以拓展,通过拓展数据范围和起点,全面覆盖各类管理信息;跟踪数据口径和规则,有利于对算法的管理和监控;延伸数据加工和处理,既延伸了功能覆盖面,又为数据跟踪和维护提供了有效的机制,形成一种专业化的,专门进行数据获取、存储、加工、分析、展现的信息管理构件(产品)。

鉴于与传统数据仓库产品的区别,并更能准确标识其属性,该构件可称其为“数据空间”。

二、数据空间的数据覆盖面。

既然是专业化的数据处理产品,其数据覆盖面就应该是全过程覆盖。

根据加工过程可分为以下数据域:

原始凭证域、数据准备域、模型组织域、加工规则域、归档管理域、结果展现域等。

原始凭证域。

数据处理全过程的起点,是在日常管理活动完成后,经过数据抽取到数据空间的数据,这个数据起点称之为原始凭证域。

在业务意义上,原始凭证域应该包括:

电子表单信息、多媒体信息、管理流程信息。

电子表单包括人机交互或通过特定技术手段导入获得的结构化的电子信息(包括描述这些信息的元数据、代码、校验规则等);多媒体信息包括在管理活动中收集到的图像文件、扫描文件、影像文件等针对相应电子表单的附件;管理流程信息是指从已完成的各管理活动中抽取的,包括在每个管理环节涉及该管理活动的所有相关信息,如活动起止时间、涉及到哪些环节、各环节涉及的对象、各环节花费的时间等等。

在技术意义上,原始凭证域应该起到隔离交易类应用和数据分析类应用数据逻辑的作用;起到作为数据加工分析的信息源的作用;起到为数据分析类产品实现与行业无关性的保障作用。

数据准备域。

其业务意义是生成和保存凭证封面、分户清册、记账凭证等加工过程和结果;是针对原始数据,根据应用需求涉及的业务主题,进行基础信息分类汇集和汇总的加工和分类的处理环节,也可称为形成主数据的过程。

其技术意义是传统数据仓库的数据起点即ODS;是形成后续数据处理的最小粒度信息;是将数据从按照每次交易组织的信息形式转化成按照分析主题组织的信息形式进行加工的过程。

这里对数据组织的关注是如何实现原始数据的共享,如何根据应用需求合理划分数据主题,如何组织数据能保证适应数据分析可持续发展的需要。

模型组织域。

其业务意义是为核算、预测、数据挖掘等辅助管理活动,生成和保存各类账册、多维模型的加工过程;是针对经过分类、汇总的最小粒度信息,根据业务需求涉及的算法、规则,进行进一步加工、组织的环节;其技术意义是实现传统数据仓库的联机分析处理(OLAP)、数据集市等;是为将信息转变成为知识的数据加工和增值过程;这里对数据组织的关注是如何完成数据的增值利用,如何组织数据更有利于算法的实现、更有利于提升加工效率、更有利于算法的可持续发展和完善。

加工规则域。

其业务意义是描述并记录数据空间中所有数据的属性包括:

来源、口径、代码等;描述并记录数据在整个数据空间的增值过程所涉及的路径、算法、形式等;描述并记录数据空间中所有数据,对外展现结果的样式、对象、变革、效果等;技术意义是全面管理数据的增值过程,实现每个增值环节描述的标准化、维护的简易化、规则的可视化、实现的工具化;化解每个增值环节的耦合度、实现数据空间的业务无关性,有利于实现配置独立、共享工具、互换工具;

归档管理域。

从业务意义上说,它应该是原始凭证域、加工规则域中的各类信息,按管理活动分类的,经过不可抵赖性封装的,遵循档案管理标准,按时间积累的历史信息。

从技术意义上说,档案管理域是为保存和查询历史信息提供的信息化手段;是为快速检索历史信息进行的科学分类;是为纸质信息和电子信息进行关联的技术方法;是为基于原始凭证域和加工规则域进行数据准备域、模型组织域、结果展现域的历史还原所提供的技术实现。

结果展现域。

其业务意义是为其他各数据域积累和组织的信息进行人性化的展现,从以人为本的角度,向用户提供最佳的数据应用体验。

利用原始凭证域和档案管理域的信息,向用户提供基于各项管理活动涉及的,当前状态和历史状态的参考信息、背景信息、差异化比较等等直观、全面的原始凭证;利用数据准备域和模型组织域的信息,向用户及时、准确地提供多角度的反映管理活动结果的报表、分析、预测等辅助决策的信息;利用加工规则域的信息,向用户清晰、完整地提供整个数据空间的数据来源、数据走向、加工环节、规则算法、历史痕迹等信息;其技术意义是要实现将来自多种数据源不同数据形态(结构化、非结构化)的数据,以多种展现形式(表、图、多媒体)加以反映;要能够通过加工规则域的关联,实现各种信息的关联展现,比如针对每个管理对象的全面信息展现、针对每个管理活动的全过程信息展现、针对每项管理规则发展和完善过程中各阶段的展现等等。

三、数据空间的功能覆盖面。

作为管理信息系统的构件,数据空间必须提供相应的操作功能,配合一体化的管理信息系统,满足用户获取数据、应用数据、管理数据的需求。

这些功能主要体现在以下方面:

(一)公共构件:

即与一体化的管理信息系统共享的信息系统构件。

其包括:

与交易类应用共享的一体化门户。

在日常操作过程中,不仅能够为用户提供个性化地操作提示和工作推送,还要能够在另外的窗口推送与正在办理的业务相关的背景资料、管理信息、遵从差异等等。

与交易类应用共享的权限管理构件,要能通过对机构、人员、资源三个树状结构的配置及其相互关系的配置,实现整个组织中用户和权限的统一管理、共享使用、分别(依权)配置;要能够采用CA和数字加密技术实现用户对数据访问的身份控制;数据的访问权限应该与应用的操作权限在同一个公共构件中赋值并统一维护,也可以根据用户在相关应用中已有权限汇集确定,无须再次赋权;可以分别由不同的职能部门配置相应的权限关系,以实现各类应用共享使用,实现用户和权限的统一管理,保证各类应用的使用及信息安全。

与交易类应用共享的过程控制构件。

通过共享的工作流引擎,在配置各项管理活动的每个环节时,同时配置该环节涉及的相关参考依据和关联信息;在各项管理活动的相应环节,针对特定管理对象,推送相关操作的同时,将该管理对象与这个操作有关的背景资料、参考资料一并推送。

(二)个性构件:

即涉及数据分析应用专有的构件或工具。

其包括:

数据词典。

类似传统信息系统的数据字典,为数据空间中的每个原始数据项(数据元)进行描述的数据集合。

通过对数据词典的描述,能够实现数据空间所管理数据源的业务无关性;通过对数据词典的管理,能够实现对数据空间所管理数据源的可持续发展;通过对数据词典的引用,能够实现数据空间产生的所有信息,进行含义表述,实现血源跟踪。

规则定义。

所谓规则是数据空间中,描述数据抽取的来源、条件、目标等;描述数据加工的算法、口径、结果等;描述数据校验的对象、逻辑、阈值等信息的集合。

通过对规则定义的解析,能够达到信息加工过程的柔性化实现;通过对规则定义的标准化,能够实现数据处理逻辑的工具化;通过实现规则定义的可维护,能够适应数据分析需求可持续发展;档案管理。

定期对各类税务管理信息按照档案管理的规定,根据每个管理活动,分单位进行标准化的立卷归档;每个案卷应包括相应管理活动各环节涉及的原始凭证、元数据(包括口径、样式等业务元数据,规则、代码等技术元数据)、办理流程、标准等;对于已归档的数据,应该从生产环境中删除,对于元数据要看其所处的状态,处于注销状态的也应一并删除;同时,已归档的信息,既要能够按照一定的权限调阅,又能够根据需要批量导出(包括具体原始凭证和其对应的元数据),供今后组织新的应用需求时抽取所需的数据,加载到数据准备域、模型组织域,实现应用需求的可持续发展。

模型建立:

要使分析人员、管理人员或操作人员能通过从多种角度的描述建立相应的模型(集市),继而通过从数据准备域进行加载,产生能够真正为用户所理解的,并真实反映整个组织特性的,能够提供用户快速、一致、交互地存取的有价值信息,从而让用户获得对数据更深入、更全面、多角度的了解,使其得以不断地增值。

界面展示。

不仅要实现最佳用户体验的效果,还要能以标准化的封装,加工成能够以Web方式展现的形式,以便通过流程引擎的推送,在公共的门户构件中加以展现和钻取。

(三)用户体验。

一是尽可能少地让用户从海量数据中查找数据,要能通过流程引擎的推送和关联,让用户在相应的工作岗位和工作环节中,及时、快捷、智能地查看与该环节相关的,涉及相关管理对象的有关辅助资料、分析数据和差异信息。

二是上级安排下级了解的,涉及管理遵从差异的信息,必须要能够分解到准确的时间、范围、对象、差值、依据等;任何加工结果要能跟踪到其构成的要素、实现的逻辑(算法)、加工的时间、层级的分解等等。

三是所有进入数据空间管理的数据,在任何时间针对某一时点的数据查询,只要口径一致,必须结果一致。

如果在后续时点该结果发生变化,必须能跟踪到变化的量值、原因和依据。

四是用户要能够根据需求的发展,通过对数据的来源、取数的规则、加工的算法、展现的效果进行增加、完善、注销等维护操作,确保数据应用的可持续发展。

五是用户界面要简洁、直观,根据用户权限只提示该用户能够发起的操作,其余操作均由流程推送;要能实现日常操作和数据利用同一界面;要能采用多窗口技术,实现能同时对多份资料的查阅访问和对比参照。

六是利用帮助(鼠标右键或其它功能键)可以展示相关数据结果的加工逻辑、数据口径等;可以展现原始数据在数据词典中的相关属性。

七是可以对用户常用的查询和习惯进行记忆,方便后续查询;可以由用户对定时加工的报表、信息等内容进行订阅,按时推送。

八是要实现信息资源全面的生命周期管理。

要实现数据资源的描述、应用、存储、分类的标准化;要形成数据资源的建立、维护、归档、复用的良性机制;要进行数据资源的发布、停用、跟踪、监控等管理;要实现数据资源整个生命周期和各环节当前状态可见、发展轨迹可见、变更痕迹可见,从而达到对数据资源的全面管理,提升数据利用的能力和效率,提升数据资源的质量。

(四)功能的实现过程。

首先要考虑需求的不确定性。

人的认识是随着工作进程不断深入的,既要尽可能在需求编写阶段,全面、广泛、细致地了解和描述需求,还要形成一个对需求持续完善的机制。

不仅要能保持需求在一定时间的稳定性,还要能保持需求的可持续发展。

要确保若需求不变,则应用不变;若要变更应用,必须先修改需求。

其次要考虑应用习惯的转变。

由人组成的社会系统是一个最大的惯性系统,绝对不能采用在某个时点,让整个组织一次性过渡到一个新的应用状态,这如同让电梯从一楼一瞬间到达顶楼,这会出问题的。

数据应用也是这样,在整个组织都习惯于现有模式应用数据时,不要强制大家改变习惯,必须要新旧模式并行,让大家体验新模式数据的可靠性、操作的智能化、展现的多样性、过渡的便利性,再加以相关制度和规定的引导,逐步过渡到新的应用模式。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > 公务员考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1