多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx

上传人:b****4 文档编号:3636465 上传时间:2022-11-24 格式:DOCX 页数:29 大小:425.40KB
下载 相关 举报
多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx_第1页
第1页 / 共29页
多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx_第2页
第2页 / 共29页
多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx_第3页
第3页 / 共29页
多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx_第4页
第4页 / 共29页
多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx_第5页
第5页 / 共29页
点击查看更多>>
下载资源
资源描述

多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx

《多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx》由会员分享,可在线阅读,更多相关《多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx(29页珍藏版)》请在冰豆网上搜索。

多维数据模型在中国科学院资源规划系统应用和分析张海燕.docx

多维数据模型在中国科学院资源规划系统应用和分析张海燕

北京大学

学士学位论文

 

多维数据模型在中科院资源规划系统的应用和分析

姓名:

张海燕

`学号:

00317226

系别:

软件与微电子学院

年级:

二零零三级

专业:

软件工程

导师:

陈钟教授

二零零五年四月十五日

 

版权声明

任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。

否则,引起有碍作者著作权之问题,将可能承担法律责任。

 

摘 要

随着市场竞争的加剧以及信息社会需求的发展,从大量数据中提取信息并用之于决策分析的要求显得越来越迫切。

近年来,数据仓库、OLAP和数据挖掘等面向决策支持的技术飞速发展。

本文主要针对多维数据模型在ARP项目信息资源中心数据中的应用进行研究和分析。

中国科学院资源规划项目(AcademiaResourcePlanning,简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。

ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。

通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。

本论文针对中科院数据信息量大、稀疏度高、维度高、要求增量更新等特点,结合多维数据模型的应用,对目前的OLAP技术及多维数据模型进行比较分析

关键字:

多维数据模型联机分析处理ARP数据展示

 

目录

摘要……………………………………………………………………………………………….2

目录……………………………………………………………………………………………….4

第一章引言…………………………………………………………………………………….5

1.1研究背景…………………………………………………………………………...5

1.2本论文工作……………………………………………………………………………...5

1.3本论文组织结构………………………………………………………………………...5

第二章数据仓库及多维数据模型基本概念…………………………………………….6

2.1数据仓库技术…………………………………………………………………..6

2.1.1定义…………………………………………………..6

2.1.2体系结构………………………………………..6

2.2多维数据模型……………………………………………………..7

2.2.1维…………………………………………………………………..7

2.2.2维的概念分层……………………………………………………………………..7

2.2.3度量……………………………………………………………………..7

2.2.4数据立方体……………………………………………………………………..7

第三章ARP中IRC需求分析………………………………………………………8

3.1IRC总体需求……………………………………………………………….8

3.2多维分析需求………………………………………………………………………….8

3.2.1用户需求………………………………………………………….9

3.2.2需求分析……………………………….10

3.2.2.1数据立方……………………………….10

3.2.2.2维度描述…………………………….11

3.2.2.3事实分析…………………………….14

第四章基于多维数据模型的IRC设计………………………………………………17

4.1IRC总体设计………………………………………………………………….17

4.2多维数据模型存储……………………………………………………….17

4.3多维数据模型前台实现……………………………….18

第五章多种多维数据模型的比较与分析………………………………………………20

5.1多种OLAP比较分析………………………………………………………………….20

5.2多种多维数据模型比较分析………………………………………………………….21

5.3IRC基于OLAP和多维数据模型满足需求所做的设计……………………………….22

5.4IRC应用发现目前多维数据模型仍然存在的问题………………………....22

第六章本文工作总结………………………………………………………………………….24

6.1工作总结………………………………………………………………….24

6.1工作展望………………………………………………………………….24

参考文献………………………………………………………………………………………….25

致谢……………………………………………………………………………………………….26

第一章引言

1.1研究背景

自从20世纪60年代以来,数据库和信息技术已经系统地从原始的文件处理演化到复杂的、功能强大的数据库系统。

E.F.Codd于1970年提出了关系数据库理论。

在此基础上发展的关系数据库技术逐渐成为市场主流,有力地推动了社会信息化进程。

信息和知识是企业最宝贵的资产和资源。

企业信息系统的长期运行为企业积累了大量的业务数据。

但是,这些数据并没有得到充分的利用,人们迫切的需要将这些数据转化为有用的信息和知识。

上个世纪九十年代以来,随着计算机硬件技术的飞速发展,在各类分析型应用的推动下,学术界和工业界对支持管理决策的相关技术进行了广泛和深入的研究和开发。

数据仓库(DataWarehouse)概念的形成是以PrismSolutions公司副总裁W.H.Inmon在1992年出版的《建立数据仓库》(BuildingtheDataWarehouse)为标志的。

数据仓库的提出是以关系数据库、并行处理技术和分布式技术的飞速发展为基础的,它是解决信息技术(IT)在发展过程中虽然拥有大量数据却缺乏有用信息(Datarich_Informationpoor)的综合方案。

一年以后,关系数据库理论的创始人E.F.Codd在数据仓库概念的基础上又提出了与联机事务处理(OnlineTransactionProcessing,简称OLTP)相对应的联机分析处理概念。

联机分析处理是针对特定问题的联机数据访问和分析。

它侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策人员,以便他们能准确掌握企业的经营状况,了解市场需求,制定正确方案,增加效益。

数据挖掘是上世纪90年代以来迅速发展的一项新技术。

它指的是从大量的实际应用数据中,自动发现提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。

数据挖掘作为数据分析和决策支持的强有力的手段,涉及的应用领域非常广泛。

针对不同行业的不同问题,数据挖掘有不同的概念和方法,包括关联分析(Associationgs)、分裂分析(Classifiers)、聚类分析(Clustering)和序列模型分析(SequentialPatterns)等等。

关联分析是一种非常重要的数据分析方法,其目的是为了挖掘在隐藏在大量数据间的有趣的相互联系,从而帮助制定商务决策。

多维关联分析与传统关联分析的最大不同之处就是其多维多层的特性。

用户可以发现不同角度、不同抽象层之间的相关关系。

如何能够从海量数据中高效地挖掘出那些用户真正感兴趣的多维模式

1.1本论文工作

本文主要针对多维数据模型在ARP项目信息资源中心数据中的应用进行研究和分析。

中国科学院资源规划项目(AcademiaResourcePlanning,简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。

ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。

通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。

本论文针对中科院数据信息量大、稀疏度高、维度高、要求增量更新等特点,结合多维数据模型的应用,对目前的OLAP技术及多维数据模型进行比较分析

1.3本论文组织结构

针对本文研究的主要内容,本论文的组织如下:

第二章介绍了数据仓库技术及多维数据模个性相关概念。

第三章需求分析。

第四章基于多维数据模型阐述了IRC为了满足需求所做的设计。

第五章在前几章的基础上对各种多维数据模型进行比较分析。

第六章对本人的工作进行了总结,并对下一步工作进行展望。

第二章数据仓库及多维数据模型基本概念

多维数据模型是本文工作基础,是数据仓库和OLAP的核心,本章首先介绍数据仓库技术和多维数据模型的基本概念

2.1数据仓库技术

2.1.1定义

1992年W.H.Inmon博士在《BuildingtheDataWarehouse》一书中给出了一个描述性的定义:

数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定和反映历史变化的数据集合,用于支持管理决策。

2.1.2体系结构

一个典型的数据仓库系统通常包含数据源、数据仓储、OLAP服务器和前端工具和应用四个部分。

数据源:

是数据仓库系统的基础,是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。

外部信息包括各类法律法规、市场信息以及各类外部统计数据及各类文档等;

数据的存储与管理:

是整个数据仓库系统的核心。

在现有各业务系统的数据的基础上,进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(集体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。

按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,DataMart).数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。

这些功能与目前的DBMS基本一致。

OLAP服务器:

对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。

其具体实现可以分为:

ROLAP、MOLAP和HOLAP.ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

前端工具与应用:

前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。

其中数据分析工具主要面向OLAP服务器,报表工具、数据挖掘工具既可以面向数据仓库或数据集市,同时也可以面向OLAP服务器。

2.2多维数据模型

多维数据模型是数据仓库和OLAP的核心。

多维模型的核心概念是数据立方体,数据立方体是由大量事实和若干个维组成的。

2.2.1维

在多维数据模型中,数据按多个纬度进行组织。

维是人们观察客观世界的特定角度。

每个角度称之一个维。

通常,一个分析模型中包含若干个维。

例如,在ARP科研项目产出物中,涉及到机构维、时间维、产出物类别维、产出物应用维等等。

这些维能够从不同角度记录产出物情况。

每个维都与数据仓库中的一张表相关联。

该表称为维表。

它进一步描述该维的详细信息。

2.2.2维的概念分层

一个概念分层定义一个由低层概念集到高层概念集的映射序列,将低层概念映射到更一般的高层概念。

它使得原始数据可以在较高的、一般化的抽象层上进行处理。

通过上卷、下钻等操作,用户可以在不同的概念层之间切换,使用不同视图来观察数据,从而洞察隐藏的数据联系。

概念分层是一种背景知识形式,可以由系统用户、领域专家或者系统工程师提供。

一个概念分层指定了一个维的层次结构,可以用全序、偏序或树状结构来表示。

以时间维为例,该维共分为三个层次:

ALL、年、月。

2.2.3度量

度量是多维数据模型所围绕的主题,即具有实际意义的数据,度量是一个聚集函数和一个可计算的属性的二元组,该属性一般是数值型的。

例如,在ARP科研项目产出物中,分析所关心的是每年论文发表的变化情况和被引用的情况,那么模型中就包含两个度量-年度变化和引用率情况。

2.2.4数据立方体

数据立方体就是纬度和度量集的二元组,即

数据立方体实际上描述了维与度量之间的对应关系

第三章ARP中IRC需求分析

中国科学院资源规划项目(AcademiaResourcePlanning,简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。

ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。

通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。

ARP项目涉及中科院院所两级法人机构及全院主要业务,系统的数据规划尤显重要,信息资源中心(InformationResourceCenter,简称IRC)是全院ARP数据的存储与交换中心。

3.1IRC总体需求

信息资源中心需求包括功能需求、其它系统接口需求、性能需求、安全需求,我们重点阐述其功能需求。

信息资源中心系统建设的总体目标为:

面向针对全院性的综合性数据,实现对各研究所的数据汇总,以及在此基础之上的数据展示,建立构架灵活的主题数据库,提供决策分析支持,提供Web服务接口,为研究所使用资源中的信息提供支持。

根据IRC总体目标,用户总体功能需求包括:

1、在全院范围内建立起数据传输平台,实现对各研究所的数据汇总功能;所级ARP与院级ARP之间分布式的基础数据或中间结果数据的交换;

2、将相关数据集成到信息资源中心,对数据重新组织,并进行存储组织,并进行相应的数据管理;

3、建立报表展示平台,实现对中科院管理需要的数据展示;面向中科院院部各业务领域的综合统计与查询需求,建立可靠的、易用的、界面友好的智能业务查询平台,满足院部综合管理的需求

信息资源中心定位为:

数据交换中心、数据存储中心、数据管理中心、数据服务中心

数据服务既是IRC的核心,也是IRC的亮点,客户主要包括三方面的需求:

1、统计报表,根据实际的业务需求,在日常管理中、不同部门会有多种统计报表的需求;这些面向业务管理的管理统计报表,通过这个功能进行实现。

2、多维分析,根据实际的管理需求,对关系较强、较复杂的一个数据集合,从多个视角、不同层次、不同组合模式来观察数据的一种数据分析方法,满足这个需求的功能就是多维数据分析功能。

3、统计台帐,主要是针对院部(包括国家的、地方的)要求的、相对变化频度不高的、比较稳定的报表,预先定义好,系统固化起来的报表;这些统计报表,按照期间段集中起来存档,就成为统计台帐;

4、基础数据调用,主要是ARP的其他系统,主要是指院级ARP系统,在需要访问IRC的系统数据时,在具体实现上的接口模式。

3.2多维分析需求

多维分析后台数据建立在数据仓库基础上,采用多维数据模型,对OLAP和多维数据模型进行了充分的利用,因此对决策分析需求详加阐述。

3.2.1用户需求

用户所需主体部分参数如下:

1、项目基本参数

(1)获得973项目情况,申报数,第一轮通过数,第二轮通过数,最终入选数(包括作为主持和参与者的情况),各轮次通过单位数据,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学的数据)的比较,年度比较(973总经费、973全国学科分布情况)

(2)获得863项目情况,申报数,第一轮通过数,第二轮通过数,最终入选数(包括作为主持和参与者的情况),各轮次通过单位数据,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(863总经费、973全国学科分布情况)

(3)获得自然基金项目情况,申报数,第一轮入选数,最终入选数(包括作为主持和参与者的情况),获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(基金项目总体情况)

★(4)获得战略高技术项目情况(包括主持和参与者的情况),获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(横向)

(5)获得发改委高技术产业化示范项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较

(6)获得其他部委项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较

(7)获得地方项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较

(8)获得企业项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较

(9)获得国外项目情况,获得资金情况,学科分布,年度比较

2、资金基本参数

1)资金支出参数

项目资金支出情况,月度变化,年度变化,支出领域

基建资金支出情况,月度变化,年度变化

人员资金支出情况,月度变化,年度变化

机构资金支出情况,月度变化,年度变化

2)资金比重参数

(1)我院所得经费在国家R&D投入中的比重及其年度变化,以及与其他研究机构的比较,与全国前十所大学研发经费的比较

(2)我院所得经费在中央财政R&D支出中的比重及其年度变化,以及与其他研究机构的比较,与全国前十所大学研发经费的比较

3、论文基本参数

(1)我院发表SCI论文状况,月度变化,年度变化,领域分布,机构分布,引用率情况,与其他院外机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较

(2)我院发表EI论文状况,月度变化,年度变化,领域分布,机构分布,引用率情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较

(3)我院发表在Nature和Science文章情况,年度变化,领域分布,引用率情况,与其他院外机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较

(4)我院提交国际会议论文情况,年度变化,领域分布,与其他院外机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较

4、专利基本参数

(1)我院申请专利状况,年度变化,领域分布,机构分布,专利使用情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较

(2)我院申请发明专利的情况,年度变化,领域分布,机构分布,专利使用情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较

(3)我院申请海外专利情况,月度变化,年度变化,领域分布,机构分布,专利使用情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较

5、获奖基本参数

(1)我院获得国家自然科学奖、技术发明奖、科技进步奖等情况及其年度变化,与院外其他机构(包括我国排名前十名的大学)的比较

(2)我院海外获奖情况及其年度变化,与院外其他机构(包括我国排名前十名的大学)的比较

6、队伍参数

(1)我院队伍结构状况,包括从事研发人员的年龄结构及其年度变化,拥有硕士学位和博士学位比例及其年度变化,研究人员、管理人员与支撑人员比例情况及其年度变化

(2)我院吸引海外人才状况,领域分布,年龄分布,资质状况,与院外其他机构(包括我国排名前十名的大学)比较,年度比较

(3)我院博士后情况,领域分布,年龄分布,与院外其他机构(包括我国排名前十名的大学)比较,年度比较

(4)我院杰出科学家情况,包括重大项目(973,863,自然基金重大项目、院内重大项目)主持人的年龄、领域情况,及其年度变化

(5)我院所级领导情况,年龄情况,学历情况,群众满意度情况,及其年度变化

(6)教育情况,我院招收硕士、博士研究生情况,质量情况,与院外其他机构(包括我国排名前十名的大学)比较,年度比较

7、企业参数

(1)我院企业营业收入、上缴税金、净利润情况,及其年度变化

(2)我院社会效益情况,包括我院转移技术给地方带来的营业收入、上缴税金、净利润情况,及其年度变化

3.2.2需求分析

对于使用决策分析的高层领导,根据以上各个信息,希望可以根据关注的焦点组合相关的参数获得所需信息,从而进行决策分析,根据以上需求,我们可以知道:

数据源是相对稳定的,大致趋势也是稳定的,但是决策所需是灵活的。

根据需求我们做出以下分析:

1、需求是多层次的:

譬如对某个研究所的时间趋势分析,有年度变化、有月度变化;各个主题在横向比较上可以得到不同层次的分析处理,譬如希望看到院内机构与院外机构的各个参数的比较、院内机构不但需要各个研究所内部纵向分析、还希望得到所与所之间、分院的决策分析

2、需求是多角度的:

决策层希望看到各个角度的数据分析资料,机构分布、领域分布等

3、需求是多组合模式的

我们以论文、奖项、专利为例进行详细的需求分析

3.2.2.1数据立方

论文、奖项、专利都属于课题的产出物,建立一个产出物的主题,可以看到用户需求对于产出物设计的内容包括时间、机构、技术领域和产出物自身的类别及被利用情况,因此我们建立一个包含四个维的数据立方。

3.2.2.2维度描述

维度名字

维度描述

机构

包含所有与机构相关的信息和属性,机构分布、与院外其他机构等度量均与此关联

时间

包含所有与时间相关的信息和属性,月度变化、年度变化等度量均与此关联

技术领域

包含所有与技术领域相关的信息和属性,领域分布等度量均与此关联

产出物指标

包含所有与产出物(论文、专利、奖项)相关的信息和属性,产出物的分类等度量与此关联

1、机构维

属性名字

属性描绘

举例

三层:

一级机构

中科院到具体研究所分三个级别,此为第一级机构-中科院

中科院

三层:

二级机构

中科院到具体研究所分三个级别,此为第二级机构-各个分院

北京分院

二层:

一级机构

院外机构到具体的单位分两个级别,此为第一级机构-院外机构

大学

机构实体

各个层的具体单位

清华大学,化学所

2、时间维

属性名字

属性描绘

举例

三层:

三层包括:

年-月-日,此为第一级年;此层次设置用于月度比较

2004年

三层:

三层包括:

年-月-日,此为第一级月;此层次设置用于月度比较

4月

二层:

二层包括:

年-日,此为第一级年;此层次设置用于年度比较

2004年

日期

各个层的具体日期;一层设置用于具体的时间引用

2004-04-12

3、技术领域维

属性名字

属性描绘

举例

二层:

领域一级分类

二层包括:

领域一级分类-领域实体,此层次设置用于领域分布、学科比较等

课题按技术领域分类

领域实体

各个层的具体领域实体;一层设置用于具体的领域引用

新材料技术、激光技术等

4、产出物指标维

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1