人口与发展数据仓库建设及应用.docx
《人口与发展数据仓库建设及应用.docx》由会员分享,可在线阅读,更多相关《人口与发展数据仓库建设及应用.docx(10页珍藏版)》请在冰豆网上搜索。
人口与发展数据仓库建设及应用
人口与发展数据仓库建设及应用
我们生活在一个信息爆炸的时代,信息已经成为人口发展的一个基本要素。
使用何种IT技术整理、组织信息才能方便现代人口发展研究和决策咨询的需要,是人口信息化最基本的内容和亟待解决的问题,构成人口发展信息化的基础。
随着计算机软硬件技术进步和人们对信息分析需求的变化,数据存储、查询、使用方式也经历了从数据库(Data Base,简称DB)到数据仓库(Data Warehouse,简称DW)的变化过程。
本文探讨了数据仓库的基本原理及其发展历程,在认真分析人口发展数据资源状况的基础上,提出了通过数据整合,建立面向分析需求的人口宏观决策支持数据仓库的基本思路,分析人口发展数据仓库的基本功能和应用。
一、数据仓库的基本原理及其发展历程
(一)数据仓库的定义和基本特性
“数据仓库”的概念最早出现于1988年。
1993年,被后人尊为数据仓库之父的 William H. Inmon 在他的《Building the Data Warehouse》一书中,系统阐述了数据仓库的思想、理论以及实现方法等,为数据仓库的发展奠定了历史基石。
他将数据仓库定义为“数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策”。
对数据仓库的另一个比较流行的定义是:
“数据仓库是一个不断发展的过程,将多个异质的原始数据融合在一起,用于支持结构化的在线查询、分析报告和决策支持”。
通过以上定义,我们可以归纳出数据仓库区别与传统数据库(也称为操作型数据库)的五个主要特性:
——为支持决策服务。
这是建立数据仓库的目的和归宿。
数据仓库是决策支持系统的基础,没有数据仓库,就难以、甚至无法进行有效的数据分析和决策;反过来,如果没有分析决策的需求,也就没有数据仓库存在的必要。
所以,支持决策服务、用于决策服务,是数据仓库首要的、本质的特性。
——面向主题。
数据仓库为支持决策服务的特性决定了它的主要用户是机构和企业的领导者和管理者,即决策制定者。
这些人所面对的往往是一些比较抽象的、层次较高的主题。
这就决定了数据仓库必须是面向主题的。
操作型数据库的数据组织面向事务处理,业务系统之间各自分离。
数据仓库中的数据则要按照一定的主题进行组织。
主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作性信息系统相关。
——数据集成。
面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。
而数据仓库中的数据是在对原有分散的数据库数据进行抽取、清理的基础上,经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个机构或企业的一致的全局信息。
——相对稳定。
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。
数据仓库的数据主要供决策分析使用,所涉及的数据操作主要是查询,一旦某个数据进入数据仓库后,一般情况下将被长期保留。
也就是说,数据仓库中一般有大量的查询操作,而修改和删除操作很少,通常表现为定期的加载、刷新。
——反映历史变化。
操作型数据库主要关心当前某一时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了一个行业、机构或企业的从过去某一时点(比如,开始应用数据仓库的时点)到目前的各个阶段的数据。
通过这些信息,可以对本行业、机构或企业的发展历程和未来趋势作出较全面的定量分析和预测。
(二)数据仓库的发展历程
数据仓库的历史是伴随着决策支持系统(DSS)体系结构的发展和演化过程开始的,而决策支持系统的起源可以追溯到计算机发展的初期。
图1表明了从20世纪60年代初到1980年的决策支持系统体系结构的演化过程。
图1 决策支持系统体系结构的早期演化阶段
随着个人计算机(PC)和第四代编程语言(4GL)的出现,最终用户可以直接控制系统和数据,传统的数据处理人员和数据用户的界限已经发生改变。
人们认识到,除了高性能的联机事务处理以外,对数据可以做更多的事情。
管理信息系统(MIS)应运而生。
MIS除了可以更好地完成数据库的数据存储、维护和查询等事务性处理,也被人们尝试用于决策支持系统(DSS)。
在图1显示的这种体系结构中,决策支持是如何实现的呢?
主要方法就是通过“抽取”处理程序进行。
抽取程序搜索所有相关文件或数据库,根据某些标准,选择合乎需求的数据,并把它传到其他文件或数据库中,在那里完成数据分析和决策支持。
到了90年代,基于这种抽取方式的体系结构当时非常流行,被称为“自然演化的体系结构”。
但人们在使用这种体系结构进行决策支持时发现,与自然演化体系结构相关联的三大问题日益凸现:
即数据缺乏可信性、效率低下、数据转化为信息的不可行。
上述问题是与每次进行决策分析时,直接使用业务数据库进行抽取数据(自然演化结构)必然联系的问题。
虽然这种自然体系结构在决策支持中存在着难以克服的困难,但是它所采用的一些技术却使人们看到一种新的体系结构的雏形。
仔细分析不难看出,产生所有问题的核心就在于这种“临时”抽取工作模式上。
为了解决这个问题,数据仓库的概念应运而生。
数据仓库的基本特点就是可以预先对事物集中有序存放,需要时灵活取用。
那么,只要我们提前把数据抽取(Extract)出来、按照一定方式进行转换处理(Transform),然后放入(Load)数据仓库,以后便可以方便地使用这个仓库中的数据进行分析决策,上述问题便可迎刃而解。
数据和一般货物不同的是,它可以反复多次和灵活分解组合取用,所以称为数据仓库。
值得一提的是,在1990年后,计算机的软硬件技术得到了飞速发展,为实现这种体系结构提供了可能。
正是在这种背景下,数据仓库在对自然演化结构的扬弃过程中,逐渐发展起来,经过近20年,最终成为现代决策支持系统体系结构中的核心。
二、人口发展数据状况分析
(一)人口数据资源现状
长期以来,人口计生部门通过各种途径系统采集、收集了人口与经济、社会、资源、环境等各种微观、宏观数据资源,主要有来自人口计生业务系统数据;普查和专题抽样调查数据;相关部门的宏观统计数据;世界各国人口及相关统计数据;以及开展研究和决策必需的政务类信息资源、各种研究书籍和研究论文文献资料。
1、人口计生业务系统数据资源
人口计生业务系统主要包括四大业务系统,分别是育龄妇女信息系统(WIS)、流动人口信息异地交换平台、计划生育家庭奖励扶助系统、人口快速调查和动态监测。
经过多年的建设,这些系统积累了大量数据,形成了重要的数据资源。
2、人口普查、生育率等专题抽样调查原始个案数据
经过系统收集,人口计生系统积累了大量的人口普查、生育率等各种专题抽样调查的原始个案数据:
1982年第三次人口普查、1990年第四次人口普查、2000年第五次人口普查1%人口原始个案数据;人口计生系统全国性大型生育率调查数据,1982年全国千分之一人口生育率抽样调查、1988年全国生育节育抽样调查、1992年全国38万人口生育率抽样调查、1997年人口计划生育/生殖健康调查、2001年人口计划生育/生殖健康调查、2006年人口计划生育/生殖健康调查,国家统计局1985年第一期深入生育率、1987年中国第二期深入的生育力调查调查个案数据;国家统计局2001年人口变动情况抽样调查、2002年人口变动情况抽样调查;以及各种主题抽样调查,如1987年全国残疾人状况抽样调查、1992年全国老年人口供养状况调查、1992年中国儿童情况抽样调查数据、1998年中国高龄老人健康长寿调查、2002年农村计划生育夫妇养老问题调查等等专题调查原始个案数据。
此外,全国各地各级人口计生部门也开展了各种调查,积累了大量数据;人口学界和社会学界的有关研究机构也进行许多专门调查,拥有大量有价值的社会调查数据。
3、人口计生系统和相关部委宏观统计数据
这些数据主要包括人口计生系统和国家统计局、卫生部、民政部、公安部、劳动和社会保障部等相关部委的人口与经济、社会、资源、环境综合宏观统计数据。
主要包括两大部分。
第一部分是普查、专题调查的汇总数据。
第二部分是历年各种统计年鉴中的宏观统计数据。
4、世界各国人口及相关统计数据
我国人口发展与世界人口发展密不可分,收集世界各国人口、经济、社会、资源、环境方面的数据有助于进行比较研究,更科学地进行我国的人口决策。
通过系统收集国际人口数据,积累了来自国家统计局的国际统计年鉴中世界各国和地区的宏观统计数据;来自联合国、世界银行、世贸组织、经济合作暨发展组织(OECD)、美国人口咨询局等国际性权威机构发布数据资料。
这些数据内容涵盖面广,涉及世界各国或地区人口本身统计指标、生殖健康、人口与就业、财政金融、宏观经济、国际收支、经济全球化等数据。
5、政务类信息资源和学术研究书籍文献
政务类信息资源、各种研究书籍和文献资料是开展研究和决策必需的资源。
人口计生系统在开展工作的过程中,积累了大量的政务类资源和中外文书籍、期刊,以及各种研究机构的大量内部研究报告。
上述数据资料如果能被充分利用,将为深入分析人口及相关宏观综合信息,预测人口发展趋势,提高人口与经济、社会、资源、环境综合决策的科学性,进而对社会经济的发展带来巨大的贡献。
(二)人口数据资源利用问题
事实上,无论从国家到地方的人口计生系统内部,还是其他政府部门,数据资源都没有得到有效的开发和利用,浪费了花费大量人力、物力收集的宝贵资源。
数据资源利用中存在很多问题和障碍,人口以及相关统计显现范围广泛、项目繁杂、部门众多、方法多样等特性,导致人口数据不统一、不吻合、不集中,主要表现为:
1、数据不规范,标准化程度低
各种来源的数据缺乏统一的规范,指标命名、数据格式等不统一,数据库共享接口不标准,增加了数据的应用难度,影响数据的利用率,这是当前数据应用中存在的最大问题。
2、数据分散,共享程度低,造成人口数据相对不完整
多年来,相关部委如统计、公安、民政、人力资源和社会保障、住房和城乡建设、人口和计划生育等已积累了人口变动、婚姻、就业、教育、资源利用、环境保护、农村发展、城市化、经济社会等与人口相关的宏观信息,许多部门都有自己的统计系统、信息网络和机构队伍,都有人口以及相关数据,只是各有侧重。
但这些数据资源在各部门之间的交流和共享不够。
除公开发布的统计数据外,人口计生部门与相关部委很难共享其他信息。
即使人口计生委系统内部,也没建立数据共享机制。
这项工作在全国的发展很不平衡,很多省计生委都在开发各自的信息系统,由于这些系统由各省自行开发,相对于国家及其他省份来说形成了信息孤岛,难以综合利用并发挥其整体效能。
3、存储介质多样,数据集中度低
目前的人口数据以各种存储介质存储,有大量的书籍、文本文件、SPSS文件、EXECL表格、各个信息系统数据库,还有很多非结构化的数据以图片、视频等格式存在,数据分散,集中度低,难以提供统一的数据查询统计服务,
4、人口数据复杂多样,增加了利用难度
人口数据,特别是人口统计数据有别于生产系统的业务数据,统计范围广泛、项目繁杂、部门众多、方法多样,人口数据具有复杂多样性。
因此,一个人口统计指标必须在特定的数据环境下加上特定的说明才具有有效性。
例如年底人口总数这个指标,就存在如下情况:
(1)不同部门的统计数据可能不同。
公安、统计、人口计生等部门都有自己对同一年年底总人口数的不同统计值。
(2)同一部门历年统计数据也存在不同。
人口普查年份后往往会对以往几年的公布数据进行一定的修正。
如2000年第五次人口普查前,国家统计局公布1998、1999年的年底人口数分别为124810万人、125909万人,普查后则分别调整为124761万人、125786万人,比原公布数都有所减少。
因此,数出多门,数出多源和数据的变动性使得人口数据异常复杂多样,具体使用中不仅需要提供数字,还需要为数据提供相关的数据来源和备注说明。
三、人口发展数据仓库建设的基本思路
(一)建设目标
从业务需求和实际应用出发, 对现有的数据资源和处理流程进行综合分析, 以信息资源规划为标准, 通过数据层面的整理提炼, 将分散在各个“信息孤岛”中的有效信息资源, 形成完善的数据仓库, 全面支持数据共享、统一管理和分析决策。
(二)建设内容
1、系统整体架构
人口发展数据仓库系统的构建是一个数据采集、集成、利用的过程,其整体架构如图2。
人口发展数据仓库的数据来源主要有以下几类:
人口计划生育业务执行系统中的四个主要业务执行数据库中的数据、人口相关的政府各部门信息系统中的数据信息,以及各种人口计生相关的人口普查、调查数据以及非结构化信息。
这些数据通过抽取、清洗、转换、加载的过程形成人口发展数据仓库。
后续所有对人口计生的数据应用服务都基于统一的人口发展数据仓库实施,通常有报表系统、实时查询、统计分析、分析模型、GIS应用、数据挖掘等。
图2 人口发展数据仓库架构图
2、数据规划
数据规划对于人口发展数据仓库的构建至关重要,是实现数据集成和数据共享不可或缺的一步。
数据规划的目的是建立企业(行业)统一的业务视图和数据视图,保证业务指标和数据的全面性和一致性。
四、人口发展数据仓库的功能与应用
(一)人口发展数据仓库的功能
人口发展数据仓库的基本功能如图3所示。
图3 人口发展数据仓库基本功能
基本指标分析功能,主要是通过数据仓库实现人口发展基本数据指标的查询、对比和多种图形展示。
包括人口基本指标和人口与经济社会资源环境基本指标。
例如,总人口、预期寿命、国内生产总值、经济增长率等。
重点指标监测及预警功能,主要是通过数据仓库实现人口发展重点数据指标的查询、对比和多种图形展示。
例如,出生率、计划生育率、出生性别比、社会抚养费征收额等。
现行生育政策分析功能,主要是通过数据仓库实现对各省(市)区现行计划生育条例等法规关于生育政策的相关规定。
生育政策模拟及辅助决策功能,主要是通过数据仓库实现多种生育、死亡、迁移组合条件下的人口预测方案查询、对比、分析。
经济与劳动力供需辅助决策功能,主要是通过数据仓库实现多种劳动力供给预测方案、需求预测方案的查询、对比、分析。
并且侧重于劳动力多种人口预测条件下的劳动力供给数据分析。
农村计划生育家庭保障辅助决策功能,主要是通过数据仓库实现农村符合奖励扶助、特殊扶助、少生快富等条件的家庭数量预测方案的查询、对比、分析。
人口快速调查与监测信息分析功能,主要是通过数据仓库实现对120个县调查信息、WIS个案信息等数据查询、统计、分析。
育龄妇女流动人口信息分析功能,主要是通过数据仓库实现对育龄妇女流动人口管理系统产生信息的查询、统计、分析。
计生家庭奖励扶助信息分析功能,主要是通过数据仓库实现对计划生育家庭奖励扶助、特别扶助、少生快富等管理系统产生信息的查询、统计、分析。
数据查询搜索引擎功能,主要是通过数据仓库实现结构化数据通用查询(模糊查询、精确查询)、指标查询和分析主题查询等。
热点问题查询功能,主要是通过数据仓库实现非结构化数据主题词、标题、作者等查询。
热点问题分析功能,主要是通过数据仓库实现非结构化数据归类、分析和深度挖掘等。
(二)人口发展数据仓库的应用
可以实现跨库查询、结构化和非结构化数据通用和主题词查询、专题统计、深度分析、数据挖掘、综合分析型报表生成等工作。
1.数据查询
数据仓库的最大应用还是数据查询。
——通用查询。
人口发展数据仓库中拥有成百上千个主题,涉及几千个业务指标,简单的定制查询是很难涵盖这么多数据的,因此需要利用数据仓库的元数据信息实现面向主题和指标的通用查询,用户只需要选择需要查询的主题名称、指标名称、分析角度等关键信息,系统可以搜索整个数据仓库,提取所需数据。
——扩展查询。
除普通的数据查询、统计分析查询外,人口发展数据仓库还应当包括人口发展预测方案对比分析查询,以及一些扩展应用。
例如,结构数据和非结构数据的关联应用。
我们可以依据一定规则对人口发展数据仓库中的重要人口数据标志唯一的数据ID,在非结构化数据(例如学术论文、报告等)采集时关联其中引用或者讨论的重要人口数据的ID,这样在我们查询这些人口数据的时候可以知道有哪些文章引用了这些数据,为决策者提供关联信息,为研究人员更好的了解这些数据和数据背后的学术内容。
2.数据挖掘
采用数据挖掘技术,对人口发展数据仓库中的数据,特别是微观个案数据进行关联分析,获得关于数据的新的知识和信息,为决策提供服务。
由于人口发展数据仓库中存储大量微观个案数据,数据挖掘将是一个中重要的应用方面。
3.GIS应用
人口数据地理分布是一个显著特点,因此基于GIS的人口展现和分析是人口数据应用的一个方向。
人口分布可以和自然条件分布、资源条件分布、经济发展分布等进行关联分析,展示其地域分布特点。
4.主题分析
将相关主题的数据整合成数据集市,结合非结构化信息和业务过程,进行集中展现和全方位分析。
5.为模型库提供基础数据和预测参数
人口发展数据仓库存储相关生育、死亡、迁移模式及水平的数据,存储婚姻、家庭等相关数据,存储人口发展普查和调查相关数据,可以为决策模型的运行提供基础数据和各类参数的选择。
6.对外人口及相关信息查询服务
人口发展数据仓库不仅可以提供人口计生委内部数据查询服务,也可以向其他部委和科研机构、普通公众提供数据共享、查询服务。
例如和公安部人口数据库进行户籍信息校验、和教育部学籍人口进行学龄人口信息比对、向普查育龄妇女提供基本信息查询等服务。