数据整理与迁移.docx

资源描述

数据整理与迁移.docx

《数据整理与迁移.docx》由会员分享，可在线阅读，更多相关《数据整理与迁移.docx（10页珍藏版）》请在冰豆网上搜索。

数据整理与迁移.docx

数据整理与迁移

1数据整理与迁移

1.1数据迁移总体设计

设计数据迁移方案主要包括以下几个方面工作：

研究与数据迁移相关的资料，或在网站上查询相关内容、评估和选择数据迁移的软硬件平台、选择数据迁移方法、选择数据备份和恢复策略、设计数据迁移和测试方案等。

东软公司数据迁移具体方法详见本方案第8章“8数据整理与迁移”等相关章节内容，数据迁移总体过程如下：

1.1.1进行数据模拟迁移

根据设计的数据迁移方案，建立一个模拟的数据迁移环境，它既能仿真实际环境又不影响实际数据，然后在数据模拟迁移环境中测试数据迁移的效果。

数据模拟迁移前也应按备份策略备份模拟数据，以便数据迁移后能按恢复策略进行恢复测试。

1.1.2测试数据模拟迁移

根据设计的数据迁移测试方案测试数据模拟迁移，也就是检查数据模拟迁移后数据和应用软件是否正常，主要包括：

数据一致性测试、应用软件执行功能测试、性能测试、数据备份和恢复测试等。

1.1.3准备实施数据迁移

数据模拟迁移测试成功后，在正式实施数据迁移前还需要做好以下几个方面工作：

进行完全数据备份、确定数据迁移方案、安装和配置软硬件等。

1.1.4正式实施数据迁移

按照确定的数据迁移方案，正式实施数据迁移。

1.1.5测试数据迁移效果

按照数据迁移测试方案测试数据迁移效果，并对数据迁移后的数据库参数和性能进行调整，使之满足数据迁移后实际应用系统的需要。

1.1.6移植系统应用软件

将实际应用系统的应用软件移植到数据迁移后的数据库系统上，并使之正常运行。

1.1.7正式运行应用系统

在正式实施数据迁移成功并且数据库参数和性能达到要求后，就可以正式运行应用系统，并投入实际使用。

1.2数据资源现状分析

目前全省正在运行的养老保险信息系统是1995年由省社保局组织、湖南省长信信息系统集成有限公司负责开发的，为全省养老保险的信息化建设打下了较好的基础，取得了一定的成效。

当前除益阳外，十三个市（州）都在使用全省的养老保险软件。

该系统最初是采用FOXPRO小型数据库，1998年全国养老保险统一制度实施时曾对软件进行过一次修改升级；1999年该系统数据库由FOXPRO小型数据库升级到ORACLE大型关系型数据库，2003年养老保险全省联网及2006年调整待遇计发办法时，又先后统一进行过两次升级。

各地应用水平参差不齐，对历史数据没有进行清理，存在大量垃圾数据，数据的完整性和一致性不能保证，严重影响决策分析，数据质量需要提高；同时数据资源和信息不能充分共享，对政策和业务发展的适应性较差，影响了办事效率和服务质量的提高。

通过对招标文件的充分理解，并结合我们建设长沙和株洲金保工程的经验，湖南省历史数据整理有以下几个特点：

一、因为涉及到全省的数据整理，去掉已建设的几个地市，涉及到10几个地市州和100多个区县，原养老系统经办机构点多面广是本次数据整理的一个突出特点，再加上各地应用水平参差不齐，为数据整理增加了很大的难度；

二、我们湖南省早在1995年就开始养老保险系统建设，至今历史时间长，沉淀错误数据也比较多，数据库中存在着大量的重复和错误数据，为了更好的修正并确认数据的正确性，需要与其他相关部门数据进行关联比对，如单位信息可以和工商部门、和质量技术监督局进行关联比对，人员信息可以和公安部门进行关联比对，这些数据处理我们在一些地区都有成功经验，可以为数据整理承建商提供参考方案；

三、系统建设时间早，与我国现行指定新的标准存在一定差距，信息缺项、错误项比较多；

四、历史个人帐户的清理问题也是本次数据整理过程中非常重要的一个问题，并且各地对于总帐要求的标准又不一致，有的可能以新总帐为准，这样会简单一些，有的可能以历史总帐为准，这种情况就会出现旧帐和新帐有个差额，这个差额需要新系统中能够处理平帐。

1.3数据整理和迁移概述

数据整理和迁移是我们湖南省实现数据“同人同城同库”要求的重要基础性工作，各相关业务管理部门、经办机构和信息机构要相互协调，紧密配合，共同做好这项工作。

数据整理工作需要用户方相关部门和养老保险系统承建商的密切配合。

数据整理是对湖南省省本级和各地市数据中心应管理的业务经办数据，进行遵守统一标准的规范性整理、补齐数据内容的完整性整理和实现数据记实的正确性整理，一般包括内部整理和外部核对两部分。

具体过程是，首先按照全国统一标准并结合湖南省省本级和各地市本地需求，建立结构规范的临时数据库（简称为整理库），将原生产数据转换导入该库。

然后对导入的信息进行初步比较、核查、校正以后，采用逻辑推理、经验判断、合理数值范围检验等方法，进行合法性检查及代码过滤等方面的审核和筛选，滤出可疑数据和缺失数据，并提交至外部核对环节，由用人单位或劳动者本人补充确认。

业务部门对外部核对返回后的数据进行审核，据此进行完整性和正确性修正，包括补充缺失数据、更正错误数据、剔除冗余数据、清理垃圾数据、调整矛盾数据等。

随后再次进行上述逻辑审查工作，如此反复直至数据补齐记实。

最后将整理好的数据分期分批提交到业务资源数据库中。

1.4数据整理和迁移目标

数据整合的目标就是保证数据的正确率要达到９５％以上；整合后的数据要能够支持市级数据大集中的应用，支持省-地市州的收据申报和交换，支持市－区（县）－街道（社区）三级业务经办，支持跨区域转移等业务要求；在大集中数据库中要保证数据的唯一性，也就是说同一个人在数据库中的信息不能重复；同时通过数据核对要确保数据内容的真实性和准确性。

1.5数据整理原则

1.5.1保证新系统启动优先原则

在进行数据整合时，必须首先满足新系统启动最基本的条件，在时间进度以及人力、物力能够得到充足保障的情况下，再进行其他项的整合。

1.5.2数据过滤原则

在数据资源整合过程中，为了减少由于数据资源整合时限制条件过于苛刻造成的数据大量过滤，保证新系统能够正常运行，减少新系统运行后大量补录数据的麻烦。

因此在数据数据资源整合过程中，需要对系统过滤的数据放宽条件，但是需要对错误的数据的数据分错误级别进行标示，有利于新系统运行后操作人员修改错误的数据。

对于有些数据，不影响新系统业务的正常运行，但是建议补填的，不需要在数据资源整合前进行纠正，只是在数据资源整合时加上相应的错误标志进行标识，等新系统运行后，在新系统中进行调整；对于有些数据，严重影响系统运行的，则必须在转换前进行处理。

1.5.3数据照搬原则

在数据资源整合过程中，对原系统的数据，原则上不要做修改或拆分，在必要的情况下，可以对原数据进行一些简单的加减运算，以适合新系统的需要。

1.5.4新旧系统对照原则

由于数据资源整合牵涉的业务比较复杂，需要转换的系统较多，因此在数据资源整合的过程中难免会出现一些错误，为了及时清楚数据的错误来源，所以必须建立新旧系统的对应关系，便于尽快查找错误或者是对数据转换中的转换错误进行及时的纠正。

1.6数据整理组织管理

数据资源整理在本项目的实施过程中是一项重要的、独立的工作任务，并且涉及到湖南省10几个地市和100多个区县，涉及面广，历史数据量大且情况复杂，所以必须将数据整理工作放在同软件的设计、开发同等重要的位置上来，必须成立独立的数据资源整合小组，有独立的负责人来负责数据资源整合全过程的实施。

1.6.1人员要求

数据资源整合小组需要配置如下人员：

养老保险业务分析人员

数据库系统精通人员

熟悉原系统情况的人员

1.6.2工作要求

数据资源整合实施小组的工作成败对于整个系统建设至关重要，因此数据资源整理小组的工作人员显得尤其重要。

数据资源整理实施小组负责人必须经常保持和软件开发负责人、用户方系统切换负责人的沟通与联系，及时将数据资源整合小组发现的问题与他们取得沟通，以保证开发的软件既能满足新系统的要求，又能满足历史数据对新系统的要求。

1.6.3组织机构

根据数据资源整理项目的特点，需要将整个项目组分为清理、转换、检核三个组，其中，转换小组中还要根据需要转换的原系统进行划分。

小组结构如下：

图81小组结构图

小组职责说明：

数据资源整理协调小组：

负责数据资源整理过程中对各业务部门的总协调。

数据资源整理实施小组负责人：

具体负责数据资源整理的各个过程，协调整理过程中的资源与进度，并将实施进度及问题按时向协调小组汇报。

数据清理组：

补充不完整或者修正不正确的数据，并建立数据之间的关联关系；

数据转换组：

编写《数据转换方案》并根据《数据转换方案》编写数据转换工具，根据编写的数据转换工具辅助进行数据转换。

记载数据转换过程的中间记录，对转换前后数据进行比对，编写《数据转换报告》。

其中，基础数据组负责单位、个人基础数据、单位缴费申报数据、各业务办理部门数据、代办机构数据的转换工作；养老保险组负责与养老保险有关的缴费数据、个人帐户数据、单位实缴数据、单位实付数据、养老保险待遇数据、养老保险待遇支付明细记录的转换工作；时间上，要求基础数据组的工作先行开展，其它养老保险组的工作可以随后并行开展。

数据检核组：

保证数据的单个字段的取值正确，以及相关数据的关联关系正确。

保证数据的准确性和完整性。

业务资源组：

详细说明待迁移的数据源，整理旧系统数据字典，分析新旧系统的数据结构差异，编制《数据分析报告》。

1.7数据整理和迁移方法

1.7.1数据核对

数据核对采用数据分级过滤的方式，数据分级过滤就是把数据按照不同的数据级别进行分类整理进入不同的中间数据库中。

本系统中我们把数据分为三个级别：

废弃数据、待调整数据、可转换数据。

废弃数据就是该部分数据的存在对系统资源造成浪费的数据，并且会影响以后系统的运行，比如重复的个人基本信息、重复的帐户信息、重复缴费信息。

待调整数据就是该部分数据严重影响新系统的运行，必须进行人工调整后，方可进行数据转换。

可转换数据就是该部分数据不需做任何处理，基本满足数据转换的要求或者是该部分数据新系统建议调整，但是不影响系统的运行，可以等新系统运行后再调整，这样可以为数据转换工作节省很多时间。

1.7.2数据整理

数据整理就是将原系统数据整理为系统转换程序能够识别的数据。

数据整理大致分为两个阶段：

第一阶段就是将不同类型来源数据采集备份到统一的数据库中；第二阶段就是将原始数据进行整理，按照湖南省各地市的要求分类进入不同的中间数据库，为数据转换提供中间数据。

数据整理过程中采用的方法示意图如下：

图82方法示意图

综合上图我们可以看出，数据整理过程采用了如下方法：

1.7.2.1确保原始数据的完整性

在进行数据整理之间，我们先需要对原始采集数据进行备份。

备份的目的有两个：

一个是统一数据库，便于数据转换，另一个就是为以后数据追根溯源提供参考依据。

在本系统中，我们将采用Oracle作为备份统一数据库。

1.7.2.2借助数据整理相关工具

数据整理非常艰巨，涉及的数据量很大，通过人工检查是不可能完成的，因此必须编写相关的数据整理工具完成数据整理。

包括数据整理工具和数据纠错工具。

数据整理工具负责将原始备份数据库中的数据进行分类进入不同的中间数据库；数据纠错工具负责提供友好、方便的工具界面供用户方相关人员完善和纠正错误数据。

1.7.2.3利用中间库作为桥梁

由于原系统和新系统的数据库结构可能不一样，所以采用中间库作为衔接新旧系统数据的重要桥梁，对于建立新旧系统的对照关系很重要。

一旦业务人员对新系统中某项转换数据存在疑问的情况下，就可以通过中间库的关联，顺利找出原数据。

1.7.3数据补录方案

1.7.3.1数据补录概述

数据补录主要是对于一些劳动部指标体系所要求的以及新系统中需要扩充的业务数据，并且这些业务数据原系统没有收录，这些数据多数是非电子格式或非结构数据，或者原系统中已收录但数据结构和格式与新系统相差太大，而无法通过数据整理工具整合，这些数据需要人工补录或补录工具软件转换补录到新系统中。

数据补录工作在本项目的数据整理工作中是一项重要的、独立的工作任务，需要开发数据补录软件支持本项工作的完成。

必须将其放在同软件的设

展开阅读全文