机房搬迁方案.docx
《机房搬迁方案.docx》由会员分享,可在线阅读,更多相关《机房搬迁方案.docx(34页珍藏版)》请在冰豆网上搜索。
机房搬迁方案
1.项目分析
1.1.搬迁项目背景
联彤随着自身业务的不断发展,现有IDC机房已无法满足承载着主要业务系统的IT软硬件的增长需求。
需要将现有IT系统硬件搬迁至具有较高资源扩展性的IDC机房,以满足业务的快速发展。
机房整体搬迁对服务支持标准、故障排除时间和业务恢复时间有严格要求,需要做好所有应用系统的备份与恢复、存储数据的同步与迁移、应用系统在新旧机房的协同运行、设备的分拆与组装、设备的搬迁与应急环境的搭建等工作,同时提供数据、硬件、系统软件和数据库核心软件等层面技术支持。
1.2.搬迁项目要求
Ø硬件技术要求
(1)搬迁设备勘察、评测、论证、处理等;搬迁设备检查及故障诊断处理、搬迁设备标签、应急预案的提交、验收方案及验收文档报告的提交;
(2)协助客户做好新旧机房现场协调管理和新旧机房搬迁全局管理;协助客户协调好甲乙方、厂商、集成商、服务商等的关系;搬迁过程中各类标签的张贴、设备下架、包装、运输至新机房、设备上架、上电;各类最终标签的张贴;配合应用系统调试;搬迁设备搬迁过程中的保修费用(软硬件);为了在承诺的工期内完成搬迁工作而提供的小型机、服务器等设备的备机、备件;为保证数据安全而提供的数据备份与恢复。
(3)设备拆卸、包装、运输、安装,及设备运输安全保证和数据安全保证;
Ø软件技术规范
确保客户指定计算机设备在规定的时间内系统和数据库等软件启动正常并对外提供正常服务。
确保设备全部硬件完好搬迁到指定位置,并确保客户明确的设备在规定的时间内加电、系统启动和数据库等软件启动正常并对外提供正常服务。
Ø其他相关特殊要求
1、要求供应商承诺:
(1)要求施工的工程,承诺提供最优惠价格。
(2)要求供应商承诺,为客户施工项目,如果使用过程中,发现施工缺陷或隐患,进行免费维修、保修工作。
(3)要求供应商承诺,如因未按施工方案执行,给客户造成损失的,应按损失金额向我行进行赔偿。
2、供应商承诺满足客户技术、服务、商务等相关条款要求时,不附加任何前提条件或特殊说明。
2.搬迁方案
2.1.搬迁思路
在机房系统搬迁过程中,因业务系统及数据极其重要,数据的完好和业务系统的正常运行需要得到保证。
业务系统需7*24小时运行,本次搬迁过程中,需要保证尽量减少业务系统的停止时间。
在本项目中,用户提出在______________________________应急环境,待搬迁前,将位于___________________IDC机房内运行的业务系统切换至_____________应急环境中运行。
此种方式的优势如下:
优势:
1.确保业务的连续性和可用性;
2.搬迁过程中不影响业务的正常使用;
龙瞻信息建议采用“先准备应急环境,后整体搬迁”的方式实现机房搬迁的顺利进行。
同时辅助各个职能的工程师现场实施并配合各项工作来完成整个数据中心的搬迁工作。
搬迁整体工作,包含整个搬迁的设备系统的(冷备)备用系统搭建、系统割接、设备下架,物流及到新机房后的上架,整体调测等过程。
基于我们前期对用户业务及设备的调研分析上,我们根据业务的重要性及设备间的相互关联,将需要搬迁的设备按照用户当前的实际应用系统来划分。
在详细的前期资料收集和调研后负责制定每一个系统的详细规划、设计、准备、及实施工作。
通过分阶段划分搬迁目标的方式完成整个系统的搬迁工作。
我们通过制定严格文档管理制度,来协助完成搬迁信息的整理和分发。
在搬迁前期清点阶段,对各个机柜等做好严格标记,依照设计部门的设计,进行机柜的整体搬迁。
搬迁后测试方案来保证搬迁的顺利完成。
在搬迁完成后,确保搬迁设备在前期规划指定位置,保证所有系统无损。
一旦发生故障,通过现场设备进行快速修复;若涉及切换到应急系统的需考虑二次迁移,修复原系统设备后,在合适的时间进行停机割接和数据的回切,实现系统顺利重新运行在原系统环境中,最终完成该系统的搬迁工作。
2.2.项目阶段性规划
鉴于数据中心迁移项目搬迁的复杂性以及所涉及的人员、部门、设备多样性,整个搬迁项目的规划及实施时间非常紧凑。
根据不同时期的工作重点,我们将搬迁项目划分为三个阶段:
Ⅰ.评估与建模阶段、Ⅱ.详细设计阶段、Ⅲ.实施阶段。
第一阶段为搬迁的评估与建模,主要对用户的设备/业务现状进行调研分析,及用户新数据中心的需求进行收集整理。
通过编制现有IT系统拓扑逻辑详图,理清现有系统中所有硬件、软件、系统、应用等信息及其相互间的关联,确保所有相关信息完整地显示出来。
同时,根据用户新数据中心的使用规划,编制新机房系统拓扑逻辑详图。
进行初步设计、规划、以及评估,为搬迁做好准备。
第二阶段将进行详细方案地设计,并制定预演方案及风险准备计划。
根据现有IT系统拓扑逻辑详图,通过与用户IT、网络、业务部门及设备运输物流商等各方面的充分的沟通,划分设备搬迁的具体批次及方法,分别制定详细的搬迁方案及相应的应急修复方案。
本阶段的目标是:
双方确认的详细的搬迁/预演/灾难恢复方案及执行计划。
第三阶段即进行搬迁的实施及管理。
根据第二阶段设计的详细方案,各小组开始做搬迁前的各项准备工作,进行搬迁后系统的测试及检验。
2.3.搬迁前期准备工作
龙瞻信息为每个搬迁项目提供有效的搬迁前咨询服务,我们通过细致的调研和有效的沟通,为数据中心的迁移研究可行的方案。
搬迁前全面调研和需求分析对于搬迁方案的合理性起着关键作用,以下是主要的调研内容:
Ø搬迁设备现场勘察、访谈并确认需搬迁系统及设备;
Ø新数据中心基础设施调研确认满足现有及将来可能增加的设备各类需求;
Ø设备物理位置变动调研;设备新机房新位置可行性规划;
Ø系统变更需求调研;业务地址变更需求;
Ø系统配置信息收集;如系统硬件配置,HA配置等;
Ø应用系统信息收集;收集各类业务系统信息;
Ø应用系统关联性分析是成功搬迁,降低停机时间的最关键所在;
Ø数据风险、安全分析;对数据的安全性进行有效的分析;
Ø物流条件和资源调研;熟悉搬迁路线,提前发现可能影响物流的问题。
通过前期沟通及调研,通过调研准备,获取最详细的老机房位置图。
其中包含设备位置、设备配置信息、系统业务信息、管理人员等相关资料统计,作为搬迁的基础数据。
在新机房,建议设备位置规划保持和原有机房保持一致,降低上下架所消耗的时间,可以提高搬迁的效率。
2.4.搬迁前数据备份
数据可以说是企业的生命,所以搬迁的重中之重就是要确保数据万无一失,要做到数据的绝对安全的最好办法就是在搬迁前进行一次全面的数据备份,以保证数据的可用性和完整性。
通过严格的备份策略来保障备份数据的有效性,具体备份计划在项目开始调研后完善。
Ø系统、数据备份需求调研
Ø备份方案测试
Ø备份实施
Ø必要的备份恢复
2.4.1.系统数据备份方式
我们通过合理的系统数据备份方式实现数据备份。
◆IBM小型机技术保障方案
通过AIX的mksysb工具,实现对AIX操作系统的备份,可以制作成可引导的磁带,在根盘OS损坏时进行磁带引导恢复。
通过AIX的LVM镜像管理软件,制作根盘AIX的OS镜像,在搬迁前同时做好既有根盘LV的镜像健全检查。
确保系统环境运行正常。
◆Linux/Windows系统的技术保障方案
Linux、windows等x86平台的系统备份有多种实现方式,我们推荐通过TrueImage或Ghost实现备份,应急恢复使用。
ØGhost备份
针对PC上Linux和Windows,我们使用Ghost工具进行全盘映像备份,具体方法举例如下:
接下来需要利用Ghost制作.GHO映像文件,进行系统备份
新增一块硬盘挂接在PCServer上,前者作为第二硬盘,用于存放映像文件。
启动机器,用DOS盘引导后,运行Ghost(建议使用8.3版本),选择Local→Partion→ToImage,再分别指定源分区和映像文件所在盘与文件名(如Unix.GHO),选定"高压缩比"并确认后,Ghost开始工作。
ØTrueImage备份
通过网络备份到提前准备的ftpServer或者windows共享上面,具体方法举例如下:
用做好的TrueImage光盘启动机器,选择AcronisTureImageServer(Fullversion)
然后在Tools->Options里面配置TrueImage识别到的网卡,配置上该机的原有IP地址。
然后选择Backup
然后,根据提示对整块盘进行备份
备份文件可以存放在远端的windows共享目录中,FTP中,或者USB硬盘等上面。
本备份在搬迁当天停止应用后进行,这样可以连同非系统数据一起备份;
2.4.2.备份数据量估算
我们有完善的方式来估算需备份的数据。
根据系统备份,进行完全备份的数据量计算如下:
ØPC服务器数据量:
假设平均按100GB/台(含操作系统、应用程序、数据库)等,合计数据量为30*100GB=3TB;这部分数据可以通过刻盘或复制到存储备机保存。
设备搬迁过程中的主要备份为系统数据备份。
其它的数据库数据或大容量数据备份需求,可通过原有的备份环境进行备份或者采用大容量移动介质。
另外一种方式是通过应急系统,实现对系统数据的备份。
Ø。
2.4.3.备份时间安排
我们将安排充足的技术人员进行同时操作,我们将按照合理估算,预计完成所有备份的时间在一般8-10小时以内。
在安排搬迁进度时,我们将充分考虑到进度安排,对搬迁技术人员进行合理的任务分配。
由于要保证备份数据的完整性,因此备份工作特别是数据库的备份必须要等到用户正式停止应用后方能进行。
为了节约搬迁时间,各个主机的操作系统备份可以在搬迁正式实施之前就开始准备,但是前提是注意不影响生产系统的正常运行。
2.5.应急方案
数据中心搬迁会存在的一定的风险,为保证搬迁的按计划顺利进行,龙瞻信息对每次搬迁都准备了相关的应急措施,以备搬迁过程中出现问题能尽快解决,尽量缩短由于突发事件引起的系统中断。
根据用户普遍存在多平台、多层次的业务环境的情况,因此我们在搬迁过程中需要针对基础架构中每个层面/平台做出对应的应急处理方案,以确保搬迁过程的顺利进行。
2.5.1.搬迁风险分析
一、项目风险管理概述
每个项目都会面临各种各样的风险,有偶发的、人为的、内部的、外部的原因,为此,对项目进行风险评估,以采取相应措施来降低可能出现的风险是项目管理必不可少的过程。
综合机房搬迁项目的设计和实施是一个高风险的项目,这些不利的风险存在于整个项目中,并往往会给项目的推进和项目的成功带来负面影响。
风险一旦发生,它的影响是多方面的,如导致项目的最终功能无法满足用户的需要、项目费用超出预算、项目计划拖延或被迫取消等,其最终体现为客户满意度的降低。
因此,在项目实施过程中,要确保及时获得项目进程中所需的各种信息,及时预见、报警和防范工程实施中可能出现的各种风险,从而保证最小程度的差误损失。
识别风险、评估风险并采取措施应对风险即风险管理有着十分重要的意义。
二、项目风险管理步骤
项目的风险是多方面的。
为此,项目风险管理主要有以下几个步骤:
风险识别、定性/定量风险分析、风险应对计划编制及风险监控。
Ø风险识别(RiskIdentification)
风险识别是指识别并记录可能对项目造成不利影响的因素。
风险识别不是一次性的工作,而需要更多系统的、横向的思维。
几乎所有关于项目的计划与信息都可能作为风险识别的依据,如项目进度及成本计划、工作分解结构、项目组织结构、项目范围、类似项目的历史信息等。
Ø风险分析(RiskAnalysis)
其次,通过风险识别过程所识别出的潜在风险数量很多,但这些潜在的风险对项目的影响是各不相同的。
“风险分析”即通过分析、比较、评估等各种方式,对确定各风险的重要性,对风险排序并评估其对项目可能后果,从而使项目实施人员可以将主要精力集中于为数不多的主要风险上,从而使项目的整体风险得到有效的控制。
Ø风险应对?
(Riskresponse)
最常采用的应对威胁的几种措施是:
规避、减轻、转移、接受。
Ø风险监控(Riskmonitoring)
风险监控主要包括以下任务:
●在项目进行过程中跟踪已识别风险、监控残余风险并识别新风险。
●保证风险应对计划的执行并评估风险应对计划执行效果。
●对突发的风险或“接受”的风险采取适当的权变措施。
三、项目总体风险评估及防范计划
下面,我们从整个项目的角度,从沟通、技术方案、时间、项目范围及项目实施不同层面进行分析,看本项目可能存在的风险,及我们的防范计划。
序号
工程实施风险
严重程度
可能性
应对措施
1
项目涉及机房内全部信息系统搬迁,工程实施内容多
高
高
1.制定详细、精确的搬迁方案;
2.尽可能多配置有经验的实施人员,并尽可能并行实施;
3.严格的项目管理及进度控制。
2
从实施方案制定到搬迁实施,;
高
高
1.制定实施方案时对现状的梳理要完整、准确
2.配置变更必须及时通知搬迁项目管理小组;
3.搬迁前必须对“搬迁单元”进行再次检查、确认。
3
数据中心搬迁项目包括新数据中心网络建设、服务器、网络、存储、外设的拆卸、安装和搬运技术方案复杂
高
高
1.专业咨询服务商进行详细方案设计,合理划分搬迁单元和搬迁任务;
2.专业搬迁服务公司实施搬迁工作;
3.设备厂商提供现场支持、保障
4
原有业务切换到应急环境失败
高
高
依据风险预估方案紧急实施业务回滚到原有IT环境.
5
搬迁过程中设备或系统故障
中
高
1.搬迁过程中通过系统备份
2.搭建应急系统平台,搬迁前进行系统切换后再进行搬迁原系统平台
6
搬迁过程中设备损毁
高
低
1.制定详细的安全防范措施,尤其是针对没有冗余的设备
2.要求相关设备厂商和系统厂商提供现场支持,并确保备品、备件的库存及快速响应能力
3.选择有经验和资质的物流公司
4.选择合适的合作伙伴签订紧急供货及安装服务协议
5.购买保险
7
搬迁导致数据破坏
高
低
1.制定搬迁前的数据保护方案及紧急恢复预案
2.测试、验证数据保护与恢复预案
3.搬迁前严格按照预案进行数据保护,并验证保护的有效性
8
外围用户无法访问搬迁后的业务应用
高
中
1.准确、完整的《应用关联关系》分析
2.详细的用户访问路线分析,与网络部门确定、测试网络是否满足相关要求。
9
搬迁遭遇不可抗力暂停,周期延长
高
低
制定搬迁策略、搬迁单元时要考虑此因素,避免对业务带来严重影响。
10
业务部门不能及时或无法配合搬迁后的业务验证、测试工作。
高
低
1.完善的计划
2.领导小组协调、安排
11
搬迁后可能带来外围用户访问的变更要求
中
低
在制定搬迁方案中需要考虑可能对外围用户的变更要求,并提出相应计划。
12
搬迁过程导致的业务中断时间超出计划中断时间
中~高
高
制定应急预案(主要是通报、沟通方面)
13
设备长时间运行,搬迁可能导致无法启动
高
高
1.通过断电重新启动区分工作界面
2.准备足够的现场备件,确保搬迁后一旦设备故障,可以快速修复
14
业务系统主机设备故障
高
高
1.通过租赁设备搭建备用主机应急搬迁
2.通过现场备件快速修复
15
物流公司工具不够、搬迁线路搬迁困难
高
高
1.采用专业精密设备物流公司提供搬迁服务
2.通过前期调研,提前制定物流线路,携带足够搬迁专业工具
3.对于大型设备,准备叉车等起重设备,必要时动用吊车实现搬迁
2.5.2.应急环境建设
为防止搬迁后系统由于各种不可预料的原因导致系统无法启动,需要恢复的情况下,针对各主要主机系统备份工作的有效实施可以确保应用在搬迁后失败后能够有效地恢复。
对于可能存在的一些小型数据库,我们同样考虑到恢复的需求。
此次搬迁所涉及到的业务系统为7*24小时运行,停机时间较短,为了简化搬迁过程的同时,实现对系统最大的保护是我们的目标。
我们通过将数据库备份恢复到应急环境中的主机的方式,搬迁前将业务系统切换至应急系统运行,待运行稳定后,再实施生产环境的停机搬迁工作。
由于我们提供的设备为单机,因此涉及数据库双机到单机的恢复,以及正式搬迁前数据库归档日志的追加注册恢复过程,该恢复过程可以通过当前部署的备份环境异机恢复方式进行恢复,在搭建应急系统的过程实现了对当前备份系统数据验证测试。
应急数据库系统平台搭建完毕,需要在搬迁前进行变化数据的追加,确保数据一致。
2.5.3.灾难恢复组织和职责
客户应结合其日常组织机构的具体情况建立处理灾难的应急预案组织机构,并明确其职责。
其中一些人可负责两种或多种职责,一些职位可由多人担任(应急预案中应明确他们的替代顺序)。
应急预案中的组织机构应由客户的管理、业务、技术和行政后勤等人员组成,分为应急指挥小组、应急响应组、灾难恢复组。
我们将作为应急响应组成员与客户一同加入应急预案流程执行灾难发生情况下的应急环境切换流程及相关操作。
未来设立客户应急响应中心的组织机构设置和职责定义如下:
组织机构
人员构成
主要职责
应急指挥组
客户高层领导
审核并批准应急预案;
组织应急预案的测试和演练;批准应急预案的执行。
应急响应组
维保服务厂、客户IT部门
提出灾难恢复策略和等级;
制定应急预案的各种策略、流程。
灾难恢复组
客户IT部门
维保服务厂商
容灾中心日常管理;
容灾系统运行和维护;
应急预案的培训和演练;
维护和管理应急预案;
灾难发生后信息系统和业务功能的恢复;
灾难发生后的外部协作。
2.5.4.响应时间和方式
●电话支持:
我们的客服中心接到客户故障申告后,在10分钟之内安排责任工程师提供电话支持服务,解答客户疑问并指导客户现场操作方法。
●远程接入支持:
我们在进行电话支持服务的同时,得到客户许可后通过远程接入方式登录客户网络,诊断并解决故障,并在3个工作日内向客户提交《故障诊断报告》。
●现场支持:
当电话或远程接入支持都无法解决问题,经双方确认需要现场支持时,我们将指派专职工程师并在规定的时间抵达客户现场提供支持服务。
现场服务包括人力、硬件部件和维护材料,通过现场硬件部件测试、备件更换、系统软件相关问题处理,使得系统恢复至正常状态,更换下来的部件应属龙瞻信息所有。
现场硬件系统支持完成后的2个工作日内将向客户提交《现场服务报告》。
●备件支持:
发生紧迫故障时,我们将提供与故障可能涉及到的所有相关备件,并提供主要备件的冗余(比如同时携带2块甚至多块控制器),避免备件发生现场DOA(到货即损)的情况而拖延故障的修复时间。
●不间断服务:
我们的工程师到达现场后即开始进行不间断服务,直至您的设备能够重新运行。
如需额外的部件或资源,立即通知后方支持资源,在最快的时间里调用所需部件,直至恢复系统,工程师才离开现场。
2.5.5.搬迁计划
客户资产清点如下:
(需现成勘测)
服务器:
序号
设备型号
设备配置
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
名称
型号
数量
配置
防火墙
交换机
针对此次客户计算中心机房的设备搬迁项目,龙瞻信息制定了如下的搬迁时间规划:
客户计算中心机房搬迁项目时间规划
编号
工作内容
规划日期
持续时间(H)
责任人
配合方
后续影响
影响程度
确认人
备注
1
机房环境调研
4
龙瞻信息
客户
确认搬迁操作难度
低
2
设备信息统计
3
龙瞻信息
客户
综合布线正确性
高
3
设备配置统计
8
龙瞻信息
客户
备件准备及工程师配比
中
4
设备线缆统计
10
龙瞻信息
客户
新机放线缆准备
中
5
设备迁入机房位置确认
6
龙瞻信息
客户
线缆到位准备及实施
中
6
设备旧机房位置对应表
3
龙瞻信息
客户
批次搬迁设备的操作准确性
中
7
设备新机房位置对应表
3
龙瞻信息
客户
设备新机放的操作准确性
中
8
设备线缆标签制作
6
龙瞻信息
客户
设备线缆恢复效率及准确性
低
9
设备线缆标签核对及粘贴
10
龙瞻信息
客户
设备线缆恢复效率及准确性
低
10
应急网络环境搭建及测试
客户
搬迁是否实施
高
11
数据备份或迁移
客户
搬迁开始时间
高
12
备份有效性测试
客户
搬迁正式开始时间
高
13
设备搬迁确认
客户
龙瞻信息
无
低
14
第一批次搬迁正式实施
36
高
14.1
设备应用停止
0.3
客户
备份时效
中
14.2
数据备份或迁移
8
客户
物理搬迁是否确认实施
高
14.3
数据有效性确认
1
客户
物理搬迁是否确认实施
高
14.4
系统停机
0.5
龙瞻信息
客户
低
14.5
设备下电
0.5
龙瞻信息
客户
低
14.6
设备下架
6
龙瞻信息
客户
设备安全性及完成时间
低
14.7
设备包装及运输
5
龙瞻信息
客户
设备安全性及完成时间
中
14.8
设备拆包及上架
8
龙瞻信息
客户
设备安全性及完成时间
中
14.9
设备加电及系统启动
1
龙瞻信息
客户
应用能否按时上线
高
14.10
系统及应用检测
1
龙瞻信息
客户
应用能否按时上线
高
14.11
故障修复(若有)
2
龙瞻信息
客户
应用能否按时上线
高
14.12
应用上线
1
客户
高
14.13
设备观察期
8
客户
应用是否正常
中
上述时间点仅供参考,实际所需时间需要经过前期详细调研和