IBM服务器及存储设备维护方案V.docx

上传人:b****3 文档编号:3840795 上传时间:2022-11-25 格式:DOCX 页数:21 大小:76.38KB
下载 相关 举报
IBM服务器及存储设备维护方案V.docx_第1页
第1页 / 共21页
IBM服务器及存储设备维护方案V.docx_第2页
第2页 / 共21页
IBM服务器及存储设备维护方案V.docx_第3页
第3页 / 共21页
IBM服务器及存储设备维护方案V.docx_第4页
第4页 / 共21页
IBM服务器及存储设备维护方案V.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

IBM服务器及存储设备维护方案V.docx

《IBM服务器及存储设备维护方案V.docx》由会员分享,可在线阅读,更多相关《IBM服务器及存储设备维护方案V.docx(21页珍藏版)》请在冰豆网上搜索。

IBM服务器及存储设备维护方案V.docx

IBM服务器及存储设备维护方案V

文件编号

文件版本

V1.0

编制

日期

2007.12.18

审核

日期

 

XXXX公司

IBM服务器和存储设备维护方案

 

前言

非常感谢XXXX公司领导给予我公司的机会,我们怀着极大的热情精心组织、精心设计有关XXXX公司IBM小型机和相关存储的保修方案,特提交此保修服务方案建议书供领导和相关专家参阅。

项目背景和需求

中国XXXX公司为了满足业务需要,采用了大量的IBM小型机和相关存储设备。

为了保证业务的可持续运行,需要有专业的厂商提供保证硬件环境7X24可用性的能力。

而作为上市公司,XXXX公司希望在保证满足质量要求的前提下有更合理的最具性价的服务方案和相关厂商。

服务级别:

7*24服务期:

12个月

#

机型

基本配置

数量

单价

单位

小计

1

7029-6C3

P6152-WAY1.45GHZ/2GB/2*73GB/DVD-ROM

1

¥19,600

¥19,600

2

1722-60U

TotalStorageFAStT600Storage

1

¥18,500

¥18,500

合计:

¥38,100.00

人民币金额(大写):

叁万捌仟壹佰元整

一、服务方案制定原则

本方案主要针对XXXX公司的IBM服务器主机和相关的操作系统、数据库、系统软件制定合理科学的维保策略。

方案的制定遵循以下原则:

●业务为中心:

本项目的最终目标是保证业务系统的安全和可靠运行。

包括计算机系统的可靠运行和业务数据的安全保证,我们将动用一切有效的措施手段,力求业务系统万无一失,我们的目标是:

“非正常性停机时间为零”。

●重在措施:

注重预防。

我们将在传统的被动式服务的基础上提供主动式的服务,和客户一起做好系统的监控维护工作。

采取以预防为主的策略,把故障隐患消灭在萌芽中。

服务组织。

服务组织管理和流程管理是项目成功得关键。

我们将在责任工程师(项目经理)的统一调度下,指挥技术、应用、商务和服务监督人员,在售前、服务实施、售后的各个环节紧密与客户方配合

●追求最佳性价比:

服务的级别意味着客户的成本,我们在保障高标准服务的前提下,努力通过精心组织、精心实施来降低客户的成本,同时为客户提供更多的增值服务。

二、保修服务内容和标准

本方案针对XXXX公司上IBM服务器和相关的硬件设备和操作系统保修服务以和数据库协助保修服务、协助应用软件升级、应用软件的备份等服务内容。

主要服务项目如下:

1)故障排除

在规定时限内排除故障恢复系统运行,包括故障定位、部件更换、数据恢复的全部工作,不在另外收取任何费用。

2)定期巡检

定期对系统进行预防性维护,包括检查系统状态、设备清洁、系统备份,以和与客户工程师的技术交流。

3)培训

我们将免费提供针对项目的技术培训和技术交流。

包括:

现场培训:

主要在巡检和项目实施过程中进行,由我公司工程师结合实际情况,对工程设备的安装调试、使用和维护进行详细的讲解,达到客户相关人员能够自主使用和维护系统设备的目标。

专业技术培训:

通过培训使相关技术人员能有效管理IBM服务器、监控、日常操作维护,对集群环境、AIX环境、系统性能优化等特别予以关注。

我公司将免费提供培训师资、教材和搭建培训软硬件环境。

培训的具体地点和安排由我公司和用户协商而定。

参考课程如下:

●AIX系统和网络管理

●集群高可用方案HACMP

●故障定位与系统运维常见问题

4)增值服务

●咨询服务:

解答客户在系统使用中的问题。

可通过电话解答客户非保修设备使用中的技术问题。

一般情况下,指导客户解决问题,特殊情况下,可到客户现场指导并解决问题,这样可以有效地提高客户的系统管理水平,降低系统的人为故障率。

定期发送有关资料,使客户和时跟踪掌握相关IT新技术和新产品,互相交流系统使用和维护方面的经验。

协助客户建立健全规范的管理制度和系统使用维护的技术流程和规范。

建立系统的配置档案和升级维护档案,定期提交系统维护和管理报告。

●系统升级、扩充

为客户提供系统升级、扩充、改造、迁移等服务。

结合客户的实际情况,为客户详细制订切实可行的技术方案和合理的费用计划,并可提供现场的实施工作。

如客户需要搬迁设备,我们可以为客户制订安全周密的搬迁计划,并负责实施,保证客户设备搬迁后的正常运转,省去了客户自行搬迁所带来的烦恼。

●协调工作

协调原厂商(包括软硬件)的维护和维修工作。

定期召开例会,双方交流,向客户方领导汇报工作并听取领导和技术人员的意见和建议。

服务标准

●服务工作时间:

7X24X365电话受理服务请求或帮助客户解决技术问题。

●响应时间:

接到报修后30分钟内予以实质性响应,工程师8小时内到达服务现场。

●故障恢复时间:

接到报修后24个小时内恢复系统正常运行。

●服务热线:

项目经理:

张旭24小时手机

800-810-7333(全国免费服务热线)

-101(总调度长/工作时间)

●现场服务规范:

详见《金支点公司工程师规范》

●保密条款

金支点公司将严格遵循保密协议,凡涉和客户的机型配置、IP地址、软件等信息不得向第三方泄露,维护过程中如需涉和客户系统的数据信息,必须先通过客户方认可,维护工作的数据信息(无论是打印或介质上的数据信息)不得带离客户工作现场。

三、服务实施细则

1)前期工作

在保修合同生效前,金支点将派出硬件工程师和系统软件工程师前往客户现场,对现场的IBMP615、DS4300和相关网络设备进行测试,并对运行情况做好文档记录。

然后对设备进行必要的清洁、保养和维护,使设备处于良好的运行状态。

施工交底依据合同明确服务标准、工作流程、联系方式;

建立设备档案详细记录设备型号、出厂编号、版本号、工作状态;

场地环境检查包括供电装置、电源电压、接地和室内湿度、温度、温变梯度、空气洁净度、防雷措施等进行检查,对问题隐患提出改进建议;

数据备份在客户方配合下,将操作系统、应用程序、应用数据等做一次完整备份交客户保管以备使用;

现场培训与交流;

制定服务个案根据详细系统配置制定《XXXXIBM服务器服务实施计划书》,详细描述保修服务内容、人员组织分工、工作标准、服务流程、应急预案、现场备件清单、投诉管理、突发或不可预测事件管理等内容,报双方领导批复后执行;

承诺现场备件到位,同时在北京中心备件库中配备或补充本案专用备件,配备相应的系统和软件环境。

2)故障预防建议

系统工程师通过预防性检查对系统硬件进行检测和诊断,对系统中潜在的硬件故障采取预防措施。

如果某些部件出现无法恢复的故障,系统工程师将尽快予以修理更换。

维护期内提供定期巡检服务。

系统工程师定期巡检的目的在于通过巡检和时发现和纠正可能出现的硬件和系统问题,从而在最大程度上为设备的连续稳定运行提供保证,巡检内容主要包括:

1)服务器主机系统的运行状态;

2)网络设备的运行状态;

3)外部设备(包括磁盘阵列)运行情况;

4)所有连接接口,CABLE,电源等可能容易导致设备出现问题的敏感部件;

5)检查系统Errorlog;

6)协助用户机房技术人员解决和分析日常设备运行中出现的未解决问题。

3)故障排除

保修合同生效后,系统发生故障后每次服务流程如下:

●报修

系统发生故障,客户可在第一时间内与金支点项目经理(责任工程师)取得联系,说明客户单位、故障机型,尽可能说明故障现象以和可能的故障原因。

客户也可与金支点北京服务中心直接联系,服务中心调度长在第一时间内与金支点项目经理取得联系,北京服务中心的SMS系统会全程跟踪本次服务。

●响应

金支点项目经理会立即在响应时间(本项目为30分钟)与客户现场工程师取得联系,取得详细的故障信息,做出相应的判断,在电话中与客户工程师互动交流,首先排除因系统参数设定、使用中的软性故障,如果未能排除故障则服务工程师立即准备赴现场服务。

●现场服务

服务工程师携带相应备件赴用户现场进行维修。

首先进行现场诊断,分析锁定故障部件,更换部件或调整参数,数据恢复,直至系统恢复正常运行。

每次现场服务完成后,由金支点工程师填写《现场工作日志》,由客户方代表确认并签署意见后交公司存档。

如第一次现场服务不能解决故障,则立即启动应急预案。

●第三方配合

金支点公司承诺:

只要是金支点所保的系统发生故障,我们的服务工程师必须在第一时间内赶赴客户现场。

不论是系统硬件、操作系统故障,还是非金支点承担的网络、应用程序故障,或者系统升级改造、系统迁移等,金支点服务工程师将积极配合客户完成系统维护工作,绝不会因扯皮推卸责任而损害客户利益。

4)AIX常用故障诊断技术

计算机故障类型以和故障的诊断手段有很多,对于AIX小型机的故障我们通常采取以下2种诊断方式:

✧硬件故障诊断,诊断并排除由硬件引起的故障;

✧软件故障诊断,诊断并排除由软件(操作系统和应用软件如Oracle数据库、中间件等)引起的故障

软件故障诊断

由于软件故障情况错综复杂,通常我们常用以下命令来查看系统状态。

●#lsdev–Ccadapter

列出各I/O卡和设备的所有相关信息:

如逻辑单元号,硬件地址和设备文件名等。

●#ps-ef

列出正在运行的所有进程的各种信息:

如进程号和进程名等。

●#netstat–rn

列出网卡状态和路由信息等。

●#ifconfig-a

列出网卡状态和网络配置信息。

●#df

列出已加载的逻辑卷和其大小信息。

●#lsvg-o

列出已加载的逻辑卷和其加载位置。

●#oslevel–s#uname–a

列出系统ID号,OS版本和用户权限等信息。

●#hostname

列出系统网络名称。

●#lsdev–Ccdisk

显示磁盘各种信息,如磁盘大小,包含的逻辑卷,设备名称等。

●#lsvg–lvgname

显示逻辑卷组信息,如包含哪些物理盘和逻辑卷等。

网络故障

●如需修改网络地址、主机名等,一定要用smittymktcpip命令

●查看网卡状态:

ifconfig-a

HardwareStationCrdHardwareNet-Interface

PathAddressIn#statenameunitstate

8/20/5/10x0800097843FB0uplan0up

●确认网络地址:

#ifconfigen0

●启动网卡:

#ifconfigen0up

●网络不通的诊断过程:

Ifconfig-a查看网卡是否启动(up)

ping自己网卡地址(ip地址)

ping其它机器地址,如不通,在其机器上用lanscan命令得知stationaddress,然后linkloopstation_address来确认网线和集成器是否有问题。

在同一网中,subnetmask应一致。

●配置网关

手动加网关:

/usr/sbin/routeadddefault20.08.28.981

把网关自动加入系统中

vi/etc/rc.config.d/netconf

:

ROUTE_DESTINATION[0]=default

ROUTE_GATEWAY[0]=20.08.28.98

ROUTE_COUNT[0]=1

:

/sbin/init.d/net将执行:

/usr/sbin/routeadddefault20.08.28.981

命令netstat-rn查看路由表

另外也可用set_parmsaddl_netwrk来设缺省路由。

Oracle数据库预防与检测协助

因为采用预防为主的策略,目前我们知道仅仅靠电话支持服务和紧急救援服务不是解决ORACLE数据库问题的根本方法,因为这些方法无法避免和预防ORACLE突发问题的产生。

为使生产系统能够更加安全,高效地运行,避免ORACLE数据库因意外问题而带来的损失,因此用户需要定期的数据库系统维护服务,我公司将派工程师为用户定期巡检。

定期巡检与检测服务可以享受到以下好处

✓加快应用系统的实施周期

✓规范化客户的数据库维护工作

✓最大限度地提高系统的可用性

✓通过高水平的系统维护最大限度的降低系统停机的时间

✓在现场进行数据库的监控和信息的收集,缩短问题的解决时间

✓将ORACLE的经验和技术带给您的支持队伍

✓完善和增强现有系统维护人员的能力

✓得到专门的技术支持资源,保证技术支持工程师熟悉现场的配置和环境

✓与我ORACLE工程师共同工作,以更高效的方式提高问题解决能力

✓把ORACLE资深支持工程师的技术和经验传授给您的系统维护人员

定期巡检与检测服务承诺

✧定期对系统进行全面的检查,给出详细的报告,根据检查结果给出相应建议和改进方案

✧检查并分析系统日志和跟踪文件,发现并排除数据库系统错误隐患

✧检查数据库空间的使用情况

✧数据库的备份和恢复

✧协助解决数据库维护和开发过程中出现的问题

✧提出检查报告和建议以和改进方案

5)巡检

定期巡检的目的在于和时发现和预防可能出现的硬件和系统问题,从而在最大程度上为系统的连续稳定运行提供保证,巡检工作主要包括:

Ø主机系统的运行状态,对系统CPU、内存、I/O状态、进程等检查;对系统设置、日志文件、ErrorReport进行检查分析,清理系统中的日志文件和垃圾文件;

Ø外部设备运行状态,对磁盘阵列、磁带机、外置光驱、维护终端等的状态、设置进行检查;对风扇、后备电池、磁盘、磁带、键盘等敏感部件进行重点检查,如有故障征兆则进行先期更换;

Ø数据备份;

Ø网络设备的运行状态;

Ø连接件检查,对连接插头、电缆、电源插座等进行检查;

Ø环境检查,包括电源电压、接地和室内温度、湿度、空气洁净度等;

Ø清洁保养,清除机箱、滤清器内的灰尘与异物;

Ø系统优化,协助客户对OS进行系统性能调整和系统优化,提高系统效率;进行相关的安全性进程检查;

Ø技术交流,双方技术人员分析和解决日常运行中出现的未解决问题;

Ø工作报告,在对系统进行全面的检查后,给出详细的报告,根据检查结果给出相应建议和改进方案。

北京金支点技术服务有限公司为XXXX公司提供每三个月一次的全面巡检,并出具详细的《巡检报告》,由金支点工程师填写,由客户方代表确认并签署意见后交公司存档,方便XXXX公司控制和管理。

6)备份与恢复策略

随着信息技术的广泛应用,计算机系统的可靠性对生产系统的影响越来越大。

作为IT服务的提供者,我们将仔细、全面地考虑并且制订备份与恢复策略。

操作系统备份以系统卷为主,必须建立完整的系统备份档案,保证系统宕机时能和时恢复系统原有状态,包括此系统下运行的所有相关软件的配置。

双机热备份软件应按应用系统的实际配置情况制定相关的数据备份计划,如卷组备份、卷备份、文件系统备份、文件备份等。

应用系统的数据备份应由应用部门根据应用的实际情况列出所有相关数据的连接关系,以便制定出一份详细的数据备份计划,为数据恢复提供一份完整的依据。

我公司系统工程师将为用户制定一份完整的系统备份方案,在日常维护的过程中有义务协助用户做好系统的数据备份工作,并提供相关的技术支持,用户备份的介质将存放在用户处,以便故障的恢复。

当用户系统出现故障之后,我公司的系统工程师将在用户的故障现场,开始进行故障的排除工作。

需要用备份数据做系统恢复时,用户方需提供完整的数据备份。

系统工程师还将对用户提供系统升级和安装补丁的工作。

若涉和非系统软件的补丁,只要用户提供补丁,我们也承诺协助用户完成安装任务。

 

7)项目实施计划

北京金支点技术服务有限公司根据实际服务要求、各种资源状况、系统运行状况和其他现实因素,要求项目组长必须要全面规划出一个符合实际的整个工作进度计划。

这里我们估计的时间大致为:

8)工作结果与工作报告

●现场服务报告:

到达时间,工作内容,工作结果,遗留问题,客户评价等。

每次工作完成后提交。

●巡检报告:

系统状态检测评估,系统备份记录,系统管理建议。

报告每季度提交一次。

●年度报告:

包括年度保修工作统计,保修工作记录,更换部件统计,联席工作会议记录,系统管理建议,最终系统状态检测评估记录。

项目结束后一周内提交。

现场服务报告样表

四、服务保障措施

行话常讲:

说得好不如干的好,干的好就要看得见。

保修服务具有不可感知性、差异性等特点,就是说服务的好坏只有到项目结束时才能得出评价,而且不同人的评价结果会有一定的差异,所以光凭事前承诺和事后惩罚约束不一定就能选择合适的服务提供商。

金支点在多年IT服务的经验基础上基本形成了科学量化的、规范化、可视化的服务体系。

1)备件保障

考虑到本项目具有系统安全性要求高、所保机型技术水准高等特点,为了做好本项目的服务,首要因素是必须具备有效的备件保障,我们建议备件保障分三级布署:

1级—本地备件保障,设立备件库,配备相应机型的核心系统和常用易损件,包括CPU、电源、硬盘、网卡、SCSI卡、风扇等,当系统故障时立即更换损坏的部件,或当第一次现场服务故障未能排除时,启动应急预案,将现场备机顶替故障系统运行,这样可以有效保证合同约定的修复时间。

此备件为XXXX公司项目专项专用,不能调用于其他服务项目,并随项目情况应随时调整补充库存。

我们将与XXXX公司项目经理共同分析所保系统的运行状况,圈定系统的薄弱环节,共同商议本地备件部署计划,包括型号、数量、保存地点、检查方式、调整周期等,北京金支点公司必须在保修服务开始前将合同约定的备件运抵客户现场。

注:

“配备整机”是指一套可以加电运行的系统,其与保修设备同型号但可能配置有所不同。

“配备备件”是指关键的计算机部件,如CPU、内存、磁盘等。

2级—北京中心备件库,作为1级备件库的后盾与补充。

针对本项目将配备相应(或类似)整机和备件,包括IBM小型机和存储的,北京单程响应周期为2小时。

公司在北京设有中心备件库,备有品种齐全的备件,保持备件库中总可随时提供给客户使用。

对于服务级别高的重点客户,公司将专项配备关键备件或整机。

公司设有专用机房,配备有各种VAX、ALPHA、RS6000、HP整机,利用系统模拟现场工作环境用来远程诊断测试,可以和时有效地锁定故障,缩短维修周期。

公司有着畅通的备件配送渠道,保证了公司和时的备件供应和处理突发事件的能力。

3级—合作厂商资源

北京金支点公司与其他同业公司建立有很好的合作关系,突发情况下我们可与IBM公司服务站等合作厂商获得紧急备件支援,公司建立有通畅快捷的备件供应和配送渠道,可以迅速地从美国、欧洲调配到所需备件。

2)本地化服务

我们将把本项目的服务基地为北京金支点总公司,有十分充足的备件库,有优秀的工程技术人员,能提供优质高效服务。

3)组织和人员保障

制定了与服务有关的一系列管理办法、标准的作业流程和规范化的技术规范,并在不断地加以修改和完善。

金支点已通过了服务与支持方面的ISO9001国际认证。

我们一直用ISO的质量标准来管理和指导服务业务。

公司专门为客户设立了800免费服务热线,设有专人值守负责接待客户的来电来访,使客户的需求能够得到和时有效的响应。

在较长节日前,公司将和时提醒客户检查、备份系统,并提供节日期间金支点值守安排计划。

金支点有60余名技术人员,其中30名工程师专业从事服务业务,主攻专业涉和主机、网络、数据库、应用和客户资源管理等,数名资深高级工程师有着十多年丰富的实践经验,具有高超的技术水平和服务水平,大部分服务工程师通过了原厂商的专业技术认证。

公司定期对服务工程师进行各种新产品、新技术和服务技巧等内容的培训,以提高技术人员的技术水平和服务水平。

项目领导组

组长:

由XXXX公司指定;

副组长:

张华雷,北京金支点技术服务有限公司总经理;

职责:

Ø审核批准项目的总体维护维修的服务方案,并制定工程验收标准;

Ø负责本项目维护维修实施过程中的重大事件的决策;

Ø根据项目过程的进度、质量、技术、资源、风险等实行宏观监控;

Ø负责组建验收小组,主持验收工作;

项目实施组

组长:

杨振广,北京金支点技术服务有限公司技术总监,IBM高级工程师;

副组长:

由XXXX公司指定;

职责:

Ø根据项目要求制定整体维修服务工作计划;

Ø协调项目组内人员的分工合作,资源分配;

Ø负责制定阶段验收标准和最终验收标准,报领导小组审批;

Ø负责计算机设备的定期检查、故障维护、性能优化、调试等工作;

Ø根据各阶段的工程安排,有组织地对用户工程技术人员进行技术培训。

Ø负责将按时提供本项目所需服务的人员、技术和设备;

Ø依照项目实施计划,进行文档标识和追踪、整理存档。

组员:

XXX,AIX高级工程师;

XXX,资深ORACLE工程师;

XXX,HP/Alpha工程师;

XXX,技术支持工程师;

XXX,测试工程师;

XXX,服务专员;

XXX,商务助理,物流主管;

项目验收组

组长:

由XXXX公司指定;

成员:

XXXX公司技术人员、北京金支点技术服务有限公司工程技术人员;

职责:

Ø根据项目执行组制定的验收标准进行验收;

Ø生成验收报告,提交项目领导组审批。

针对本项目将专门成立XXXX公司项目组,人员和分工如下:

项目经理:

专职负责所保设备故障维修与日常维护,是客户与金支点公司保修工作的唯一界面。

通过项目经理客户可以解决技术、商务等一切问题。

凡涉密系统的保修业务,金支点公司将选派政治可靠、技艺高超、认真负责的工程师担当项目经理。

服务专员:

负责与客户的联系和回访,帮助责任工程师协调和解决保修过程中出现的商务事务工作。

服务工程师:

在项目经理的领导下执行故障维修与日常维护。

调度长:

负责公司日常保修业务调度。

当项目经理在现场需要支持时,由调度长整体负责调度协调我公司的人力、物力资源,包括派出第二批次现场工程师、启动应急预案、调用第三方资源等。

后备工程师:

金支点在国内各地配备有30名熟练的技术工程师专职从事保修服务工作,专业覆盖小型机系统(IBMRS6K、HPALPHA、HP9K、SUN)、数据库(ORACLE、ORACLE)、网络(CISCO、3COM、CABLETRON和网管、网络安全)等。

金支点公司将对用户的设备和使用情况进行分析,计划调配工程师,当项目经理无法迅速到达客户现场或不能在第一时间内排除故障的情况下,由后备工程师出任增援现场服务。

服务总监:

定期对服务质量和完成情况进行监督,受理甲方的业务投诉,由公司主管副总经承当。

政治面貌

-

职称

高工

职务

工作简历

 

4)安全条款

在维护工作前,金支点服务工程师须提前24小时(紧急故障处理除外)向XXXX公司项目主管提出书面的维护申请。

内容包括维护的目的、操作工程师、操作步骤、涉和系统硬件变更、涉和系统软件变更、预计操作所需时间、申请操作所需时间等内容。

待得到XXXX公司项目主管书面批复后维护工作方能开始,且所有操作必须有XXXX公司方代表在场。

如维护工作需要使用移动介质,则必须事先在XXXX公司本地进行病毒检查,经客户方确认方可使用。

维护操作必须事先做好操作方案并制定应急方案,必须严格掌握控制操作时间。

所有操作必须两人以上在场,其中一人主持操作一人确认详细记录,所有操作记录须存档并长期保留。

5)巡检

通过巡能够和时发现并排除故障隐患,有效保证客

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1