IT故障处理流程规定Word文件下载.docx
《IT故障处理流程规定Word文件下载.docx》由会员分享,可在线阅读,更多相关《IT故障处理流程规定Word文件下载.docx(10页珍藏版)》请在冰豆网上搜索。
”,“Sonata®
”and“Swing™”areregisteredtrademarksofBoston-Power,Inc.,whichretainssolerightstotheiruse.©
Boston-Power,Inc.,2009.
Allrightsreserved.
1.目的:
加强和规范IT事故/故障的处理和报告流程,保证事故/故障的快速恢复,使损失降低到最低。
2.范围:
IT部提供但不限于以下设备、系统和区域的事故/故障
2.1硬件类:
IT办公设备(包括复印机、打印机、传真、扫描仪、投影仪、一体机、主机、显示器等)
语音通信设备(但不包含移动智能手机、平板电脑)
2.2网络类:
企业互联网(泛指公司与ISP连接的Internet线路)
MPLS、VPN专线
网络/线缆接口
2.3应用和业务系统类
应用服务器(包括硬件和操作系统)、业务型ERP、生产型MES
IT监控与门禁系统
数据库系统
互普准入系统
视频会议系统
考勤就餐系统
防计算机病毒系统
3.定义:
3.1一般事故/故障:
影响范围限于单个或者少量用户(不超过10人)的IT故障,不会对其它用户的IT系统使用造成大的影响和业务的中断。
3.2中等事故/故障:
关键系统小面积中断,不会造成重大业务影响,不会造成关键系统数据大量丢失或者错误。
3.3重大事故/故障:
关键系统全局性或者大面积中断,或者造成关键系统数据大量丢失或者错误的,并且无法在短时间(30分钟)内恢复。
3.4关键系统主要指中断后会造成业务和管理无法进行的系统:
如AD、DHCP、DNS、核心交换、路由、VPN系统、ERP系统、MES系统、存储系统、虚拟服务应用。
4.职责与权限:
4.1IT部所有员工均负有处理紧急事件的责任;
4.2面对紧急事件,一切以公司利益和人身安全为重;
4.3IT经理包括IT各组(Infra系统、ERP业务支持、CIM)经理;
4.4IT经理作为IT流程中的控制结点,主要负责对其所辖关键IT系统的重大事情进行审批、管理和监控;
4.5IT部门主要负责IT事故/故障发生后的事故处理和故障的排除,故障排除过程的记录,故障排除后事故发生原因的调查,后续改进或者预防措施的落实;
4.6用户按要求途径报告事故/故障(IT故障申请单)。
5.系统管理员的职责和权限
系统管理人员包括网络管理员、服务器管理员、数据库管理员和客户端管理员。
5.1网络管理员
1)提供网络运行保障,确保网络系统的稳定与正常运转,及时解决网络故障;
2)负责网络系统的管理和维护,确保高效、可靠地管理网络资源;
3)负责对网络设备操作系统和配置信息进行备份及恢复;
4)负责或协助服务提供商进行网络设备的调试和安装;
5)负责或参与网络工程的设计和网络设备的选型。
5.2系统管理员
1)负责安装和配置服务器操作系统及其它相关软件;
2)负责监控并优化服务器系统资源的使用;
3)负责计划和实施服务器系统备份及恢复方案;
4)负责服务器操作系统及程序的升级;
5)负责服务器系统用户和安全管理;
6)负责为服务器操作系统打补丁;
7)负责或协助供应商进行服务器硬件管理和故障诊断。
5.3数据库管理员
1)负责确定数据库的信息内容和结构,并可操作数据库;
2)负责制定数据库的存储结构和存取策略;
3)负责定义数据的安全性要求和完整性约束条件;
4)负责监控数据库的使用和运行,分析数据库的性能并进行问题诊断;
5)负责数据库的改进和重组重构;
6)负责数据库的安全与日常维护,制定并实施数据库系统的备份和恢复方案。
5.4客户端管理员
1)负责客户端用户(网络终端结点的用户)设备的维护;
2)负责客户端用户的安全管理、软件维护和设备的配置及环境管理等。
6.内容
6.1异常情况和紧急事件一般处理流程和响应机制
1)员工发现网络设备、服务器设备相关的异常情况和紧急事件,直接联系IT相关经理。
同时,对网络设备、服务器设备均有监控系统对其工作状态进行监控,一旦发生服务不可用事件,监控系统会及时监测并就异常情况报警;
2)对于员工电脑或信息系统使用问题,通过提交IT故障申请单或通过拨打IT热线3155、3565、3576电话向ITHelpdesk进行报修故障,ITHelpdesk人员会根据故障现象直接处理问题,或指派专人进行处理;
3)对异常情况和紧急事件应进行分类和记录,应在事后对事件进行分析和汇报。
6.2常见异常情况的安全控制措施
6.2.1电力故障应急方案
1)在非正常工作时间,任何人发现电力系统出现异常,有义务及时通知厂务部和安保。
厂务部和安保部负责马上联系IT部员工说明情况;
2)电力系统出现故障,厂务部安排人员负责检查处理电路故障,同时向IT部提供估计停电持续时间和恢复时间;
3)IT部为机房配备UPS(不间断电源)并定期对UPS进行充放电测试;
4)发生电力系统异常后,在UPS第一次报警后(估计还能维持半个小时),电话通知正在使用业务系统的keyuser后,开始关闭服务器和网络设备,以防止UPS耗光损坏计算机设备;
5)IT部跟踪停电详细情况及处理情况,并做好记录,上报给公司安全管理责任负责人。
6.2.2火灾应急方案
1)在机房门口(里外各一个)部署专用气体灭火器(二氧化碳灭火器);
2)当出现火情、火灾时,任何人员都应保持镇静,应及时采用一些简单可行的方法作初步处理,如:
使用灭火器、水源、或采用一些灭火措施、手段。
如果火情危机机房或在机房发生,必须使用机房专用气体灭火器(二氧化碳灭火器);
3)在对火情、火灾进行初步处理的同时,应在最短时间内通知设施部EHS和保安部;
4)若火情较严重时应迅速打电话报警,同时注意个人人身安全。
在判断到火情失控情况下,应马上撤离火灾现场到安全的区域;
5)IT部了解火灾情况并做好详细记录,上报给公司安全责任负责人;
6)机房均为电器设备,应定期检查这些设备,减少由于电器故障引发火灾。
6.2.3网络系统瘫痪应急处理方案
1)发现网络故障,立即通知网络管理员;
2)网络管理员检查网络情况,初步确定故障原因;
3)如网络设备发生严重故障,导致网络无法正常运转,应立即通知相关人员或设备供应商,同时启用网络备用设备;
4)如果是线路故障,应立即启用备用线路;
5)如果是网络协议或设备配置故障,应联系供应商及外部技术支持进行诊断,及时确定故障原因并排除故障。
6.2.4病毒应急方案
1)在计算机发生病毒感染情况时应立即拔掉网线,并立即通知网络管理员和安全管理员,对受感染计算机上的病毒进行分析和处理;
2)如果服务器被病毒感染,立即停止服务器的程序和服务,防止病毒进一步扩散。
如发现对网络性能或其他应用运行造成影响,应及时拔掉网线后进行处理;
3)使用最新的病毒引擎和病毒库,查杀受感染服务器上的病毒,同时查杀受感染服务器管理的计算机上的病毒;
4)从防病毒中心控制台检查确保所有公司电脑已经更新到最新的病毒引擎和病毒库,防止再次感染相同病毒;
5)如果病毒将系统破坏,导致系统无法恢复,应将受感染计算机上的数据备份到其它存储介质,确保数据不会丢失。
对备份的数据也要进行病毒检测,防止病毒再次感染其它计算机;
6)应记录整个事件的分析和处理过程,并形成报告向信息安全负责人汇报。
6.2.5资料备份应急方案
1)发现数据丢失,首先记录故障时间和相关信息,报至IT相关业务部门经理;
2)IT部分析故障原因,并采取相关措施;
i.如果是硬件错误,马上启用备用硬件或联系硬件厂商提供服务。
如果是硬盘数据丢失,首先尽力采取措施修复并恢复数据,确实无法挽救数据后,作废弃处理。
ii.根据记录,找出距发生故障时点最近的备份,恢复最近时间的备份数据,尽可能降低风险。
iii.IT部做好处理灾难恢复记录。
3)IT部只负责保存在文件服务器的用户数据,不承担个人计算机和个人备份介质上的数据安全责任。
7.故障上报方式和故障升级
7.1涉及适用范围内的所有事故或故障采取先上报后处理的原则,各级人员应严格如下规定在规定时间内向相应管理层上报处理情况。
(日常应用业务系统维护除外,该故障升级主要范围指影响全局用户使用业务系统时发生的故障)
可参考以下表格方式(可根据故障事件的实际发生情况判定)
事故/故障类别
上报时限
上报方式
上报对象
上报/通报对象
事件升级时限
一般事故
任意方式
IT部员工
IT相关经理
根据具体事件处
中等事故
30分钟
IT相关经理/总监
8小时
重大事故
15分钟
IT相关经理/
注:
表中“上报时限”列中规定的时间均为从发现事故时刻起计算,“事件升级时限”按照上报时间起计算。
7.2对有应急处理预案的事故或故障,相关IT人员应严格按照应急预案处理。
7.3事件上报后,超过事件升级时限,此次事件将自动升级,并进入相应的事件通报和处理流程。
7.4紧急支持联系方式
IT服务热线:
3155、3576、3565
直接电话联系相关IT经理或者任何一位IT部员工。
可参考以下流程导向,进行中等及以上的故障事件处理流程
8.应急措施与行动计划
8.1关键IT系统管理责任人没有在第一时间内到达现场的情况下的处理流程:
1)联系系统管理员,得到针对此次紧急事件处理的建议;
2)根据紧急事件的具体情况,选择相应的操作步骤。
主要包括如下3种情况的处理方法:
Ø
因具体情况,需要立即停止应用服务或环境,必须立即关闭系统服务或电源的情况;
紧急关闭电源后,需要重新开机的情况;
因电源、网络故障或其他未知的故障,造成ERP、MES的操作系统无法运行,需要尽快恢复关键的IT系统运行;
3)在执行过程中,尽量记录屏幕上所显示的信息提示(特别是错误或警告的信息);
4)处理之后,将此紧急事件处理过程、错误信息记录发送给系统管理员;
5)系统管理员按照事件级别分别分类(红、黄、蓝)通报相关人员:
紧急级别:
红
第一时间内通知应用业务的相关IT经理,另外根据整个故障的影响程度,通知相关范围的人员,比如关键IT系统的用户(例如财务、生产和HR部门),或者全公司;
黄
及时与业务应用的相关IT经理联系,并对处理过程做详细记录。
将整个故障的情况记录总结,并邮件发送其IT经理;
蓝
对发生的问题,做详细记录。
之后将整个故障的处理过程,整理后存档;
如果处理应急情况中,需要重新启动ERP、MES的服务或者其它原因,导致关键IT系统或者数据库不可用的情况,需要发邮件告知相关系统的使用人员;
8.2系统管理员的处理流程:
1)如果系统管理员在场、或者能够及时到达现场,由其负责处理此紧急情况,并同时记录整个执行过程系的警告和错误;
2)按照事件级别分类的关键IT系统紧急事件,邮件通知相关人员;
9.需要启动的其它紧急管理计划
9.1如果在公司业务应用需要很快恢复系统的时期发生硬件故障,请紧急联系DELL或HP的售后服务工程师,在最短的时间内更换硬件;
9.2如果是软件故障,可以通过恢复操作系统和数据库的办法尽快使系统可用,参考《数据备份流程》。
10.紧急计划的终止
10.1查明此次故障发生的原因,解决并采取相关预防措施后才能算本次处理完全完成;
10.2故障处理完毕后,需要填写《信息系统故障表》。
11.中等故障以上事件处理完成通报和事后总结
11.1IT工程师在处理完成后应立即向相关业务IT经理、总监通报情况,内容包括事故/故障发生时间和内容、各级上报时间、上报人、上报/通报对象、事故处理方式等;
11.2IT相关经理和总监在上报工作完成后应及时组织事故分析会(内容包括:
追查事故原因、检讨和总结处理过程、研究可采取的预防改进措施),并负责推动总结出的预防改进措施的落实;
11.3IT相关经理(每季度)汇总较大以上的故障/事故汇总报告给IT总监;
11.4中等以上的事故处理过程及相关分析总结需填写《IT事故处理及分析报告》存档;
11.5对IT事故/故障分类分级管理,一般故障可不记录故障处理办法。
12.证据保存方式和内容
12.1中等级以上故障书面或邮件描述并签字、回复邮件存档保存;
13.维护与解释
本规定由IT部每年复审一次,根据复审结果进行修订并颁布执行。
本规定的解释权归IT部。
本规定自发布之日起生效,凡有与该规定冲突的,以此规定为准。
14.附件
《IT事故处理及分析报告》(但不局限于此模板)
IT故障处理总流程