系统运维管理IT基础设施运维管理规范Word文档格式.docx
《系统运维管理IT基础设施运维管理规范Word文档格式.docx》由会员分享,可在线阅读,更多相关《系统运维管理IT基础设施运维管理规范Word文档格式.docx(8页珍藏版)》请在冰豆网上搜索。
2009风险管理原则和指南(Riskmanagement--Principlesandguidelines)
◆JR-T0060—2010金融信息系统安全等级保护基本要求
◆JR/T0074-2012金融IT服务管理基本规范
◆中国金融标准化报告(2011)
4.本文术语,定义和缩略语
1、IT:
InformationTechnology信息技术
2、DNS:
DomainNameService域名服务
3、DHCP:
DynamicHostConfigurationProtocol动态主机配置协议
4、VPN:
VirtualPrivateNetwork虚拟专用网
5、OA:
OfficeAutomation办公自动化系统
6、ISO:
InternationalOrganizationforStandardization国际标准化组织
编订日期:
批准日期:
生效日期:
7、故障:
IT设备或系统丧失规定的功能,导致服务中断或降质,或对正常运行造成潜在威胁。
8、异常:
IT设备或系统的状态发生超出预期的变化或性能指标参数超出正常范围,有可能引发或已经引发故障,需要引起运维人员关注或处理。
9、资料:
IT设备或系统的运行记录,包括IT设备或系统的配置、故障历史记录、软硬件扩容或调整记录、权限变更申请记录等。
10、运行维护:
本规范中的运行维护包括IT基础设施维护、IT应用系统运维维护、安全管理、网络接入、内容信息以及综合管理等。
5.基本要求
运维管理原则
公司按集中与分散相结合的原则,设立机房、各部门配备电脑。
计算机系统本着“总体规划、分步建设”的方式实施建立。
计算机系统建设应综合考虑成本、费用、效率、效果、先进性及适用性,选择最优技术、经济方案。
制度和流程管理
运维管理制度应包括但不限于机房管理、网络与系统管理、数据和介质管理、配置管理、安全管理、监控管理、文档管理、设备和软件管理、供应商管理等制度。
运维操作流程应包括但不限于日常操作、事件处理、问题处理、系统变更、应急处置等流程。
文档管理
对运维过程中涉及的各类文档进行管理,可按照制度文档、技术文档、合同文档、审批记录、日志记录等进行分类,并妥善保存。
对文档的版本应当进行控制。
文档在使用时应能读取、使用较新版本,防止作废文件的逾期使用。
设备和软件管理
建立计算机相关设备和软件管理制度,对设备和软件的使用、安装、维修(升级)等进行规范。
明确设备和软件管理责任人。
对设备进行标识,标识应放在设备明显位置。
规定设备和软件的使用年限,定期进行盘点,并对设备状态进行评估和更新。
对外送设备的维修进行严格管理,防止数据泄露。
对拟下线和拟报废设备的存储介质中的全部信息进行清除或销毁。
对正式下线设备和软件交指定部门统一管理、保存或处置,并保留相应记录。
设备和软件报废应符合公司现行资产管理规定。
供应商管理
对供应商支持运维服务的相关活动进行统一管理。
在与供应商签订的合同中明确其应承担的责任、义务,并约定服务要求和范围等内容。
应定期收集、更新供应商信息,组织对供应商的服务质量、履约情况、人员工作情况等内容进行评价,并跟踪和记录供应商改进情况。
加强运维外包服务管理,主要包括:
a)明确外包公司应当承担的责任及追究方式;
b)明确界定外包人员的工作职责、活动范围、操作权限;
c)对外包人员工作情况进行监督和检查,并留存相应记录;
d)对驻场外包人员的入场和离场进行管理;
e)定期评估外包的服务质量;
f)制定外包服务意外终止的应急措施。
督促检查
定期检查审计,对运维制度的执行情况和运维工作开展情况定期进行检查和审计,以督促运维工作持续改进。
指定人员负责对日常操作执行情况进行检查,确保运维管理制度和操作流程的有效执行。
对检查和审计结果采取纠正、预防措施。
6.运行维护
日常操作及监控分析
未经许可,任何人不得随便使用电脑及相关设备。
不得更换电脑硬件和软件,拒绝使用来历不明的软件和移动设备。
电脑发生故障时,使用者作简易处理仍不能排除的,应立即报告IT,非专业管理人员不得擅自拆开机箱或调换设备配件。
计算机及其相关设备的报废需经过IT部门或专职人员鉴定,确认不符合使用要求后方可申请报废。
运维应采取各种监控措施,配备视频、语音、系统监控和报警工具,对影响信息系统正常运行的关键对象,包括机房环境、网络、通信线路、主机、存储、数据库、核心交易业务相关的应用系统、安全设备等进行监控。
主要监控指标具体如下:
a)机房:
电力状态、空调运行状态、消防设施状态、温湿度、漏水、人员及设备进出等;
b)网络与通信:
设备运行状态、中央处理器使用率、通信连接状态、网络流量、核心节点间网络
延时、丢包率等;
c)主机:
设备运行状态、中央处理器使用率、内存利用率、磁盘空间利用率、通信端口状态等;
d)存储:
设备运行状态、数据交换延时、存储电池状态等;
e)安全设备:
设备运行状态、中央处理器使用率、内存利用率、端口状态、数据流量、并发连接数、安全事件记录情况等;
数据与介质管理
配合数据应用部,对核心业务数据进行周备份,并每季度进行恢复性测试。
对设备和人员出入进行管理。
进入机房应限制和监控其活动范围,并有专人陪同;
未经批准不得接入生产环境。
机房管理
对机房环境、供电、空调、消防、安防等基础设施的运行维护、设备和人员出入、机房工作人员等进行规范管理。
应指定机房管理负责人。
确保机房环境整洁和安全,包括:
a)应定期检查防水、防雷、防火、防潮、防尘、防鼠、防静电等措施的有效性;
b)应保持机房环境卫生,设备摆放合理,归类;
c)不得随意出入机房。
d)未经审批不得接入其它用电设备。
网络管理
确保网络、系统的正常运行。
网络管理应包括:
a)绘制网络拓扑图,并保持更新;
b)应保持网络设备的可用性,及时维修、更换故障设备;
c)应负责网络系统的参数配置、调优;
d)应定期对系统容量进行检查和评估;
e)应定期检查网络设备的用户、口令及权限设置的正确性;
f)应定期对整个网络连接进行检查,确保所有交换机端口处于受控状态;
g)应对网络信息点进行管理,编制信息点使用表,并及时维护和更新,确保与实际情况一致。
计
算机网络跳线应整齐干净,跳线标识清晰;
h)应制定网络访问控制策略,应合理设置网络隔离设施上的访问控制列表,关闭与业务无关的端口;
编制文档并保持更新;
访问控制策略的变更应履行审批手续。
权限管理应包括如下要求:
a)权限分配应履行审批手续,权限设置后应复核;
b)应按照最小安全访问原则分配用户权限;
c)应在用户账户变化时,同时变更或撤销其权限;
d)应定期检查权限设置的有效性。
弱电管理
严格按图纸施工,在保证系统功能质量的前提下,提高工艺标准要求,确保施工质量。
质量检查制度,现场管理人员将定期进行质量检查并贯穿到整个施工过程中。
统运行验收:
当设备安装完毕并调试运行无误后,由公司派现场调试人员进行系统联调,并向上级汇报调试结果。
运维对弱电设备的综合管理,包括技术资料、档案的收集。
同时,每月一次对弱电设备运行状况进行检查,并及时处理汇报问题。
桌面维护
日常数据注意事项:
a.个人文件(Excel、Word、PDF等)建议员工不要存放在系统盘(通常为C盘),可以存放在其它盘符。
b.工程师可通过多种方式或途径来告知员工如何进行日常文件的备份,如:
口述、邮件、培训等。
c.未经许可,禁止使用U盘,移动硬盘,手机或其它外设,如:
网盘、邮箱等,盗取公司内部文件。
重装系统前注意事项:
a.询问用户有哪些相关数据需要备份,如桌面、我的文档、收藏夹、邮件等。
b.用户Email的备份:
如客户端为Outlook则导出相关OST或PST文件;
硬件损坏需更换或维修时,运维人员进行测试,明确是否真实异常,不可随意更换。
关于账号、权限、密码
a.必须严格按照公司制定的IT策略进行管理,不可私自制定规范。
b.禁止私自把个人管理员权限借给他人或告知他人。
c.禁止为他人开设规定以外的权限,如:
本地管理员、其他部门目录访问权限、上网权限、电话权限等。
d.更改任何类型用户权限时需得到相关审批层级确认才可执行。
e.如电脑无特殊应用需求,则一律为“user”普通权限。
f.人员离职时,总部和分部应及时通过OA确认,删除离职人员的相关账号与信息。
g.妥善保管自己所知的密码。
服务器及系统变更
不得在服务器上使用带有病毒和木马的软件、光盘和可移动存贮设备,使用上述设备前一定要先做好病毒检测;
不得利用服务器从事工作以外的事情,无工作需要不得擅自拆卸服务器零部件,严禁更换服务器配套设备。
不得擅自删除、移动、更改服务器数据;
不得故意破坏服务器系统;
不得擅自修改服务器系统时间。
使用空闲主机,对服务器系统补丁进行升级测试,运行平稳后,各服务器升级安装补丁,弥补系统漏洞;
为服务器系统做好病毒及木马的实时监测,及时升级病毒库。
管理员对管理员账户与口令严格保密、重要数据库,网站,APP等服务器由研发配合定期修改密码,以保证系统安全,防止对系统的非法入侵。
任何无关人员不得擅自进入主机房,需要进入的须征得服务器管理人员同意。
应注意保护机房内的设备和物品,未经允许的非管理人员不得擅自操作机房内设备。
严禁携带易燃易爆和强磁物品及其它与机房工作无关的物品进入机房,机房内严禁吸咽。
除管理员外,任何人不得随意改动服务器内系统及环境配置。
除系统管理员或授权参加系统管理的人员外,任何用户不得以任何方式获取(或企图获取)超级用户权限。
配置管理
明确配置管理负责人。
建立配置文档库,对服务器、存储、网络、安全设备,操作系统、应用软件、数据库等进行管理。
定期对配置进行备份及文档库归类。
及时检查并定期审计,对发现的不一致情况及时纠正修改。
事件与问题管理
对运维事件的处理进行规范,对发生的所有事件,根据事件的影响程度和影响范围评估事件处理优先级并及时处理。
对所有事件响应、处理、结束等过程进行跟踪、监督及检查。
对问题进行分析、提出解决方案,通过变更管理审批后部署实施。
7.应急管理
应急准备
明确网络、系统等事件的应急指挥决策机制,负责网络与系统事件的预防预警、应急处置、报告和调查处理工作。
网络与系统应急管理应遵循“谁主管谁负责、谁运行谁负责”、“统一指挥、