城商行核心存储系统升级改造和统一存储监控实现实践分享Word下载.docx
《城商行核心存储系统升级改造和统一存储监控实现实践分享Word下载.docx》由会员分享,可在线阅读,更多相关《城商行核心存储系统升级改造和统一存储监控实现实践分享Word下载.docx(9页珍藏版)》请在冰豆网上搜索。
Oracle数据库、操作系统、双活架构、云计算。
一、项目背景
近年来双模IT已经从预测变为了现实,以大数据、人工智能为代表的新型技术的涌现,给金融科技注入新鲜活力的,吸引了大部分行业同仁的目光。
传统金融IT架构以稳态为主,随着利率市场化的经济政策成为国内金融环境的基调,FinTech时代已经伴随着IT技术的飞速发展骤然而来,各类新技术在特定业务场景下的应用不断推陈出新,必将大幅提升金融服务品质,并助力金融行业实现新的利润增长点,真正发挥“科技引领”的作用。
但是,敏态系统是以数据为基本原料的,敏态业务的发展,带来了更多的数据调用和交互,银行内最为关键、调用最为频繁的数据,还是核心业务系统的数据,承载核心系统的传统稳态IT,也面临快速增长的数据访问压力。
保障核心系统的稳健,不仅关系到传统业务的顺利开展、关系到监管要求的顺利达标,更是为新兴的敏态系统及时获取数据提供基础架构的支撑。
根据人民银行《关于进一步加强和完善地方性银行业金融机构灾难备份体系建设的指导意见》中“最小必须业务集系统”同城应用级灾备规范的要求,我行多年前就构建了同城双活异地容灾的“两地三中心”容灾架构。
同城两个数据中心分别在我行攀枝花总部机房和中国联通公司攀枝花分公司仁和机房,其中,我行攀枝花总部机房为主生产中心,联通机房作为我行同城应急灾备数据中心。
同城两个数据中心,通过波分实现两个数据中心网络互通,通过EMCVPLEXVS2存储虚拟化双活网关实现了生产中心多套存储设备和同城灾备中心多套存储设备之间的数据双活。
同城两份数据实时同步,故障时自动切换,实现了物理故障的RPO=0和RTO≈0。
通过EMCRecoverPoint实现生产中心核心数据的本地连续数据保护(为减少对生产系统影响,采用异步拆分策略,逻辑错误RPO≈0),再通过EMCRecoverPoint的CRR异地复制功能实现与异地灾备中心数据同步(RPO<
10分钟)。
设备更新前,我行存储设备多为中端存储,主要包括EMCVNX、Unit系列存储和VPLEX存储虚拟化双活网关。
其中VNX系列存储和VPLEX均已上线运行6年以上,数据处理能力已经出现明显瓶颈,主要表现在CPU利用率长期处于较高水平,数据访问延迟明显增大。
同时,电子设备进入生命周期尾声后,硬件故障特别是硬盘的故障率开始上升,对业务的健康稳定运行构成了威胁。
本项目目标:
1、基于VMAX250F、VPLEXVS6部署双活存储;
2、迁移现有中端存储数据至VMAX250F;
3、构建我行开源监控平台,实现存储等资源的集中监控。
二、数据中心核心存储架构选型
数据中心核心存储阵列承载着行里最关键的数据,是整个数据中心的命脉。
如果设计数据中心核心存储架构有五条经验,那么,第一是稳定、第二是稳定、第三还是稳定。
这里稳定重复三遍,并不是重要的事情说三次那么简单,而是我们认为确实至少有三个方面的保障才能保证稳定。
第一个稳定,是架构稳定。
这个架构,有两个数据中心的设计问题,保证两份数据实施同步,保证故障自动切换。
但是最好的情况是设备稳定,不要去切换。
也就是单台设备,最好是也是稳定可靠的。
通过多年使用中端存储的经验,我们认为最考验单台设备稳定可靠的时候,就是设备微码升级的时候。
目前,中端存储微码升级基本都是控制器离线升级,也就是每次升级的时候有一段时间是单控制器运行的,此时所有访问都在一个控制器,虽然每次都是在业务量最小的时候升级,但是心里的忐忑总是难免的。
随着7x24小时业务增多,我们能够选择的忐忑时间越来越少了。
与之比较,业界经典的高端存储,是控制器在线升级,可以保证微码升级过程中的设备冗余性和性能波动,最大限度减少风险。
第二个稳定,是经过广泛验证的稳定。
现在描述设备稳定性的术语有很多,有一些厂家说设备可用性,有一些厂家说数据可用性。
从实际角度来说,没有存储设备是100%可用的,因为存储设备本身就是一个软件和硬件结合的复杂产品,如果哪家说自己的产品没有BUG,那一定是假话。
有BUG其实不可怕,可怕的是不知道BUG的存在,不知道如何防范。
所以,我们认为要选则同行业案例多的产品,因为使用广泛,盯着这个产品的人就多,有问题被发现的概率就高很多,未知BUG就会少很多。
而且同行业的业务类似,同行发现的问题对我行会有很好的参照意义。
已知的、有规避办法的问题,就不是问题。
第三个稳定,是服务要稳定。
产品和方案落地靠的是人,看上去很好很美的方案因为服务不到位落到地上一塌糊涂的事情在IT行业有非常多了。
要保证服务稳定,一定要选择好服务的人,这包括了服务人员的技术水平、做事风格和同行业口碑。
经过多年的了解,我行对主要设备供应商的工程师技术水平有了基本的评估,会要求在我行认可的范围内选择工程师进行服务。
除了稳定性之外,当然要考虑性能。
好在目前全闪存阵列基本已经普及,IOPS基本都是几十万甚至上百万,延迟也都能够控制到1ms左右。
在闪存阵列领域,最常见的另外一个话题是数据精简技术,这里边涉及到数据精简配置和数据压缩重删。
坦率来说,数据精简配置我们基本是遵循尽量不用的原则,原因也比较简单,应用的数据增量有较大的不确定性,一旦给应用承诺一个很大的空间,应用开发人员突然增加大量数据导致后台容量爆仓,会引起整个存储的保护反应,写入被拒绝,造成业务中断。
数据重删和压缩目前有硬件和软件两种实现方式,两种实现方式应该说各有优劣。
在核心存储领域,我们更倾向于采用硬件办法实现的重删和压缩,因为核心存储更强调稳定性和性能,软件方式在非核心业务采用,也有不错效果。
基于以上考虑,我行最终建设采用了DELLEMC的技术方案。
具体方案为2套双引擎(4控制器)的VPLEXVS6存虚拟化网关和2套VMAX250F高端全闪存阵列。
通过将VPLEX从VS2单引擎(双控制器)升级到VS6双引擎(4控制器),提升了虚拟化双活网关的可靠性和性能,最大网关的CPU利用率从90%多降低到了30%以下。
通过将VNX替换为VMAX250F实现了底层存储阵列的升级,每台VMAX250F配置1T高速缓存,2块硬件压缩卡,开启压缩时存储底层延迟低于1ms。
从VPLEX端看到的对主机端口的响应来看,读IO的延迟在1ms以内,写IO因为需要在两个数据中心实现双写基本在2ms左右。
从日常运维中风险最大的微码升级来看,VPLEX微码升级以控制器为单位进行,因为有四个控制器,整体最高性能波动从50%降低为25%,实际测试中因为不会达到设备性能的最大值,业务层面不会有感知。
VMAX升级为在线进行,不需要停止控制器的运行,因此核心在微码升级场景新系统较原有系统有了极大提升。
同时,VPLEX和VMAX的方案可以与我行原有的RecoverPoint完美集成,不需要改动本地CDP和异地灾备系统,节省了大量异地灾备重构的时间和资金成本。
三、数据中心存储数据迁移
本次升级生产中心、同城灾备存储规划:
1、生产中心和同城灾备中心分别部署一台DELLEMCVMAX250F高端全闪存储阵列;
2、生产中心和同城灾备中心分别部署一台DELLEMCVPLEXV6存储虚拟化网关,实现多台存储阵列的虚拟化和存储双活。
图1.生产中心与同城灾备存储架构图
新购设备到货并完成初始化和简单配置后,我行计划将已经超长服役的EMCVNX系列存储和VPLEX下线淘汰,EMCVNX系列存储的数据全部迁移到VMAX250F,涉及的系统包含核心系统、现代支付系统、网银、电子银行、综合前置、短信银行等重要业务系统,主机环境包括了VMware环境、AIX环境、Oracle数据库和GPFS文件系统,同期还需要对POWERPATH多路径软件升级、部分数据分布进行调优。
DELLEMC原厂可以提供VPLEXVS2到VPLEXVS6的在线升级,然后通过VPLEX的Local方式进行数据迁移,但是此过程是以LUN为单位进行的,很难对原有LUN分布进行优化,同时VS2升级到VS6的过程时间较长。
因此,我行经过慎重考虑,选择更加灵活的蚂蚁搬家式数据迁移。
根据环境应用环境不同,从数据库、文件系统和VMware虚拟机层面进行迁移。
以下迁移均选择夜间、业务量小的时候对系统系统进行,详细迁移方法如下:
1、VMware虚拟机迁移:
登陆到vCenter,识别VPLEXVS6分配过来的LUN,创建DataStore,逐台扫描识别存储;
业务空闲时间逐个迁移业务系统虚拟机,采用StoragevMotion将数据迁移到新的DataStore上。
此种迁移方式,迁移过程中虚拟机不关机、业务不中断,保障了业务系统的高可用。
2、ORACLERAC数据库迁移,通过ASM磁盘组方式进行迁移,迁移过程中,业务系统数据库不停库,保障了数据库的高可用。
迁移步骤如下:
1)SSH登录每个数据库节点,扫描识别VPLEXVS6分配的磁盘,检查两台主机LUN的WWID一致,确保一致后将块设备转换为字符设备;
2)grid用户的登录一个节点,sqlplus/assysasm登录asm实例;
使用alterdiskgroupOCRVDISK…添加删除磁盘,并重新rebalance数据;
迁移过程中查询v$asm_operation视图查看迁移进度。
3、GPFS集群文件系统迁移,通过GPFS集群软件在线增减磁盘,迁移过程中,GPFS文件系统对业务无感知,保障业务系统持续稳定。
操作步骤如下:
1)SSH登录登录主机,扫描识别VPLEXVS6分配的磁盘,配置cfg文件,通过mmcrnsd创建nsd磁盘。
2)使用mmadddisk在GPFS文件系统中添加磁盘,添加完后mmlsdisk确认磁盘状态,确认无误后通过mmdeldisk删除EMCVNX存储对应磁盘。
4、Power小型机、非虚拟化物理服务器更新需要有停机窗口,主要是对多路径软件进行升级,同步将原有数据卷映射给VPLEXVS6做虚拟化,通过VPLEX的Local镜像功能,实现数据从原有设备到新购VMAX250F的迁移。
因为虚拟化的时间比较块就可以实现,数据迁移主要在底层进行,大部分的时间是多路径软件的大版本升级和重启时间。
实际停机窗口在1小时左右。
此次迁移完成后,拟对部分非集群部署的服务器通过中间件集群、操作系统集群、数据库集群等集群技术进行集群改造,从而提高系统可用性。
四、分布式开源集中监控的初步探索
我行之前的监控体系较为分散,从设备来说每种品牌的服务器、存储和SAN网络都有各自品牌的监控软件,从应用来说操作系统和数据库也是分开监控的,这个日常运维带来了很大不便。
为实现存储设备、存储网络、服务器、数据库等运行状况集中监控并且能在出现问题时及时解决,我行在本次设备更换中也对分布式开源集中监控进行了初步探索,经过认真地调研选择Zabbix和Grafana构建我行开源监控集中平台。
Zabbix是国外银行IT人员在运维中积累的脚本基础上发展来的的开源软件,是基于web界面的企业级开源监控软件,提供分布式系统监控与网络监视功能。
具备主机的性能监控,网络设备