高可用性集群解决方案HA.docx
《高可用性集群解决方案HA.docx》由会员分享,可在线阅读,更多相关《高可用性集群解决方案HA.docx(16页珍藏版)》请在冰豆网上搜索。
高可用性集群解决方案HA
1.业务连续
1.1.共享存储集群
业务系统运营时,服务器、网络、应用等故障将导致业务系统无法正常对外提供业务,造成业务中断,将会给企业带来无法估量的损失。
针对业务系统面临的运营风险,Rose提供了基于共享存储的高可用解决方案,当服务器、网络、应用发生故障时,Rose可以自动快速将业务系统切换到集群备机运行,保证整个业务系统的对外正常服务,为业务系统提供7x24连续运营的强大保障。
1.1.1.适用场景
基于共享磁盘阵列的高可用集群,以保障业务系统连续运营
硬件结构:
2台主机、1台磁盘阵列
1.1.2.案例分析
深圳某证券公司案例
客户需求分析
某证券公司在全国100多个城市和地区共设有40多个分公司、100多个营业部。
经营范围涵盖:
证券经纪,证券投资咨询,与证券交易、证券投资活动有关的财务顾问,证券承销与保荐,证券自营,证券资产管理,融资融券,证券投资基金代销,金融产品代销,为期货公司提供中间介绍业务,证券投资基金托管,股票期权做市。
该证券公司的邮件系统承担着企业的内部沟通、关键信息的传达等重要角色,随着企业的业务发展,邮件系统的压力越来越重。
由于邮件服务器为单机运行,如果发生意外宕机,将会给企业的日常工作带来不便,甚至给企业带来重大损失。
因此,急需对邮件服务器实现高可用保护,保障邮件服务器的7×24小时连续运营。
解决方案
经过实际的需求调研,结合客户实际应用环境,推荐采用共享存储的热备集群方案。
部署热备集群前的单机环境:
邮件业务系统,后台数据库为MySQL,操作系统为RedHat6,数据存储于磁盘阵列。
在单机单柜的基础上,增加1台备用主机,即可构建基于共享存储的热备集群。
增加1台物理服务器作为邮件服务器的备机,并在备机部署邮件系统,通过Rose共享存储热备集群产品,实现对邮件应用的高可用保护。
如主机上运行的邮件系统出现异常故障导致宕机,比如应用服务异常、硬件设备故障,Rose将实时监测该故障,并自动将邮件系统切换至备用主机,以保障邮件系统的连续运营。
系统特点
⏹业务连续运营
实时监测邮件服务运行状态,如出现软、硬件故障,自动将邮件系统切换至备用主机,以保障邮件系统连续运营。
⏹容错结构
基于共享存储的热备集群,由2台服务器、1台磁盘阵列构成,服务器、磁盘阵列等硬件设备容错,解决单点故障。
⏹监控应用和系统资源
实时监测应用服务运行状态,并支持深度监控CPU/内存资源使用率,可进行智能预警和策略切换。
⏹充分利用现有资源
可利用现有软、硬件资源,轻松构建热备集群方案,避免重复投资。
⏹简化运维
Rose提供友好的图形化界面,用户可以远程管理热备集群,并监管集群工作状态。
提供多种事件告警方式,比如在线状态、在线日志、短信、邮件等,方便用户进行日常管理,从而简化运维工作,降低运维难度。
1.2.数据镜像集群
随着服务器硬件及软件的发展,服务器的性能、内部存储容量以及网络传输能力等都有了大幅度地提升,服务器在应对主流业务方面提供了更加强大的能力。
传统高可用性系统中必须通过共享存储来实现数据的一致性和连续性,这个特性无形中增加了可用性系统的成本。
Rose基于以太网络TCP/IP协议,通过数据实时镜像技术,在两台主机之间实现不需要共享存储的纯软高可用系统。
如此灵活的双机高可用系统配置方式,用户可以在充分利用已有资源的基础上,根据自己的实际硬件环境来选择。
该解决方案采用HA技术对主机的IP、应用程序、数据存取等进行监控和保护。
当应用程序或主机发生故障后,Rose将自动、快速地切换应用到备机,保障应用服务的连续运营。
1.2.1.适用场景
基于主机的数据镜像高可用集群,以保障业务系统连续运营。
硬件结构:
2台主机
1.2.2.案例分析
某百货公司是一家香港联交所主板挂牌上市公司,并控股多家A股上市公司。
经过十余年长足发展,该公司年销售额近100亿元,居中国百货零售业前列,目前在全国华南、西南、华北、华东区域20个城市共拥有40多家门店。
项目背景及需求
该百货公司每个门店销售管理系统均由运行在RedHat5.4平台上前端管理应用服务和Sybase数据库服务构成,其中Sybase数据库服务作为前端销售管理应用服务的核心后台数据库,无疑是系统中最为重要的一个环节。
项目实施前,客户后台Sybase数据库均运行在单机系统上。
项目实施目标:
为该公司旗下所有的门市销售管理系统,提供保障业务连续运营不间断的基础环境,实现各个门市销售管理系统持续不间断运营,为提高各个门市销售效率,同时,减小全公司系统管理人力和财力成本。
解决方案
作为整个方案的重点,门市销售管理系统的核心后台Sybase数据库,需要能够连续不间断运营来确保整个系统的可用性。
通过慎重方案筛选及客户现有资源等因素综合考虑,Rose公司推荐其采用基于数据镜像的业务连续性产品,将该公司旗下某市城区的八个客流量较大的商场销售管理系统后台Sybase数据库组成镜像热备方案保护业务连续工作。
总体架构描述
因各商场硬件平台不同,有些商场硬件配置增加1台服务器作为Sybase数据库备机,有些商场利用前端应用服务器作为Sybase数据库备机,充分运用硬件资源,在软硬件环境准备就绪后,通过Rose解决方案搭建基于数据镜像的热备集群。
实现过程
以某一个门店为例作详细说明。
正常情况下,2台服务器中的1台服务器作为Sybase主机,通过活动IP对外提供服务,主机产生的数据会直接写入主机的本地磁盘,同时通过Rose解决方案,将实时捕获到的变动数据,通过网络实时传输到备机,从而保证两台服务器数据的一致性。
在此基础上,如果主机出现故障(服务器宕机,应用系统故障,网络故障等情况),导致所保护的应用程序无法继续对外提供服务,主机会在保证数据一致性前提下,通过Rose解决方案将Sybase数据库切换到备机运行,继续对外提供服务,确保生产管理系统持续运营工作。
系统特点
⏹业务连续运营
实时监测Sybase数据库运行状态,如出现软、硬件故障,自动将数据库服务切换至备用主机,以保障数据库系统的连续运营。
⏹数据实时复制
应用在线的数据实时复制,保障主、备机的数据一致性。
并支持计划快照任务,可定期为数据创建快照记录,进一步保障数据安全。
⏹多种监控方式
实时监测应用服务运行状态,并支持深度监控CPU/内存资源使用率,可进行智能预警和策略切换。
⏹架构灵活
无需磁盘阵列设备,即可构建热备集群,方案架构灵活。
可充分利用现有软、硬件资源,轻松构建热备集群方案,避免重复投资。
⏹简化运维
Rose提供友好的图形化界面,用户可以远程管理热备集群,并监管集群工作状态。
提供多种事件告警方式,比如在线状态、在线日志、短信、邮件等,方便用户进行日常管理,从而简化运维工作,降低运维难度。
2.灾备恢复
2.1.远程容灾
随着IT行业的发展,用户核心系统重要性逐渐凸显,为了应对核心系统的可靠性,用户纷纷开始构建自己的容灾系统,实现核心系统的远程容灾保护。
Rose针对用户的需求提供远程容灾方案,一旦生产中心发生灾难事故,可以把核心系统快速转移到容灾系统上继续运营,达到RPO≈0、RTO=分钟级的远程容灾级别。
2.1.1.适用场景
用户根据系统环境、网络环境,结合容灾需求等情况,构建远程容灾方案。
在不改变用户现有架构的情况下,适用于本地及远程的应用系统和核心数据的容灾备份场景。
2.1.2.案例分析
客户为华东地区某市的一个天然气供应商,是该市工业园区城市燃气基础设施投资、建设、管理和运营的主体,每天为10多万户家庭和超过1000家企事业单位提供洁净天然气。
项目背景及需求
客户在总部部署有多套业务系统,包括OA、ERP、数据采集SCADA、燃气客户管理系统等,分别部署在多台服务器上,考虑到各种突发事件可能导致的业务中断及数据丢失,客户计划在距离总部10公里地方部署容灾机房,将相关业务系统通过容灾机房服务器保护,达到数据和应用的冗余保护。
项目实施目标
为企业相关核心系统实现异地的数据+应用容灾保护,在本地机房出现故障时,能够在容灾机房快速启用相关服务,保持业务系统对外连续、稳定运行。
解决方案
推荐采用基于数据容灾的旗舰产品—RoseReplicator,部署企业核心系统的异地数据+应用保护方案。
⏹总体架构描述
通过和客户沟通,计划在容灾机房通过一台高性能服务器,采用VMwareESXi虚拟化方式,虚拟出多个虚拟机,分别对应多台生产服务器,通RoseReplicator部署多个1to1的数据+应用保护模式来保护不同的应用程序。
网络层面,客户在两地通过运营商专网实现100M带宽通信,确保数据传输稳定性。
⏹实现过程
以管理系统为例:
容灾机房的虚拟机保持和原生产服务器相同操作系统,应用程序和数据库部署方式保持一致,通过RoseReplicator搭建1-1数据保护模式,将管理系统生产服务器的数据实时复制到容灾服务器上,确保两台机器数据一致性。
当主服务器出现故障时,可通过备用服务器快速恢复业务系统;当本地机房完全瘫痪时,可通过容灾机房公网IP将服务映射出去,对外提供服务;当本地服务器恢复后,可通过恢复向导将数据快速恢复至生产服务器,继续通过生产服务器对外提供服务。
⏹解决方案示意图
⏹方案效果
核心数据的异地容灾备份
核心应用系统的容灾切换
多种数据删除模式避免误删除
灵活的网络带宽限制策略
远程集中统一管理
方案总结
通过虚拟化平台下搭建容灾方案,为客户节省不少硬件投入,满足客户数据异地保护需求。
2.2.云容灾
越来越多的用户计划将其业务系统或数据迁移至云。
业务和数据迁移至云端,业务系统的运营和数据将完全托管于云服务商,而如何对云端的业务系统和数据进行有效控制和容灾保护,也是用户将业务迁移至云需考虑的一个重要环节。
结合云平台,常见的容灾模式有如下几种:
本地至云
将生产中心的数据和业务实时灾备至云端,如生产中心出现事故,可迅速利用云端的容灾系统及时接管业务。
云至本地
用户将业务迁移至云端,可将云端的业务数据实时灾备至用户本地机房,可有效控制业务和数据安全。
不同区域的云之间
不同区域的云之间,构建数据和业务灾备,最大化保障业务系统和数据的安全。
2.2.1.适用场景
本地至云,云至本地,不同区域的云之间,构建云容灾方案
2.2.2.案例分析
某公司是全球最大的中央处理器散热风扇(CPUCooler)供应厂商,为深圳高新技术企业。
公司主要生产制造散热片(HeatSink)、风扇(DCFan)、导热管(HeatPipe)等。
在工厂生产流水线作业平台信息化建设过程中,需对核心MES业务系统构建容灾保护,以保障MES系统能够抵御灾难事故。
容灾方案部署前,MES系统数据库已迁移至微软云,并使用云端高可用技术实现业务系统的连续性保护,、、武汉等分公司均通过VPN网络访问云端数据库。
用户希望将微软云端的MES系统数据灾备至自建机房,以加强数据的管控和构建数据容灾保护。
解决方案
经过调研用户需求,结合现有架构,提供了“公有云至本地机房”的容灾方案。
如下图所示,在深圳厂区的自建机房中,部署数据容灾主机。
Rose将微软云中MES系统数据实时灾备至深圳容灾主机,如微软云中出现意外风险,用户可利用深圳容灾主机的灾备数据快速恢复MES业务;以尽量降低灾难事故带来的损失。
系统特点
⏹公有云容灾
将公有云端MES系统数据实时灾备至用户自建机房,实现公有云的远程容灾,进一步提升数据灾备级别,并且方便用户对业务数据进行有效的安全控制。
⏹实时复制数据
时复制数据,高级别保护数据,提供RPO≈0的数据保护级别。
⏹网络流量控制
支持计划