高可用性集群解决方案HA.docx

上传人:b****9 文档编号:25170950 上传时间:2023-06-05 格式:DOCX 页数:20 大小:2.59MB
下载 相关 举报
高可用性集群解决方案HA.docx_第1页
第1页 / 共20页
高可用性集群解决方案HA.docx_第2页
第2页 / 共20页
高可用性集群解决方案HA.docx_第3页
第3页 / 共20页
高可用性集群解决方案HA.docx_第4页
第4页 / 共20页
高可用性集群解决方案HA.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

高可用性集群解决方案HA.docx

《高可用性集群解决方案HA.docx》由会员分享,可在线阅读,更多相关《高可用性集群解决方案HA.docx(20页珍藏版)》请在冰豆网上搜索。

高可用性集群解决方案HA.docx

高可用性集群解决方案HA

1.业务连续

1.1.共享存储集群

业务系统运营时,服务器、网络、应用等故障将导致业务系统无法正常对外提供业务,造成业务中断,将会给企业带来无法估量的损失。

针对业务系统面临的运营风险,Rose提供了基于共享存储的高可用解决方案,当服务器、网络、应用发生故障时,Rose可以自动快速将业务系统切换到集群备机运行,保证整个业务系统的对外正常服务,为业务系统提供7x24连续运营的强大保障。

1.1.1.适用场景

基于共享磁盘阵列的高可用集群,以保障业务系统连续运营

硬件结构:

2台主机、1台磁盘阵列

1.1.2.案例分析

深圳某证券公司案例

客户需求分析

某证券公司在全国100多个城市和地区共设有40多个分公司、100多个营业部。

经营范围涵盖:

证券经纪,证券投资咨询,与证券交易、证券投资活动有关的财务顾问,证券承销与保荐,证券自营,证券资产管理,融资融券,证券投资基金代销,金融产品代销,为期货公司提供中间介绍业务,证券投资基金托管,股票期权做市。

该证券公司的邮件系统承担着企业的内部沟通、关键信息的传达等重要角色,随着企业的业务发展,邮件系统的压力越来越重。

由于邮件服务器为单机运行,如果发生意外宕机,将会给企业的日常工作带来不便,甚至给企业带来重大损失。

因此,急需对邮件服务器实现高可用保护,保障邮件服务器的7×24小时连续运营。

解决方案

经过实际的需求调研,结合客户实际应用环境,推荐采用共享存储的热备集群方案。

部署热备集群前的单机环境:

邮件业务系统,后台数据库为MySQL,操作系统为RedHat6,数据存储于磁盘阵列。

在单机单柜的基础上,增加1台备用主机,即可构建基于共享存储的热备集群。

增加1台物理服务器作为邮件服务器的备机,并在备机部署邮件系统,通过Rose共享存储热备集群产品,实现对邮件应用的高可用保护。

如主机上运行的邮件系统出现异常故障导致宕机,比如应用服务异常、硬件设备故障,Rose将实时监测该故障,并自动将邮件系统切换至备用主机,以保障邮件系统的连续运营。

 

系统特点

⏹业务连续运营

实时监测邮件服务运行状态,如出现软、硬件故障,自动将邮件系统切换至备用主机,以保障邮件系统连续运营。

⏹容错结构

基于共享存储的热备集群,由2台服务器、1台磁盘阵列构成,服务器、磁盘阵列等硬件设备容错,解决单点故障。

⏹监控应用和系统资源

实时监测应用服务运行状态,并支持深度监控CPU/内存资源使用率,可进行智能预警和策略切换。

⏹充分利用现有资源

可利用现有软、硬件资源,轻松构建热备集群方案,避免重复投资。

⏹简化运维

Rose提供友好的图形化界面,用户可以远程管理热备集群,并监管集群工作状态。

提供多种事件告警方式,比如在线状态、在线日志、短信、邮件等,方便用户进行日常管理,从而简化运维工作,降低运维难度。

 

1.2.数据镜像集群

随着服务器硬件及软件的发展,服务器的性能、内部存储容量以及网络传输能力等都有了大幅度地提升,服务器在应对主流业务方面提供了更加强大的能力。

传统高可用性系统中必须通过共享存储来实现数据的一致性和连续性,这个特性无形中增加了可用性系统的成本。

Rose基于以太网络TCP/IP协议,通过数据实时镜像技术,在两台主机之间实现不需要共享存储的纯软高可用系统。

如此灵活的双机高可用系统配置方式,用户可以在充分利用已有资源的基础上,根据自己的实际硬件环境来选择。

该解决方案采用HA技术对主机的IP、应用程序、数据存取等进行监控和保护。

当应用程序或主机发生故障后,Rose将自动、快速地切换应用到备机,保障应用服务的连续运营。

1.2.1.适用场景

基于主机的数据镜像高可用集群,以保障业务系统连续运营。

硬件结构:

2台主机

1.2.2.案例分析

某百货公司是一家香港联交所主板挂牌上市公司,并控股多家A股上市公司。

经过十余年长足发展,该公司年销售额近100亿元,居中国百货零售业前列,目前在全国华南、西南、华北、华东区域20个城市共拥有40多家门店。

项目背景及需求

该百货公司每个门店销售管理系统均由运行在RedHat5.4平台上前端管理应用服务和Sybase数据库服务构成,其中Sybase数据库服务作为前端销售管理应用服务的核心后台数据库,无疑是系统中最为重要的一个环节。

项目实施前,客户后台Sybase数据库均运行在单机系统上。

项目实施目标:

为该公司旗下所有的门市销售管理系统,提供保障业务连续运营不间断的基础环境,实现各个门市销售管理系统持续不间断运营,为提高各个门市销售效率,同时,减小全公司系统管理人力和财力成本。

解决方案

作为整个方案的重点,门市销售管理系统的核心后台Sybase数据库,需要能够连续不间断运营来确保整个系统的可用性。

通过慎重方案筛选及客户现有资源等因素综合考虑,Rose公司推荐其采用基于数据镜像的业务连续性产品,将该公司旗下某市城区的八个客流量较大的商场销售管理系统后台Sybase数据库组成镜像热备方案保护业务连续工作。

总体架构描述

因各商场硬件平台不同,有些商场硬件配置增加1台服务器作为Sybase数据库备机,有些商场利用前端应用服务器作为Sybase数据库备机,充分运用硬件资源,在软硬件环境准备就绪后,通过Rose解决方案搭建基于数据镜像的热备集群。

实现过程

以某一个门店为例作详细说明。

正常情况下,2台服务器中的1台服务器作为Sybase主机,通过活动IP对外提供服务,主机产生的数据会直接写入主机的本地磁盘,同时通过Rose解决方案,将实时捕获到的变动数据,通过网络实时传输到备机,从而保证两台服务器数据的一致性。

在此基础上,如果主机出现故障(服务器宕机,应用系统故障,网络故障等情况),导致所保护的应用程序无法继续对外提供服务,主机会在保证数据一致性前提下,通过Rose解决方案将Sybase数据库切换到备机运行,继续对外提供服务,确保生产管理系统持续运营工作。

 

系统特点

⏹业务连续运营

实时监测Sybase数据库运行状态,如出现软、硬件故障,自动将数据库服务切换至备用主机,以保障数据库系统的连续运营。

⏹数据实时复制

应用在线的数据实时复制,保障主、备机的数据一致性。

并支持计划快照任务,可定期为数据创建快照记录,进一步保障数据安全。

⏹多种监控方式

实时监测应用服务运行状态,并支持深度监控CPU/内存资源使用率,可进行智能预警和策略切换。

⏹架构灵活

无需磁盘阵列设备,即可构建热备集群,方案架构灵活。

可充分利用现有软、硬件资源,轻松构建热备集群方案,避免重复投资。

⏹简化运维

Rose提供友好的图形化界面,用户可以远程管理热备集群,并监管集群工作状态。

提供多种事件告警方式,比如在线状态、在线日志、短信、邮件等,方便用户进行日常管理,从而简化运维工作,降低运维难度。

2.灾备恢复

2.1.远程容灾

随着IT行业的发展,用户核心系统重要性逐渐凸显,为了应对核心系统的可靠性,用户纷纷开始构建自己的容灾系统,实现核心系统的远程容灾保护。

Rose针对用户的需求提供远程容灾方案,一旦生产中心发生灾难事故,可以把核心系统快速转移到容灾系统上继续运营,达到RPO≈0、RTO=分钟级的远程容灾级别。

2.1.1.适用场景

用户根据系统环境、网络环境,结合容灾需求等情况,构建远程容灾方案。

在不改变用户现有架构的情况下,适用于本地及远程的应用系统和核心数据的容灾备份场景。

2.1.2.案例分析

客户为华东地区某市的一个天然气供应商,是该市工业园区城市燃气基础设施投资、建设、管理和运营的主体,每天为10多万户家庭和超过1000家企事业单位提供洁净天然气。

项目背景及需求

客户在总部部署有多套业务系统,包括OA、ERP、数据采集SCADA、燃气客户管理系统等,分别部署在多台服务器上,考虑到各种突发事件可能导致的业务中断及数据丢失,客户计划在距离总部10公里地方部署容灾机房,将相关业务系统通过容灾机房服务器保护,达到数据和应用的冗余保护。

项目实施目标 

为企业相关核心系统实现异地的数据+应用容灾保护,在本地机房出现故障时,能够在容灾机房快速启用相关服务,保持业务系统对外连续、稳定运行。

解决方案

推荐采用基于数据容灾的旗舰产品—RoseReplicator,部署企业核心系统的异地数据+应用保护方案。

⏹总体架构描述

通过和客户沟通,计划在容灾机房通过一台高性能服务器,采用VMwareESXi虚拟化方式,虚拟出多个虚拟机,分别对应多台生产服务器,通RoseReplicator部署多个1to1的数据+应用保护模式来保护不同的应用程序。

网络层面,客户在两地通过运营商专网实现100M带宽通信,确保数据传输稳定性。

⏹实现过程

  以管理系统为例:

容灾机房的虚拟机保持和原生产服务器相同操作系统,应用程序和数据库部署方式保持一致,通过RoseReplicator搭建1-1数据保护模式,将管理系统生产服务器的数据实时复制到容灾服务器上,确保两台机器数据一致性。

当主服务器出现故障时,可通过备用服务器快速恢复业务系统;当本地机房完全瘫痪时,可通过容灾机房公网IP将服务映射出去,对外提供服务;当本地服务器恢复后,可通过恢复向导将数据快速恢复至生产服务器,继续通过生产服务器对外提供服务。

⏹解决方案示意图

⏹方案效果

核心数据的异地容灾备份

核心应用系统的容灾切换

多种数据删除模式避免误删除

灵活的网络带宽限制策略

远程集中统一管理

方案总结

通过虚拟化平台下搭建容灾方案,为客户节省不少硬件投入,满足客户数据异地保护需求。

2.2.云容灾

越来越多的用户计划将其业务系统或数据迁移至云。

业务和数据迁移至云端,业务系统的运营和数据将完全托管于云服务商,而如何对云端的业务系统和数据进行有效控制和容灾保护,也是用户将业务迁移至云需考虑的一个重要环节。

结合云平台,常见的容灾模式有如下几种:

本地至云

将生产中心的数据和业务实时灾备至云端,如生产中心出现事故,可迅速利用云端的容灾系统及时接管业务。

云至本地

用户将业务迁移至云端,可将云端的业务数据实时灾备至用户本地机房,可有效控制业务和数据安全。

不同区域的云之间

不同区域的云之间,构建数据和业务灾备,最大化保障业务系统和数据的安全。

2.2.1.适用场景

本地至云,云至本地,不同区域的云之间,构建云容灾方案

2.2.2.案例分析

某公司是全球最大的中央处理器散热风扇(CPUCooler)供应厂商,为深圳高新技术企业。

公司主要生产制造散热片(HeatSink)、风扇(DCFan)、导热管(HeatPipe)等。

在工厂生产流水线作业平台信息化建设过程中,需对核心MES业务系统构建容灾保护,以保障MES系统能够抵御灾难事故。

容灾方案部署前,MES系统数据库已迁移至微软云,并使用云端高可用技术实现业务系统的连续性保护,深圳、成都、武汉等分公司均通过VPN网络访问云端数据库。

用户希望将微软云端的MES系统数据灾备至自建机房,以加强数据的管控和构建数据容灾保护。

解决方案

经过调研用户需求,结合现有架构,提供了“公有云至本地机房”的容灾方案。

如下图所示,在深圳厂区的自建机房中,部署数据容灾主机。

Rose将微软云中MES系统数据实时灾备至深圳容灾主机,如微软云中出现意外风险,用户可利用深圳容灾主机的灾备数据快速恢复MES业务;以尽量降低灾难事故带来的损失。

系统特点

⏹公有云容灾

将公有云端MES系统数据实时灾备至用户自建机房,实现公有云的远程容灾,进一步提升数据灾备级别,并且方便用户对业务数据进行有效的安全控制。

⏹实时复制数据

时复制数据,高级别保护数据,提供RPO≈0的数据保护级别。

⏹网络流量控制

支持计划带宽传输数据,合理分配利用网络传输资源。

支持数据压缩传输,降低网络带宽占用。

⏹信息安全保障

支持数据加密传输,防止数据泄密。

3.其他方案

3.1.虚拟化平台运营

随着虚拟化技术的不断发展和成熟,为了简化系统部署和维护管理,同时节省资源,大量客户的信息系统逐渐迁移到虚拟化平台运行,如VMwarevSphere、MicroSoftHyper-V等。

但由于虚拟化平台本身也存在基础硬件故障、存储故障、网络故障、虚拟化平台本身故障以及虚拟客户机内部操作系统以及应用故障等导致业务系统宕机中断访问服务的风险,故在虚拟化平台实现高可用热备集群方案,避免业务因各种因素不可用的需求,是企业和IT管理者在建设IT信息虚拟化建设过程中不可忽视的问题。

在Rose提供的虚拟化高可用集群方案中,可以轻松应对整个系统中软硬件故障带来的中断业务风险,实现业务系统7x24小时不间断运行和提供服务;并且在维护管理层面,Rose解决方案集中化管理功能,为客户节省了大量的维护人力和物力成本投入。

3.1.1.适用场景

兼容各大主流虚拟化平台,构建虚拟化环境的高可用热备集群方案。

3.1.2.案例分析

国内某电力集团是国家电力体制改革组建的全国性五家国有独资发电企业集团之一,属于国务院国资委监管的特大型中央企业。

在企业不断发展过程中,信息系统高可靠性建设是公司信息化建设的重要内容,是提高办公效率、推动打赢提质增效攻坚战、建设世界一流能源集团可靠办公信息平台的重要步骤。

一直以来公司信息系统建设都是采用物理服务器架构HA高可用热备系统,近年来随着虚拟化技术的发展,实践证实,通过虚拟化技术对服务器的整合,提高了物理服务器的资源利用率,实现了快速部署,无缝迁移,又大大方便了管理,华电信息管理系统逐渐从物理服务器迁移到虚拟化平台,在虚拟化迁移过程中需要着重考虑的是系统高可用性建设以及平滑迁移过渡要求下遇到的挑战。

客户环境

● 操作系统:

Win08R2、RHEL5/6

● 前端应用:

ERP系统、OA系统、档案系统

● 后台数据库:

Oracle、DB2

● 迁移后的虚拟化平台:

VMWare

存在的问题

● 原有系统不支持虚拟化平台

● 原有系统授权方式不适应虚拟化环境

● 原有系统切换效率不高

● 原有系统配置管理维护复杂

新提出需求:

应用系统迁移到虚拟化平台

解决方案

⏹采用虚拟化集群方案

⏹采用Ukey集中授权40节点

系统特点

⏹基于虚拟化的高可用集群

基于虚拟化的高可用集群,可实现虚拟机内部业务系统故障自动检测,自动切换,确保用户ERP、OA系统7x24小时不间断运行。

⏹集中运维管理

供可视化的简洁直观的图形化操作界面,可跨平台统一管理,实现虚拟化平台多个热备集群集中管理。

⏹集中授权

采用集中授权,授权方式灵活,不受虚拟操作系统资源改变或迁移的影响,无缝兼容虚拟化平台。

⏹可弹性扩展

虚拟热备集群服务器可以随业务部署量的增加而无缝扩展,有效减少初次部署和后期运维成本。

3.2.多机双柜

多机双柜高可用解决方案为用户构建高容错、高安全、高性能的集群容灾平台。

该方案以Rose自有技术研发,多个功能模块之间相互协作,实现服务器、磁盘阵列、存储通道等软硬件完全容错,解决了传统高可用方案的单点故障,为用户构建零数据丢失和应用高可用保护的高级集群容灾方案。

3.2.1.适用场景

全容错架构,服务器硬件故障不影响系统运营,存储硬件故障不影响数据安全。

3.2.2.案例分析

为贯彻执行国家和省有关卫生工作的方针政策、法律法规,推进医药卫生体制改革,某地市卫生局规划建设区域卫生信息平台。

区域卫生信息平台旨在建立市级的医院管理系统数据中心,围绕居民健康档案信息系统建设,共享医院信息系统、疾病预防控制信息系统、卫生监督信息系统的数据信息,构建数据承载网络,向上连接海南省卫生厅,向下延伸至市各级医疗卫生机构,横向链接社保、计生等相关部门,实现居民健康信息、公共卫生工作信息、保健诊疗信息的联系保存、数据共享和信息利用。

区域卫生信息平台将收集了大量医疗卫生数据,方便市卫生局以“数据中心”为核心,利用在线分析处理、数据挖掘和数据展现等商务智能技术,对海量数据进行处理分析,及时发现群体性高发疾病,针对性地给予流行病学的相应指导和启动防治机制。

在市卫生局卫生信息化建设中,区域卫生信息平台发挥的作用尤为重要,在建设区域卫生信息平台的同时,需规划最大化保障数据安全性和应用连续运营的容灾方案。

容灾需求

市卫生局区域卫生信息平台的后台数据库为Oracle数据库,Oracle数据库在整个卫生信息平台更是重中之重。

如一旦区域卫生信息平台出现数据丢失或业务不可用,将严重影响整个市的医疗工作正常进行,影响市民的及时就诊和医治,并可能造成极大的社会影响。

市卫生局信息科提出对Oracle数据库服务器构建高级别的容灾方案,要求容灾方案达到RPO=0和RTO≈0的容灾效果。

不论是硬件故障(磁盘阵列、服务器),还是软件故障(数据库、操作系统),都不影响业务系统的正常运行,并且数据库的数据实现零数据丢失,整个解决方案实现全冗余的保护。

在维护管理方面,市卫生局提出在确保卫生信息平台安全无故障运行的同时,容灾方案需提供简洁易用的管理方式,以便系统管理人员的日常管理和维护。

解决方案

经过详尽的需求分析和调研论证,市卫生局采用了Rose多机双柜方案,构建软、硬件完全冗余架构的解决方案,实现RPO=0和RTO≈0容灾效果。

多机双柜方案为完全冗余架构,彻底解决软、硬件的单点故障。

服务器、存储交换机、磁盘阵列的任何一个单点故障,均不影响Oracle的正常运行;并且保障Oracle数据库的数据零丢失,Oracle数据库的服务不会中断运行。

服务器层面,构建冗余的主备集群。

Rose实时监测服务器及应用资源的运行状态,如出现异常故障,自动将资源切换至备用主机。

存储层面,构建冗余的FCSAN存储架构。

在服务器端,通过Rose将冗余存储路径进行还原,并将2台存储的LUN构建为双柜镜像存储。

存储双活架构,实现了数据的同步写入,1个IO同步写入2台存储。

任意1台存储故障,数据库数据不丢失,数据库服务运行不受影响。

并且,在单个存储故障排除恢复后,在恢复双柜镜像存储过程中,Rose采用差异同步技术,仅同步单柜故障后的差异数据,提升了数据同步效率,适用于市卫生局后期规划的大数据应用环境。

Rose自动恢复双柜镜像存储、应用故障自动切换等故障场景,均不需人工干预,极大简化了双柜镜像存储和服务器的维护管理工作,从而降低了管理成本。

方案价值

Rose多机双柜方案实现了市卫生局的容灾需求,为市卫生局的区域卫生信息平台正常运行提供了保障,实现了数据级和应用级容灾。

经过1年多的实际使用,Rose多机双柜方案对区域卫生信息平台进行了有效保护,达到了RPO=0和RTO≈0的容灾效果,为市卫生信息化建设提供了容灾技术支撑。

注:

所谓RTO,RecoveryTimeObjective,它是指灾难发生后,从IT系统当机导致业务停顿之时开始,到IT系统恢复至可以支持各部门运作、恢复运营之时,此两点之间的时间段称为RTO。

所谓RPO,RecoveryPointObjective,是指从系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。

这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1