多节点集群多机互备解决方案.docx
《多节点集群多机互备解决方案.docx》由会员分享,可在线阅读,更多相关《多节点集群多机互备解决方案.docx(22页珍藏版)》请在冰豆网上搜索。
多节点集群多机互备解决方案
DOC.NO.LanderSoft(LVGUI-ch.DOC)
Normal
**项目
多机互备集群解决方案
销售:
王晓强
作者:
市场部
上海联鼎软件股份有限公司
版权所有
目录
第一章引言4
1.1公司介绍4
1.2背景4
1.3方案设计总原则7
第二章需求描述8
2.1需求概述8
2.2现状说明和存在问题8
2.3总体需求说明9
第三章方案设计10
3.1项目风险分析10
3.2需解决的问题11
3.3设计原则11
第四章方案描述12
4.1总体方案概述12
4.2集群系统方案概述13
4.3工作流程简单描述14
4.4LanderCluster软件的优势:
14
第五章方案优势17
第六章技术规格24
第一章引言
1.1公司介绍
联鼎软件(Landersoft)是领先的核心业务及数据安全系统解决方案供应商,致力于通过保障用户关键应用及核心电子化数据,确保企业在全球信息化持续发展进程中无间断的竞争力及信心。
产品面向应用高可用性,以及全球范围内的核心系统容灾及数据保护。
在中国已有超过5000个用户,9500例安装,市场占有率达到前三位,覆盖金融、电信、医疗、政府、交通、电力、教育、制造业、基础资源等行业,已被证明适用于各种应用、服务器、存储硬件和相关设备并实现互操作。
联鼎软件拥有先进的多平台测试开发系统及前瞻性的用户体验中心。
公司大中华区总部设在上海,南亚总部设在新加坡,在中国大型城市设有分支机构,形成具有强大优势的销售管理体系和技术支持体系,能够更好、更及时的响应用户需求。
联鼎认为,未来十年,随着IT技术的加速发展,社会对IT环境及服务将高度依赖,保障企业内部核心IT系统永续的正常运作将成为企业生存与发展的基础及动力。
联鼎不断创造新技术、产品和服务来满足与超越用户未来的需求并能为投资者和合作伙伴带来收益,创造价值。
解决方案。
1.2背景
随着局域网存储(NAS)技术、光通道技术、存储局域网(SAN)技术的发展,基于SAN+NAS模式的存储备份解决方案已经日趋完善。
存储备份系统拟采用SAN技术进行系统集成数据系统是内部信息系统的核心组成部分,担负着众多的极其重要的工作;而系统中的数据,更是核心中的核心,数据的安全性关系到整个系统能否正常的运行,最终关系到能否提供正常的服务。
所以对数据系统的数据做好数据保护是至关重要的,是保证提供正常服务的最后一道防线,当各种影响数据安全的情况发生时,能以最短的时间恢复受损的数据。
对数据的保护,有多种方法,包括备份和数据容灾。
目前用得最多、最有效的手段是数据备份。
而备份的方法也很多,有手工备份、自动备份、LAN备份、LAN-Free备份等。
不同的备份方法,其效果不同,主要表现在性能、自动化程度、对现有系统应用的影响程度、管理、可扩展性等方面。
由于该业务系统是关键系统,需要不间断为客户提供服务。
即使发生短暂的业务中断,也会导致难以估量的经济和名誉损失。
为此,我们分析以下可能会导致业务系统中断的原因:
系统硬件故障
如数据/系统磁盘的损坏将导致数据不能访问,并进而可能导致应用进程终止或系统停机,甚至系统不能重启动;网卡的损坏可使终端用户无法访问系统服务;CPU或内存的失效则会导致系统的死机;
应用程序或操作系统出错
由于操作系统或应用程序中可能存在不完善的地方,当碰到某种激发事件时,应用程序非正常终止或系统崩溃(只能通过改善程序或系统来解决);
人为错误
一些人工的误操作,如删除系统或应用文件,终止系统或应用服务进程,也会导致系统服务的无法访问;
电脑病毒/黑客入侵
由于目前的大多数计算机系统均连接在网络上,若缺少有效的防范机制,很容易遭受病毒的感染或黑客的入侵,轻者数据被损坏,重者系统瘫痪(只能通过加强管理杜绝);
自然灾害
由于一些意外的不可抗拒的因素,如雷击、火灾、洪灾等导致的计算机系统破坏,将会使一般系统的恢复非常困难和耗时,导致业务系统长时间的中断(通过容灾系统来解决)。
正常的停机
主要指计划内的系统升级、安装软件、系统备份等过程。
由上可见,影响系统正常运行的因素有很多,如何保障业务系统的不间断运行和出现故障如何在最短时间内恢复数据将是最直接的指标,在一个数据安全系统中,高可用集群是保障业务系统不间断运行的手段,目前被所有系统都采用,由高可用系集群统构建的服务,可以对外提供24*7的运行模式,当任何一台主机出现故障是,高可用集群系统会自动对所控制的集群资源进行转移,保障业务系统不简短运行。
由高可用集群系统组成的应用系统,实现了业务系统的不间断运行,而集群系统对数据保护则相对较弱,所以需要采用一套自动集中的数据离线备份系统对数据库中的数据进行保护。
实现对数据的重点保护和防范,通过备份系统,可以实现数据库的物理错误或逻辑错误,使业务系统运行的更加安全和可靠。
因此,在考虑一个完整的高可用解决方案的时候,需要参考以下三点:
软件功能强大
架构模块化
应用简单化。
本方案将推荐LanderCluster作为高可用产品,来达到预期目的。
联鼎软件的旗帜产品LanderCluster是高可用集群系统,为用户应用提供24*7的保护,实现业务系统不间断运行。
1.3方案设计总原则
我们在为用户提供的备份系统选型时遵循以下原则:
以用户为中心,本着对用户负责的态度定义配置;
以可靠性、稳定性作为第一标准;
以性能/价格比最优为选型要点;
将系统可用性、安全性、投资保护等多个方面作为综合评估体系,进行系统定义;
在性能/价格比最佳的情况下,综合考虑系统的技术先进性、扩展性,保证了系统的多方面技术优势;
项目定义创新性是本次方案需要重点考量内容,通过综合定义,结合最新技术和理念,构建一个具有广泛推广意义的典范工程;
整合所有子系统,重点评估系统整体的安全性
售后服务的考虑,关键设备选择服务体系健全、市场形象好的产品,减少由于市场风险导致的用户风险;
其它主要因素:
用户投资预算、社会影响性因素、实际现场环境等。
第二章需求描述
2.1需求概述
用户信息系统建设已经达到相当水准,基础建设已经完成,而随着业务对系统的依赖度越来越高,系统数据的安全和可靠是下一个工作重点,备份和容灾系统的建设将成为当前重点。
在实施完业务信息化后,用户考虑到仅在信息中心建立一套单一的系统存在的数据风险较大,尤其受911事件的影响,当信息中心的主机房出现灾难性的事故时,信息中心将无法对外提供服务,同时存在数据风险,在极端情况下,会出现整个系统的业务数据全部丢失的风险。
2.2现状说明和存在问题
目前的网络状况
服务器编号
操作系统
数据库&应用
数据存储位置
业务关键性
高可用性状态
A
Windows2003
OA:
Oracle8i+tomcat
内网:
mysql+apache
高
无
B
Windows2003
外网:
mysql+apache
图书系统前台:
IIS+sql2000
高
无
C
Windows2003
图书系统后台:
IIS+sql2000
高
无
目前各服务器采用单机运行方式。
系统存在以下风险。
当前系统的各个服务器均为单机运行,一旦某台服务器出现故障,则会导致相应提供的服务中断,导致业务系统停止运行,引起不良反应。
业务主机在用户机房,系统管理员不在场情况下,无法及时发现故障。
针对PC服务器出现故障,无法保障在短时间内对系统进行恢复。
未来业务发展后的扩展问题。
2.3总体需求说明
通过分析,用户需要备份的系统环境是一个包括多种软件系统及多个的硬件系统组成的系统环境,同时其主要系统具有7*24小时不间断运行的特点。
因此设计的高可用系统应满足如下需求:
A.用户业务具有7×24小时不间断的特点。
B.无单独故障点,采用LanderCluster的多机互备模式,实现关键业务的高可用性!
C.用户业务服务器目前不多,但今后业务增长幅度较大的特点,对全网络各服务器的关键应用需要有一套完整的、统一的高可用管理策略。
第三章方案设计
建立一套完善的业务高可用系统,我们必须对现有的系统做整体的评估,使我们在规划系统时,可以知道核心的问题在何处,做到有效的处理存在的问题,使系统的可靠性和稳定性进一步提升。
因此,我们必须对现有的资源及存在的安全漏洞进行风险评估,对安全威胁进行分析,然后列出用户的安全需求,最后制定合理的安全策略及安全解决方案。
3.1项目风险分析
风险分析的一个步骤是判定需要保护的所有资源,特别是受安全问题影响的资源。
这些资源包括:
主机、工作站、各种网络设备等硬件;
源程序、应用程序、操作系统等软件;
在线存储、传输、及备份数据;
其它设备
针对目前用户的业务系统,目前存在以下问题。
业务高可用性较差:
目前各主机业务均采取单机运行模式,可以说业务可用性十分脆弱,一旦出现意外事件发生,就会导致主机业务的不可用。
可管理性较差:
在管理和维护上增加大量的人力,对业务的维护也就显得尤为重要,如何用最短的时间和有限的人力资源,去管理尽可能多的业务系统是每个管理维护人员面临的问题。
可扩容性较差:
目前架构没有采取任何的日后扩容措施。
3.2需解决的问题
针对用户目前系统的架构中,本方案提出了需要解决的如下安全问题:
集中存储的改造
应用系统的高可用性
如何管理日益增多的主机系统和应用
如何规划、管理所有的业务系统,保持健康运行
3.3设计原则
通过对用户整个系统的风险分析及需要解决的安全问题讨论,让我们来制定合理的业务高可用方案来确保用户方案品质。
针对用户的需求,我们在定义方案时遵循以下的原则:
安全性:
本方案的核心目标;
先进性:
数据安全产品是安全理念的产品体现,高科技产品,其技术的先进性是安全策略实施的关键;
实用性:
方案应紧紧贴近用户的实际需求来设计,尽量避免华而不实的东西,防止造成不必要的投资损失;
可靠性:
这里指方案的可靠性;可管理、审计性;技术与产品成熟性;低成本与易维护性。
第四章方案描述
4.1总体方案概述
从前面的需求分析看,用户的环境主要是PC服务器构成的核心业务系统,考虑到系统的健壮性和安全性,建议对当前的架构进行改造,采用核心集中存储来存放业务数据,通过核心存储的RAID技术和高性能,降低数据分布在各主机上的风险。
集中存储改造完成后,通过LanderCluster集群系统,对当前运行在各业务系统组建高可用业务系统,保障业务系统不间断运行。
当提供服务的任何一台主机出现故障均不影响到当前业务系统的运行,LanderCluster集群软件会自动将故障主机的任务迁移到对应的备援服务器上,保证对外提供的服务不间断运行。
该系统建立起来后,还需要对整个数据安全系统,包括主机系统、数据库系统、备援系统等各个模块建立一套完善的管理制度,使管理制度化,只有制度化的管理才能将整个系统发挥到最好的效果和最佳性能。
4.2集群系统方案概述
从当前的整个系统来看,用户系统的环境相对比较简单,对数据的可用性要求较高,管理人要对这些服务器主机进行维护和管理,同时考虑到数据安全的要求,最终规划将做到对每台机器的数据要求也能实现快速接管,当任何一个主机故障后,应用能够在对应的备机上尽快启动,减少宕机时间。
即当其中一台服务器出现故障时,备份服务器可以快速接管故障服务器的任务,不影响到整个业务系统的运行。
LanderCluster-MN高可用集群软件实现业务系统的高可用性。
针对该系统,对系统进行重新的规划,根据集群的环境要求,对数据分布进行重新规划,将数据库系统文件放在系统盘上,将数据库数据存放在集中存储上,安装LanderCluster集群软件对资源进行控制,将对核心系统提供的服务的IP资源以及数据库所需的设备等资源定义在集群资源中,由集群进行控制,集群开始工作时会检查当前的资源状态,当满足要求时,将任务启动起来对外提供服务,当遇网络或系统故障,则将故障点的任务移交到备援服务器继续工作,整个过程一般在几十秒钟内完成,减少因系统或硬件造成的宕机,在最大程度上保障业务系统的可用性。
服务器编号
操作系统
数据库&应用
数据存储位置
业务关键性
高可用性状态
A
Windows2003
OA:
Oracle8i+tomcat
内网:
mysql+apache
磁盘阵列
高
高
B
Windows2003
外网:
mysql+apache
图书系统前台:
IIS+sql2000
磁盘阵列
高
高
C
Windows2003
图书系统后台:
IIS+sql2000
磁盘阵列
高
高
4.3工作流程简单描述
本案采取三机互备模式,每台机器跑各自的应用与数据库,同时可能又是另外一台机器的备机。
磁盘阵列划分为三个区域,为每台服务器划分一个区域,数据集中存储于磁盘阵列中。
服务器编号
关键业务
备源对象
故障后运行模式
A
OA:
Oracle8i+tomcat
内网:
mysql+apache
C
当A故障之后,其业务全部由C接管。
C同时运行自身业务与A业务。
B
外网:
mysql+apache
图书系统前台:
IIS+sql2000
C
当B故障之后,其业务全部由C接管。
C同时运行自身业务与B业务。
C
图书系统后台:
IIS+sql2000
B
当C故障之后,其业务全部由B接管。
B同时运行自身业务与C业务。
4.4LanderCluster软件的优势:
LanderCluster-MN高可用集群软件是针对国内市场的需求、并研究剖析了国内市场上的所有同类软件后,在HP、IBM、DELL等公司的大力支持下开发出的,并在HP、IBM、DELL、联想、曙光等知名品牌PC服务器上进行过严格的测试。
软件本着实用、稳定、易于维护和高效的原则进行设计开发,因此具有其它同类软件不具备的诸多优势:
稳定性高:
LanderCluster在设计之初,将稳定性定为首要标准,每个版本都针对操作系统不同版本的特性进行了测试、调整,所以,针对不同操作系统版本,都有一个对应的LanderCluster版本,从而使其稳定性达到最高。
LanderCluster在各种主流硬件平台上都经过非常严格的测试,发现的不稳定因素几乎全部排除。
易于使用:
LanderCluster软件包的整个设置过程可以通过一个简单设置过程实现整个集群的配置,提示清晰明了,监控界面直观,日志强大完备。
一个熟悉Windows/Linux电脑的管理人员可以在30分钟内学会设置、使用该软件,Landercluster在配置集群过程中,不需要机器重新启动,就可以运行集群环境。
资源依赖:
LanderCluster软件包在设计时,在定义集群资源时,采用校验方式,对集群之间的资源相互依赖性进行了关联,只有资源正常后服务才开始对外提供服务。
相互监控:
LanderCluster则采用严格的检测方式,每个节点将自身的状态信息如网络、硬件以及软件等信息传递到对方节点中,使集群在任何时候均知道对方运行的状态。
当故障发生时可以进行故障快速处理。
灵活性强:
LanderCluster可以配置成多种工作方式:
主从方式、对等方式、磁盘阵列方式;并且可以在后续多节点版本上,平滑过渡到多节点集群环境。
同时灵活的进程监控机制,监控的进程可以任意定制;支持的共享文件系统数不受限制;操作权限控制等独特的优势。
远程管理功能:
LanderCluster支持远程管理方式,其工作方式是后台运行集群管理程序,而管理、设置功能完全可以在网络上的任何一台工作站上实现(当然,管理功能也可以在服务器端实现)。
这样使得管理员不必经常跑到机房里面察看集群状态,而只要在自己位置上就可以实现管理;同时,在环境中有多个集群环境时,就可以通过登陆到不同的集群上,实现集中的远程管理。
可维护性强:
LanderCluster作为国内自主品牌产品(国内品牌双机多数采取OEM的方法,导致对其技术的过度依赖,包括维护、升级等),联鼎LanderCluster的产品代码自己掌握,可以根据用户的特殊需求进行定制接口,更快地解决用户实际问题!
扩展性好:
LanderCluster软件将随着产品版本的变化而不断优化、推出相应版本,产品包括LanderCluster双机产品、LanderCluster-MN多节点集群产品,支持的节点数超过256个,用户可以根据高可用性要求,进行工作方式定义,并且可以轻松进行节点扩展,即原双机环境可以轻松升级到多节点集群环境。
性能/价格比:
LanderCluster软件在价格上有很大的优势,性能价格比远远优于其它同类产品。
技术服务:
在全国地区各大城市基本都有我们的本地技术支持,同时由于软件为自主产品,遇到问题解决的可能性可以达到100%,联鼎软件主要技术人员的技术功底很强,具有多年系统软件开发、支持经验。
第五章方案优势
智慧系统健康与可用性评价体系
LanderCluster6.0在业界首次提出了创造性的“系统健康评价体系”并加以应用,我们认为对系统的可用性判断必须是持续的,而非极端的,大量的情况证明系统从“可用”转向“不可用”并非是瞬间发生,而存在一个过程。
通过LanderCluster6.0的“系统健康评价体系”全新的系统核心指标持续检测功能,用户将及时发现系统的异常状态,有效判断系统目前真正的“健康”程度,并且经过对系统核心指标的综合分析,将能对系统未来可能发生的状况进行“预知”,直击造成系统转向“不可用”的原因,提前发现,提前预警,提前解决,令用户从“被动”的解决转向“主动”的发现与处理,让系统的可用性判断从“不可知”转为“可预知”。
首创智能预警体系
当系统完全瘫痪时再进行拯救,犹如为心脏停止跳动的病人进行复苏,难道不觉得太晚了吗,如果我们能够预知系统将逐渐变得不稳定,而提前作出应对,防止系统崩溃,或者将突发性宕机转化为计划性维护,将对您产生更多益处。
LanderCluster全新的系统智能预警体系,通过采集“系统健康评价体系”的数据,持续监控维持核心系统稳定运作的重要指标变化,包括处理器、内存、LAN介质、存储设备、网卡、进程、应用程序实时状态,任意指标出现异常状况,即可快速作出响应,防患于未然。
强大的故障分级处理
传统集群软件仅将系统宕机定义为故障,然而“故障”就仅仅是“宕机”,无法访问吗?
真实的“故障”应当以系统健康状况及用户的承受能力作为衡量标准,不同的用户对系统故障的定义是不同的,LanderCluster独特的故障分级处理系统能够满足用户自定义故障阀值,建立不同的故障评价标准,并对每一类故障进行自定义操作,提供最大的灵活性。
同时系统提供丰富插件,为用户提供精准的故障分析。
集群按业务分组,单组集群支持多达256个节点及256个任务
用户环境中的关键业务,从逻辑上分析,可以分成若干个相对独立的组,每一个独立的组,包含若干个服务器,包含若干个数据安全解决方案的产品,LanderCluster支持为每组核心业务独立分组,便于管理,我们把逻辑相关的服务器部署在一个服务器组里,而把逻辑不相关的服务器放入不同的服务器组里。
在服务器组内,可以构建集群,复制,备份和容灾等数据安全解决方案。
LanderCluster在每个分组内可支持多达256个节点,并可同时管理256个任务,完全满足大型企业级用户需求,为用户的系统扩展提供了充足的空间。
丰富的集群备援模式
支持丰富的集群备援模式,包括:
单机高可用、主从、对等、多备一、一备多、多备多、多机互备,双存储备援,纯软环境集群,远程高可用,虚拟环境高可用等各类灵活方式
深度应用侦测代理(UserApplicationAgent)
集群保护下的核心业务,是通过代理(Agent)实时采集应用的运行态数据,结合“评价体系”来诊断系统可用性的。
可用性指标分为两类:
一类是结果类,即模拟客户端访问是否成功,是否获得期望的响应;另一类是风险类,体现的是系统当前运行态的风险指数,如应用的连接数、数据库的存储空间使用率、Web的访问迟延、网络的流量、CPU的负载、系统内存的余量等等,这些因素都是系统能否正常工作的潜在风险,是进行故障预警的重要预测依据。
LanderCluster6.0提供常用软件的侦测代理,如Oracle、MS-Sql以及Web等,这些监控对象的接口及方法,被灵活保存在XML配置文件中。
集群提供开放的应用代理接口,用户可根据开发模板,自定义监控对象的指标采集方法,就可以让集群系统实时监控这些指标,触发相关的事件。
单机高可用
某些单一应用以及昂贵的硬件价格令部分用户暂时仅考虑使用一台服务器来进行核心业务运作,以往的高可用系统无法对此类用户进行有效保障,用户无法保证系统的可靠,核心应用始终处于危险境地。
现在,LanderCluster能够为这些用户提供的单机高可用解决方案,避免系统隐患。
LanderCluster能够实时监测本机,并对影响用户系统运作的情况实行自动修复,令用户单机系统同样得到高级别保障。
增强的跨平台集群系统集中管理
用户的核心业务系统往往无法在单一的平台中运行,大量分立的环境将极大增加管理员工作复杂度,降低系统整体可靠度。
LanderVault应用JAVA技术,实现全面的跨平台管理,允许用户在不同的平台中统一的管理整个集群,在不同平台中拥有统一界面,通过增强的LanderVault集中管理平台,用户能够全面集中监控及管理资源组内各台服务器的存储资源,网络负载,系统进程,系统服务,并可对目标服务器的进程及服务进行操作,从而极大简化集中管理的复杂度,实现合理资源配置。
支持虚拟化环境
虚拟化大潮翻涌,软硬件虚拟化技术不断扩展,用户未来的核心应用极有可能运行于虚拟化的环境中,在虚拟化技术重新整合并分配用户资源的同时,对系统整体可用性的要求变得更为苛刻,一台运行了多个虚拟环境的服务器一旦出现故障将直接影响其上的所有虚拟系统,其损失远比单一系统环境严重数倍。
单个虚拟系统的故障同样需要进行故障转移,LanderCluster超前支持虚拟化存储环境,支持虚拟化操作系统环境VMware,支持单一虚拟化系统之间自由切换。
支持广域网环境集群
随着用户机构不断扩容,核心业务不断增多,用户将对整体系统抵御灾难的能力提出更高的要求,单纯的局域网环境内高可用系统将扩展为远距离的广域网环境高可用系统,成为容灾体系的重要环节。
LanderCluster完全支持广域网环境,并增加了CheckPoint,能够搭建局域网与广域网共存的复杂环境,为用户提供更可靠的保障。
更高级别的监测准确度,更快速的切换速度
高可用系统在保障用户核心业务的同时,必须拥有极高的监测准确度、监测速度、降低系统停顿时间,LanderCluster通过采用独特的MLDC多链路数据交换协议,应用最多5层链路侦测,确保集群监测准确可靠,避免“脑裂”现象,并应用快速故障侦测及处理技术将系统切换时间缩短到以“秒”计算的范围,最大程度降低系统停机时间,提升系统可用性
第六章技术规格
产品规格
说明
操作系统支持
支持Windows、Linux、Unix、Solaris系统平台,支持32位及64位操作系统,Windows平台和Linux平台采用统一的架构设计,可支持跨平台集群
存储支持
支持主流存储构架
SAN/NAS/SCSI/iSCSI/EXP
数据库系统支持
支持Oracle、SQLServer、DB2、Sybase和Informix等主流数据库
易用性
配置安