宝德服务器平台基础方案系列.docx
《宝德服务器平台基础方案系列.docx》由会员分享,可在线阅读,更多相关《宝德服务器平台基础方案系列.docx(36页珍藏版)》请在冰豆网上搜索。
宝德服务器平台基础方案系列
宝德服务器平台基础方案系列
windows负载均衡集群方案
1.概述1
1.1应用背景1
1.2集群类型:
2
2.基于windows的宝德服务器集群系统2
3.宝德服务器集群的特点:
6
4.领先一代的宝德IntelIA架构服务器产品技术7
5.系统配置13
6.售后服务承诺24
深圳宝德科技股份有限公司
产品部黄煜
二零零三年九月
1.概述
1.1应用背景
当今信息网的各类应用不断丰富,服务端工作量迅速增长;顺应这种应用需求,对服务器的性能要求越来越高。
而单机服务器的性能增长总是有限度的。
网络带宽的增长速度大于CPU的增长速度,而内存处理以及I/O处理的增长速度还落后于CPU的增长速度,越来越多的瓶颈会出现在服务器端。
以IA架构为节点平台组成的集群系统,以各种国际标准的算法为理论基础,使整个服务器系统的性能呈线性提高。
宝德科技已经推出了具有先进体系结构的Linux服务器集群LVS系统解决方案,具有极高的可用性、可伸缩性、可控性(如流量带宽的控制)、可管理性、稳定性、兼容性、以及优良的性价比;此外,对高流量访问时出现的堵塞现象提供应用级的Qos保障。
宝德科技将世界先进技术和中国市场实际应用需求充分结合,提供先进的、完善的、为用户可量身定制的、优良性价比的服务器端综合应用平台。
本文描述宝德科技Windows服务器集群系统解决方案。
1.2集群类型:
以IA服务器集群为例,最常见的三种集群类型包括高性能科学计算集群、负载均衡集群和高可用性集群。
高性能计算科学集群:
以解决复杂的科学计算问题为目的的IA集群系统。
是并行计算的基础,它可以不使用专门的由十至上万个独立处理器组成的并行超级计算机,而是采用通过高速连接来链接的一组1/2/4/8CPU的IA服务器,并且在公共消息传递层上进行通信以运行并行应用程序。
这样的计算集群,其处理能力与真正超级并行机相等,并且具有优良的性价比。
负载均衡集群:
负载均衡集群为企业需求提供更实用的系统。
该系统使各节点的负载流量可以在服务器集群中尽可能平均合理地分摊处理。
该负载需要均衡计算的应用程序处理端口负载或网络流量负载。
这样的系统非常适合于运行同一组应用程序的大量用户。
每个节点都可以处理一部分负载,并且可以在节点之间动态分配负载,以实现平衡。
对于网络流量也如此。
通常,网络服务器应用程序接受了大量入网流量,无法迅速处理,这就需要将流量发送给在其它节点。
负载均衡算法还可以根据每个节点不同的可用资源或网络的特殊环境来进行优化。
高可用性集群:
为保证集群整体服务的高可用,考虑计算硬件和软件的容错性。
如果高可用性群集中的某个节点发生了故障,那么将由另外的节点代替它。
整个系统环境对于用户是一致的。
实际应用的集群系统中,这三种基本类型经常会发生混合与交杂。
例如,宝德的服务器集群系统就是负载均衡和高可用的有机结合,已成功应用于远程教育(如电子教室),图书馆管理,电子政务(如工商行政管理),内部企业网等等方面,还将应用在银行,证券,电子商务的各类信息网站,各类在线游戏网站,IP电话,以及各行业的数字视频系统应用当中。
2.基于windows的宝德服务器集群系统
集群是由一组独立的主机组成,这些主机一起工作以运行一系列共同的应用程序,同时,为客户和应用提供单一的系统映射,用户访问集群系统就像访问一个高性能的服务器一样。
集群内的主机物理上通过电缆连接,程序上则通过集群软件连接。
这些连接允许主机使用故障应急与负载均衡功能,而故障应急与负载均衡功能在单机上是不可能实现的。
集群系统是一个松耦合的多处理器系统,主机之间通过网络实现进程通信,应用程序可以通过网络共享内存进行消息传送,是分布式系统的优化处理模式。
负载均衡是集群的关键功能,通过负载均衡计算,集群服务可以将用户的请求发送到最合适的真实服务器来处理该项任务,同时保证整个系统的负荷随时保持在一个合理的状态。
从而使客户访问集群系统提供的网络服务就像访问一台高性能、高可用的服务器一样,称为虚拟服务器,构成现代网络系统的综合服务平台。
基于windows的负载均衡集群系统由服务器集群,后端存储两个部分组成。
如图2-1所示。
图2-1宝德服务器windows集群系统结构
集群技术是使多个单独服务器实现物理和程序上的连接,并在服务器之间进行协同通讯,以使它们能够执行共同的任务。
即便某一台服务器停止运行,故障应急进程会自动将该服务器的工作负载转移至另一台服务器,以保证提供持续不断的服务。
除故障应急程序之外,集群还使用负载均衡功能,该功能可使计算负载在联网的主机间得以分配。
Windows2000®AdvancedServer和Windows2000DatacenterServer操作系统提供网络负载均衡服务。
网络负载均衡增强了Internet服务器程序(如Web服务器、FTP服务器和其它关键任务服务器上使用的程序)的可用性和可扩展性。
运行Windows2000的单台宝德服务器只能提供有限的服务器可靠性和可扩展性能。
而通过将两台或更多的运行Win2KAdvServer的宝德服务器资源组成一个集群,网络负载平衡就可以提供关键任务服务器所需要的可用性和性能。
√Windows负载均衡的工作原理:
通过使用由两台或多台计算机一起组成的集群,网络负载均衡使得Web服务器的可用性提高,可扩展性改善。
Internet客户使用单一IP地址(或多宿主主机采用一套地址)访问集群。
网络负载均衡集群与运行单一服务器程序的单一主机有明显区别,集群中某主机发生故障时,集群系统保证提供不间断的服务。
集群还可以比单一主机更迅速地响应客户请求(对于负载均衡的端口)。
Windows集群系统的负载均衡功能分别设置在集群中每个节点服务器上,不是集中在一个独立的功能模块上,所以也称为网络负载均衡。
如图2-1所示。
Win2KAdvancedServer提供的网络负载均衡服务,可虚拟出一个MAC地址,该MAC地址与集群各节点的MAC地址无关,且为集群中的各主机共用。
同时,网络负载均衡服务将指定的集群主IP地址指派给该MAC地址。
所有的客户端请求都发往集群主IP地址,传入该主IP地址的客户请求将被集群中的所有节点接收,网络负载均衡在传入指定TCP和UDP端口的数据报到达TCP/IP协议软件之前对其进行筛选,根据在“端口规则”中配置的值将客户请求在集群中进行分配,只有被分配为处理该客户请求的节点才处理它,其余的节点则丢弃该请求。
每台服务器都运行需要的服务器程序(如Web、FTP、Telnet或电子邮件服务器程序)的一个独立副本。
对有些服务(如Web服务器上使用的服务),程序的副本在集群内的所有主机上运行,网络负载均衡在这些服务器之间分配工作量。
对于其它服务(如电子邮件),只有一台主机处理工作量。
对于这些服务,网络负载均衡让网络通信流向一台主机,只有在服务器发生故障时才将通信移到另一台主机上。
网络负载均衡能提供高可用性,当有一台主机发生故障或脱机时,网络负载均衡可将传入的网络通信重新定向到工作正常的集群主机。
即使与脱机的主机的连接断开,也能提供Internet服务。
在大多数情况下(例如,Web服务器),客户软件在连接失败时自动重试,客户在接收响应时只感到有几秒钟的延迟。
网络负载均衡可提供扩展性能,将传入的网络通信在分配给集群的一个或多个虚拟IP地址之间分布。
集群中的多台主机随后同时响应不同的客户请求,甚至响应来自同一客户的多个请求。
例如Web浏览器可以从集群中的不同主机获取一个Web页面中的几个图像。
这样就会加快处理速度,缩短对客户的响应时间。
网络负载均衡能使一个子网上的所有集群主机同时检测传送到集群的主IP地址(及多宿主主机的其它IP地址)的网络通信。
在每台集群主机上,网络负载均衡驱动程序作为集群适配器驱动程序和TCP/IP堆栈之间的筛选器,允许主机分几部分接收传入的网络通信。
网络负载均衡使用完全分布式的算法,根据集群主机的IP地址、端口和其它信息将传入的客户按照统计规律与各集群主机相对应。
在检查到达的数据包时,所有的主机都同时执行这种对应来迅速确定哪台主机应该处理该数据包。
除非集群主机的数量发生变化,否则这种对应关系就会保持不变。
网络负载均衡筛选算法在数据包处理中比集中负载平衡程序效率高得多,因为后者必须修改并重新传输数据包。
这样网络负载平衡就能够提供更高的集合带宽。
通过直接在集群主机上运行,网络负载平衡的性能不会受到某一代的处理器或网络技术的限制。
网络负载均衡的价值 :
随着因特网及其相关服务(企业网、外部网和主机应用)的迅速增长,对Web服务器动态伸缩性的需求也变得更大。
有了网络负载均衡功能的Windows2000为在采用分布和负载均衡的方式下建立关键且合乎要求的Web站点的工作提供了完整的结构体系。
与分布式应用的组件服务特性和Internet信息服务(IIS)的增强可伸缩性相结合,网络负载均衡有助于确保Web服务能够视情况灵活处理最重的通信负载,同时,保持对计划内和计划外服务器停机的戒备。
部署网络负载均衡功能的好处有:
◎通过迅速、逐步地增添额外服务器伸缩Web应用:
通过一次一个服务器地部署NLB集群来为将来做计划,同时,还应避免造成为取得基于专用硬件的负载均衡系统所付出的高昂代价。
网络负载均衡是为与各种各样的应用程序和服务功能配合使用而设计的,网络负载均衡使用统计负载均衡模型在最大由32台服务器组成的集群中分配引入的IP请求。
由于NLB集成到Windows2000网络结构体系之中,NLB可以说是一个为基于Windows2000的Web应用增添处理能力的简单而有效的手段。
◎确保Web站点对客户而言始终处于在线状态:
使用网络负载均衡功能的Web服务器集群有不超过10秒的故障应急时间,因此,系统运行永远不会被任何计划内(升级或维护)或计划外的服务器停机时间所打断。
与包括在Windows2000资源工具中的MicrosoftClusterSentinel等应用程序监控工具相结合,NLB是确保网站在客户需要时始终处于在线状态的快捷且无争议的手段。
◎为未来的Microsoft应用中心(AppCenter)服务器而营造基础:
现在使用Windows2000操作系统的网络负载均衡服务部署网站,能够确保网站为将来部署Microsoft应用中心(AppCenter)服务器做好准备。
应用中心(AppCenter)服务器包括管理、监控和复制特性,这些特性是对使用网络负载均衡建立起来的Web服务器集群的理想补充。
应用中心(AppCenter)服务器还将包括为改进的网络负载均衡集群量身定制高级安装程序和管理的特性。
◎在Windows2000AdvancedServer和Windows2000DataCenterServer中,网络负载均衡功能及其在WindowsNTServer4.0企业版中的前身正被一些在世界最受欢迎的网站所采用,这些网站包括MicrosoftWeb站点(M、MSN®、MSNBC和Expedia®旅游服务)、D、TVGuideOnline以及P。
宝德windows集群系统解决方案给出基于IP层的负载平衡调度解决方法,并在操作系统中予以实现,将一组服务器构成一个实现可伸缩的、高可用网络服务的虚拟服务器。
网络负载均衡功能以Web方式为客户端提供应用的定向功能;实时监视服务器群(包括各种操作系统平台)各结点流量情况,按照服务请求和流量分布情况,在底层实现以网络地址转换的方式进行地址重定向,让合适的结点处理任务,其他节点丢弃该请求,动态平衡带宽。
动态调度提供对多种标准负载调度算法的支持。
√服务器集群
是整个系统提供应用服务的中心。
包含丰富的内容:
Web服务,代理网关,邮件服务,电子商务网站服务,信息及数据处理中心服务,数据库服务等等。
服务器集群的结点数目可变。
当整个系统的负载超过目前所有结点的处理能力时,可以在服务器集群中增加服务器。
系统性能随着服务器集群的结点数目增加而线性增长。
这种变化对客户端透明。
宝德各款Intel标准IA机架式/塔式服务器产品都可用来构建windows集群系统。
√后端存储:
系统的后端存储考虑到系统的扩展可能是多样的系统,可采用DASRAID阵列扩展服务器直接附加存储的方式,也可采用NAS或SAN存储区域网的方式。
推荐宝德性价比优良的GreatStorGS4012SCSI,GS4012FC,以及GS3214FC等磁盘阵列柜产品。
√服务器之间的通信:
服务器集群各节点之间的通信都采用Socket通信接口技术来实现,按照TCP/IP协议(包含UDP协议)的标准进行所有的信息交换。
TCP/IP协议组是互联网络通信的基础和核心,通过一套规则或协议来保证各种不同类型的主机平台实现相互通信。
套接字Socket规范提供不同平台都按照统一的TCP/IP协议进行通信的方法,无论是Unix,Linux还是Windows都支持Socket,所有的平台在Socket的接口上可以编制出互通的通信程序。
套接字屏蔽了底层通信软件和具体操作系统的差异,任何两台安装了TCP协议软件和实现了套接字规范的主机都可以进行稳定可靠的通信。
网络负载均衡能控制从Internet客户到集群内选定主机的TCP和用户数据报协议(UDP)通信的分布,网络负载平衡配置后,集群内的所有主机都收到传入到集群IP地址的客户请求。
网络负载平衡首先筛选传入到特定TCP和UDP端口的数据报,然后这些数据报到达TCP/IP协议软件。
网络负载均衡只管理TCP/IP内的TCP和UDP协议,控制它们在每个端口的操作。
网络负载均衡不控制流向特定端口的TCP和UDP通信之外的任何传入IP通信。
它不筛选Internet控制消息协议(ICMP)、Internet组成员身份协议(IGMP)和地址解析协议(ARP)或其它IP协议。
所有的这类通信都被原封不动地传送到集群内所有主机上的TCP/IP协议软件。
由于TCP/IP的可靠性和处理重复的数据报的能力,其它协议能够在集群环境中正常运转。
但使用集群IP地址时还是会看到某些点对点TCP/IP程序(例如ping)的重复作出响应。
这些程序可以使用给每台主机分配的专用IP地址避免出现这种情况。
3.宝德windows服务器集群的特点:
宝德服务器集群平台提供了高度的可用性、伸缩性与易管理性:
√高度的可用性:
集群具有避免单点故障发生的能力。
负载均衡功能实时检测节点或服务进程故障,并能正确地重置系统。
如果监测到问题结点,新的服务请求就不会被调度到坏的结点,把任务派发给良好的结点,同时调度系统进行故障恢复。
为系统提供了更高的可用性。
√ 可伸缩性:
可随时加入更多的主机可提高集群的整体性能。
√ 易管理性:
集群以单一系统映射的形式来面向最终用户、应用程序及网络,同时,也为管理员提供单一的控制点,单一控制点也可以是远程的。
√集群服务:
这种服务可以针对数据库、消息系统和文件/打印服务等应用提供故障应急支持,也可以针对基于Web的各类广泛的通用级应用。
√ 网络负载均衡(NLB):
该项功能可在多个节点的集群内均衡引入IP通信量。
负载均衡功能增强了Web服务、数据库服务、多媒体服务和终端服务等各类服务器程序的可用性和可伸缩性。
通过负载均衡基础结构上的管理界面提供控制信息,负载均衡技术能够与现存的Web服务器区基础结构天衣无缝地统一起来。
负载均衡技术还将充当一个理想的流量均衡分配体系,根据监测情况,计算各结点流量,合理分配流量负荷,对网络拥塞提供应用级QoS保证,在分布式的Web环境下与各种应用服务器共同使用。
两个或两个以上的结点就可以组成集群。
双机集群是最基本、最简单的集群系统。
双机集群可以达到双机容错的高可用性,并且还提供负载均衡功能--根据流量分配互为备份双机的负荷,让系统流量始终处于一个平衡合理的分布状态,比双机容错更为智能化。
4.领先一代的宝德IntelIA架构服务器产品技术
宝德科技为各类服务器集群平台系统全部推荐基于IntelIA架构的PowerLeader自有品牌服务器。
宝德科技独具特色的可按需定制的服务器平台系统,采用标准的IntelIA架构机架式设计,及根据系统环境的各种物理机械、电磁兼容性设计及冗余设计等,都严格按照国家规范进行。
宝德与Intel联合成立的IntelSolutionCenter(ISC)还设有正规的测试实验室,从产品、系统的研发开始就严把质量关,在网络环境下对各种新产品、新的解决方案系统进行各种满负荷的系统级模拟测试,保证为各类信息中心的建设提供高稳定、高可用的服务器平台系统。
宝德科技凭借IntelIA架构服务器产品的领先技术,可保证系统获得出色的可靠性、可用性和可维护性。
这些一流技术无缝集成在最新一带宝德Intel服务器产品中,不仅增强了当前处理器和芯片组的性能,同时还使整个系统能利用这些特性的全部优势。
这些技术还提高了服务器产品应对新应用和新市场的能力,为信息系统运营及时带来额外的价值。
这些领先的技术包括:
√指示灯引导诊断(Light-GuidedDiagnostics):
提高可维护性和故障的迅速恢复。
√电源和散热空间(PowerandThermalHeadroom):
进行电源和散热工程设计预算,以实现最高性能。
√主动气流控制(ActiveAirflowControl):
提供机箱散热和风扇控制,保证服务器冷却和安静。
√硬盘稳定技术(DriveStabilizationTechnology):
提高硬盘的可靠性、使用寿命和性能
√驱动器电源隔离(DrivePowerIsolation):
为热插拔硬盘提供关键紧急保护
√多路径引导(Multi-PathBoot):
保证系统即使在出现许多基础错误时也能正常启动。
√验证压力测试套件(ValidationStressTestSuite):
有助于确保最新高性能服务器的数据完整性
1.指示灯引导诊断
众多宝德Intel服务器产品中采用的Intel服务器管理技术来报告系统和组件故障并发出告警,除此之外,机架优化式宝德Intel服务器产品还具有指示灯引导诊断功能,它能够快速诊断大多数常见组件故障,并提供快速的恢复与最长的正常运行时间。
利用指示灯引导诊断技术,集成在机箱和服务器主板中的诊断指示灯可为系统不同组件提供相应的可视状态指示器。
当DIMM或其它组件性能下降或发生故障时,其相应的指示灯会变亮,而当问题得到解决后,该指示灯就会关闭。
另一个优势是,诊断指示灯只有在前面板重启按钮按下(主电源继续为系统供电)或在管理子系统发出命令重启时才会重置。
这意味着指示灯将在系统关机或断电状态时一直保持当前状态,这对于从机架中取出服务器进行维护时是非常重要的。
指示灯引导诊断可支持位于机箱前面板和硬盘托架前部的外部诊断指示灯,以及服务器主板上的诊断指示灯。
机箱前面板上的外部诊断功能采用一种称为智能前面板的技术来报告以下情况:
√电源/睡眠,指示电源处于开启还是关闭状态,以及系统是处于睡眠模式还是传统的通电/ACPIS0状态。
√NIC1/NIC2活动,指示网络连接和运行状态。
√系统状态,指示系统是否在运行,以及是处于正常运行、性能降低、严重或不可恢复状况、非严重状况,还是待机状态。
√磁盘活动,指示硬盘是否处于运行状态。
√系统标识,指示运行中的服务器,并显示是通过命令还是通过按钮来得到标识。
位于硬盘托架前面的外部诊断功能通过背板上称为SAF-TE(SCSI访问容错附件)的独立控制器来提供。
SAF-TE诊断功能采用宝德服务器管理技术来指示该硬盘是处于低性能还是故障状态。
服务器主板上的内部诊断功能及其报告情况如下:
状态码:
包括一个硬件解码器和位于服务器主板背面的四个指示灯,跟踪BIOS测试以便在BIOS停止响应时指示系统操作的状态。
处理器故障:
紧邻各处理器插槽,当管理引擎检测到任何处理器出现故障时,它将被激活。
内存故障:
紧邻各DIMM插槽,当管理引擎检测到某个DIMM出现故障时,它将被激活。
风扇故障:
紧邻各风扇接头,当管理引擎检测到某风扇出现故障时,它将被激活。
处理器风扇故障:
紧邻各处理器风扇接头,当管理引擎检测到某处理器风扇出现故障时,它将被激活。
5伏待机:
紧邻SSI电源接头,当系统处于5V待机模式时,它将被激活。
系统状态:
位于服务器主板后部边缘,当系统运行正常或发生故障时将被激活并分别显示绿色或黄色
系统标识符:
位于服务器主板后部边缘(紧邻扬声器)和前面板上,指示服务器在大量服务器中的位置。
指示灯引导诊断功能的主要组件包括:
CPU指示灯、管理引擎内核、DIMM灯、第二个CPU指示灯、智能前面板。
2.电源和散热空间
决定服务器主板,机箱或者是平台能够使用多久的一个最关键因素,是其对越来越快的处理器频率的支持能力。
电源与散热空间技术是英特尔服务器产品所采用的一种产品设计方法,将能够提供这一支持。
电源与散热空间经过精心设计,可以使这些服务器主板、机箱和平台在不改变服务器主板设计和组件的情况下,进行多次的处理器升级,从而极大的减少了额外的OEM确认工作,同时也降低了库存和支持成本。
电源空间技术以针对指定主板、机箱或平台的实践为基础,英特尔指定一个足以支持其基于处理器系列中最新产品的系统的电源。
对散热空间的要求是因为在工程设计时,提高处理器性能的同时也需要对冷却技术进行相应的提高。
过高热量也会影响其它服务器组件,包括内存、适配卡和硬盘等,从而使得系统热量控制对于维持系统的正常运行变得至关重要。
电源空间的大小依据以下惯例确定:
对于特定的服务器主板,机箱或者平台,会首先估计近期处理器的发展情况,然后据此为其保留足够的电源空间余量。
随着处理器性能的提升,散热技术也要相应提高,散热余量的大小就是根据此工程需要确定下来的。
至于服务器的其他部分,包括内存,适配卡和硬盘驱动器,也要考虑到额外热量的影响,以确保在系统正常运行时,温度保持在标准范围内。
因为各型号处理器的电源散热和结构有很大区别,即使主频和高速缓存大小相同的处理器也不例外,因此英特尔力争确保在设计和构建每个组件时将散热能力放在首位。
为此,他们根据额定散热设计功率要求采取整体系统散热设计,使英特尔服务器产品能够满足指定处理器系列中更先进处理器的较高预期功率和散热要求。
与另一种广泛使用的方法(测量散热设计功率要求)相比,额定散热设计功率要求可在处理器整个使用周期内提供有效统计数据。
同时,英特尔功率和散热空间方法主要依赖于实际测试。
也就是说,在致力于最大限度提高系统压力的多种配置中,要全面测试电源、电压调节电路、及每个英特尔服务器主板上的处理器、硬盘、内存和PCI适配器之间的气流状况、服务器机箱、以及服务器平台等。
这意味着要在最恶劣的情况下对主板和机箱进行联合测试以进行散热设计,如大量应用负载加上最多硬盘数量所积累的热量(例如,当硬盘预热气流通过处理器时)。
这还意味着测试旨在避免出现过热情况。
该测试是所有英特尔服务器产品在发货前必须达到的极为严格的标准之一。
电源与散热余量的关键组成部分(从左开始顺时针方向):
电源,其可以提供充足的电力供应;处理器散热片及风道;充足的风扇容量。
3.主动气流控制
成功散热设计的一个重要基础就是机箱中的空气流动控制。
为此,集成有服务器管理功能的Intel服务器主板还采用了一项称为英特