高性能计算服务器集群技术参数.docx
《高性能计算服务器集群技术参数.docx》由会员分享,可在线阅读,更多相关《高性能计算服务器集群技术参数.docx(15页珍藏版)》请在冰豆网上搜索。
高性能计算服务器集群技术参数
高性能计算服务器集群技术参数
1、技术需求
(1)采购产品一览表
序号
货物名称
是否为核心产品
单位
数量
产地
1.
管理服务器
是
台
1
国产
2.
CPU计算服务器
是
台
8
国产
3.
IB交换机
否
台
1
国产
4.
千兆交换机
否
台
1
国产
5.
高性能集群平台
否
套
1
国产
产品信息以本表为准,未按本表要求投标的供应商,投标将被拒绝。
(2)产品清单及指标要求
①重要性分为“★”、“#”和一般无标示指标。
★代表最关键指标,不满足该指标项将导致投标被拒绝,#代表重要指标,无标识则表示一般指标项。
②“证明材料要求”项可填“是”和“否”。
填“是”的,投标人须提供包含相关指标项的证明材料,证明材料可以使用生产厂家官方网站截图或产品白皮书或第三方机构检验报告或其他相关证明材料。
未提供有效证明材料或证明材料中内容及所填报指标不一致的,该指标按不满足处理。
1.管理节点服务器(数量:
1)
序号
重要性
指标项
指标要求
1
#
结构
1.服务器外观:
2U机架式,并提供机架安装套件;
2
★
CPU
2颗,IntelXeonE5-2620v4
3
★
内存
内存配置:
采用DDR42400MHzRECC内存,内存容量≥64GB,要求配置单根容量相同的内存条,且每CPU达到四通道。
4
#
系统盘
数量≥1,4T企业级3.57200硬盘
5
#
网卡
千兆以太网端口数≥2
6
#
OPA卡
数量≥1,性能相当或优于100G
7
#
I/O端口
配置≥4×USB3.0接口;2个用于集成千兆局域网的RJ-45接口;1个VGA接口,1个用于IPMI的独立的RJ45接口。
8
#
电源
电源配置:
2个550W(1+1)80PLUS冗余白金牌电源
9
★
系统环境
系统要求:
整体系统采用x86集群架构,包含计算节点、网络系统、管理节点、IO节点、集群软件系统等组成部分,投标方需提供本套高性能计算机全面、整体的解决方案,并针对各组成部分列出详细配置清单及拓扑结构,提供一个扩展的、稳定可靠的、平衡的、高效节能的高性能系统平台
2.计算节点服务器(数量:
8)
序号
重要性
指标项
指标要求
1
#
结构
1.服务器外观:
2U机架式,并提供机架安装套件;
2
★
CPU
2颗,CPUIntelE5-2696V4(2.2G/55M/22C/44T/150W)
3
★
内存
内存配置:
采用DDR42400MHzRECC内存,内存容量≥256GB,要求配置单根容量相同的内存条,且每CPU达到四通道。
4
#
系统盘
数量≥1,intel480SSDSATA2.5
5
#
网卡
千兆以太网端口数≥2
6
#
OPA卡
数量≥1,性能相当或优于100G
7
#
I/O端口
配置≥4×USB3.0接口;2个用于集成千兆局域网的RJ-45接口;1个VGA接口,1个用于IPMI的独立的RJ45接口。
8
#
电源
电源配置:
2个800W(1+1)80PLUS冗余白金牌电源
9
★
系统环境
系统要求:
整体系统采用x86集群架构,包含计算节点、网络系统、管理节点、IO节点、集群软件系统等组成部分,投标方需提供本套高性能计算机全面、整体的解决方案,并针对各组成部分列出详细配置清单及拓扑结构,提供一个扩展的、稳定可靠的、平衡的、高效节能的高性能系统平台
6.IB交换机
序号
重要性
指标项
指标要求
1.
★
OPA交换机
端口≥24,传输速率≥100GB,以及对应长度数量的OPA线缆
7.千兆交换机
序号
重要性
指标项
指标要求
1
★
千兆交换机
端口≥24,以及对应长度和数量的网线
8.机柜
序号
重要性
指标项
指标要求
1
★
机柜
机柜42U1000*600*2000MM黑色含配件
9.深度学习集群平台
序号
重要性
指标项
指标要求
1.
★
集群平台
1.操作系统支持:
支持64位Linux操作系统,REDHAT/SUSE/CENTOS
2.编译器:
基于64位操作系统并兼容32位系统的intel并行Fortran、C、C++编译器;2)GNU系列开发工具,含GNUFortran、C、C++、Python等编译系统
3.并行环境:
安装intelMPI、OpenMPI、MPICH2等并行编程环境及调试开发工具
4.数学库:
intel并行BLAS、LAPACK;intel集群CMKL(含BLAS、SCALAPACK)等;Goto数学库
5.作业调度:
及硬件同一品牌集群调度软件,
正版parakou集群管理系统一套,包基本要求:
1)要求提供至少基于web的图形管理界面
2)软件基本要求:
主流调度软件openPBS/SGE/Torque
支持远程在线运维版本
3)系统级性能数据:
实时采集和显示服务器CPU整体利用率、CPU系统利用率、内存利用率、SWAP利用率、磁盘读速率、磁盘写速率、网络接收速率和网络发送速率等系统级基本性能数据;
实时采集和显示服务器协处理器利用率,包括:
GPU、MIC众核等;
实时采集和显示服务器高速互联的网络设备,如:
万兆位以太网、高速网络;
实时采集和显示服务器网络文件系统吞吐速率;
4)集成作业调度
支持商业作业调度系统集成,根据作业号单独显示作业所在的节点,并保存这些节点的资源使用状态,供后续离线分析
5)集群整体动态监控系统(相空间监控系统)。
能从整体上实时的监控集群的动态运行和任务调度情况
6)每秒实时刷新显示多级数据指标,在同一界面内采集和展现系统级、微架构级、作业级、应用级和函数级性能指标;
前台界面采用C/S架构;提供1个监控前台许可和9个后台许可;
为证软件系统的兼容性,软件产品需正式发布5年以上,提供软件著作权证书;
支持X86、X86_64、POWER体系架构的各个硬件厂家平台;支持Windows、Linux、AIX等主流操作系统;
可支持1000节点以上规模集群使用,提供购买软件合同复印件等证明信息;
系统级信息
实时采集和显示服务器CPU整体利用率、CPU系统利用率、内存利用率、SWAP利用率、磁盘读速率、磁盘写速率、网络接收速率和网络发送速率等系统级基本性能数据;
实时采集和显示服务器高速互联的网络设备,如:
万兆位以太网、InfiniBand网络;
实时采集和显示服务器网络文件系统吞吐速率;
微架构级信息:
针对主流Intel处理器,实时采集和显示实际浮点计算性能、实际整型计算性能、实时内存带宽、代码执行效率、向量化比例、最后一级缓存失效比率等微架构级性能数据。
函数级信息
函数性能数据:
实时采集和显示函数级性能数据,根据百分比排列显示函数热点情况。
应用信息:
实时采集和图形显示每个CPU核上所运行的进程名称,同时采集和显示进程所对应的用户名称;
作业运行信息:
实时显示基于LSF、Torque、Slurm等作业调度系统作业运行状态,支持按照作业粒度实时图形显示作业运行状态,依据系统级、微架构级运行信息明确显示当前作业性能优劣
采集频率
采用C/S架构,关键性能指标(CPU、内存、磁盘、网络)采集间隔要求达到1秒,采集间隔可以自定义;
快速显示集群异常节点
在统一窗口中图形显示当前集群中所有关机、离线等异常状态的节点信息;
事件报警
支持集群的硬件状态报警功能,报警事件包括:
节点失效报警、CPU核数缺失报警、内存总量缺失报警、网络链路降速报警等;
动态显示运行环境
实时显示和采集硬件配置信息和系统信息,至少包括:
操作系统版本、内核版本、CPU配置、内存配置、显卡配置、网络配置、高速互联设备配置、本地文件系统配置、网络文件系统配置等信息,并支持并列对比显示。
并行进程管理
实时并行显示集群中所有的进程信息,支持按条件的快速搜索进程,支持授权模式下的进程管理操作。
特征指数
#提供行业内已知各种应用的最大浮点运算值,和平均浮点运算值。
汇总信息
显示集群所有节点CPU整体利用率信息、内存整体使用量、网络整体流量、磁盘读写总量、开机率、整机利用率等情况
提供1年7*24小时在线IT服务支持;
故障修复:
提供7*24小时远程故障修复辅助支持,支持范围含盖操作系统、集群管理系统、并行文件系统以及作业调度系统四种平台软件系统级运行故障;
支持国家级超算中心运行,测试和故障重现检测;
沟通渠道:
提供客户专属微信群,技术专家在线实时响应并解答集群用户使用相关问题,可同时支持不少于20个客户微信群。
提供现有用户支持截图,加以证明。
性能检测:
提供机群性能基准测试,包含CPU、浮点计算能力、内存、磁盘、网络的性能指标数据;运行报告
运行分析月报:
根据用户需求按月发系统运行报告,包含系统、作业、应用、用户等方面信息。
支持自主开发的APP软件,提供7*24小时技术服务
技术方案要求
在针对本招标提供的技术方案中,需提供相应产品的功能截图用以说明对应指标项。
要求提供证明材料
2
★
数据备份
提供正版PextFS并行存储系统包含:
20节点授权序号
1.数据库及应用层保护,数据库、文件、以及应用的备份恢复,敏感数据漂白
2.高可用方案,数据库实时同步,异构数据库复制,数据库异地容灾,文件同步,数据库接管和应用接管
3.数据保护方案,虚拟平台数据备份、虚拟机复制迁移、透明数据加密平台
4.数据保护方案,操作系统备份及裸机恢复、全面支持包括所有国产操作系统和纯国产硬件平台在内的任何计算机系统的裸机恢复。
3
集群优化
1.提供gromacs优化能力证明文件,要求提供水分子领域,原子数为:
3k,10K,50K,100K,1000K,在本项目集群上运行的时间,单位ns/day。
如3K原子数,计算速度高于700ns/day为合格。
2.提供matlab算法加速方案说明。
3.提供gaussion,采用m06,b3lyt,ccsd,mp2方法的算例软件优化证明文件和软件加速比截图,以验证投标人否能有建设达到标书要求高质量集群能力。
4.提供vasp优化证明文件。
5.提拱ms大于200核心运行载图,多任务交互作业证明文件。
6.以百万为单位,提供及天河二号计算效率对比较。
一年,三年,五年投资回报率说明,证明文件。
7.集群系统通过IntelClusterReady2014认证。
8.提供IntelPartnerTechnicalEnginner和IntelTrueScaleFabricTechnicalEngineer认证证书原件和本人社保证明,同时通过上述认证的工程师参及本项目投标技术答凝及项目实施。
2、服务要求
1)、服务器、交换机、存储设备产品的三年免费保修、电话报修后48小时上门服务、72小时内排除故障、原厂工程师(及以上)服务的原厂商售后服务承诺函;
2)、软件产品的一年免费保修、电话报修后48小时上门服务、72小时内排除故障、原厂工程师(及以上)服务的原厂商售后服务承诺函。