高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx

上传人:b****2 文档编号:1146345 上传时间:2022-10-17 格式:DOCX 页数:51 大小:679.61KB
下载 相关 举报
高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx_第1页
第1页 / 共51页
高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx_第2页
第2页 / 共51页
高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx_第3页
第3页 / 共51页
高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx_第4页
第4页 / 共51页
高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx_第5页
第5页 / 共51页
点击查看更多>>
下载资源
资源描述

高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx

《高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx》由会员分享,可在线阅读,更多相关《高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx(51页珍藏版)》请在冰豆网上搜索。

高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案.docx

高性能计算中心高性能计算中心建设项目实施验收培训及售后服务方案

 

高性能计算中心建设项目实施及验收方案

高性能计算中心建设项目培训方案

高性能计算中心建设项目售后服务方案

1高性能计算中心建设项目实施及验收方案

本项目是一项投资较大的工程,对设备的质量、安装调试、售后服务和培训有很高的要求。

AA公司作为国内最大的高性能计算产品和解决方案供应商,拥有深入的行业知识和丰富的技术,可以向客户提供全面的IT服务方案。

AA公司与用户签署项目合同之后,将严格按照合同条款安排设备的生产、运输,进行系统集成、现场安装调试、项目验收、用户培训和售后服务等工作。

由AA公司专门成立的项目组负责,该队伍由资深技术工程师组成,设立现场安装实施组、技术方案和培训组(负责制定总体技术解决方案,制作工程实施标准和指导性文档,负责用户集中培训等)。

AA公司还将协助用户完成应用软件系统集成工作,协助用户部署、调试CAE、CFD、MD、生物、气象海洋等多个学科的应用软件以及与作业调度系统的集成,真正发挥hpc系统的效能,更好的满足用户需求。

项目团队

AA公司拥有丰富的大型项目实施经验。

AA公司将按照客户的需求,配合适当的资源,合理的安排,在有限的时间内,有效地把项目完成。

AA公司认为此高性能计算机系统项目是一个超大型而且复杂的项目,它需要有实施及安装特大型高性能计算机的能力的同时,也需要有高性能计算相关应用专家的配合。

因此AA公司针对该项目将组成一个项目团队,配合高性能计算相关的专家参与在这个重要项目里面。

参与在项目团队的专家都有丰富的高性能计算机,或相关项目实施的经验。

AA公司将派遣技术支持中心、产品技术中心和研发中心等相关部门的高层经理组成项目管理委员会,希望与用户方项目最高负责人一起组成该项目的最高管理团队。

该团队将定期听取项目汇报、检查项目进展或应急召开会议,负责做出项目重大决策。

AA公司任命经验丰富的项目经理,会同用户方的项目负责人负责整个项目的具体规划、进度管理、问题处理等工作,按阶段提交施工文档,定期向项目管理委员会汇报工作进展。

系统安装组由由多名具有丰富高性能计算机系统安装维护经验的工程师组成,负责系统软硬件的安装。

中科院计算所智能计算机研发中心赵晓芳主任负责对系统配置、安装方法等方面提供指导,并负责调动计算所相关解决可能遇到的棘手问题,以确保安装质量、进度并符合北京超算中心对系统的预期。

系统安装组负责系统测试和验收阶段的现场支持。

应用专家组人员协助系统设计和参加系统安装工作,以确保系统的设计、规划和成果确实符合应用需求。

应用专家组负责所有系统测试项目的实施,同时也是项目实施完成后与用户长期合作和提供技术支持的直接参与者。

系统架构专家组人员参加系统设计和安装工作,确保系统能够达到最大的性能和最高的可用性。

同时参加测试阶段的工作,负责对系统配置进行优化。

组织

角色

姓名

职务

学历

常驻地

人数

项目监督领导组、项目专家组副组长

项目总监

曹振南

解决方案中心总经理

硕士

北京

1人

项目建设领导组副组长、项目实施领导组

项目经理

马少杰

AA公司解决方案中心总经理助理、高性能计算方案部经理

博士

北京

1人

项目专家组

技术指导专家

孙国忠

研发中心云计算部经理、云安全领域专家、高级培训师

博士

北京

3人

李斌

解决方案中心高性能方案部经理

博士

北京

张瑞(女)

解决方案中心安全方案技术专家、安全方案部副总经理

硕士

北京

项目实施协调组

总协调人

顾乐平

北京平台销售总监

硕士

北京

2人

协调组成员

吴胜公

北京平台销售经理

硕士

北京

实施技术组

项目实施小组成员

范玉峰

解决方案中心云计算总经理

硕士

北京

9人

张海忠

解决方案中心云计算部副经理

硕士

北京

高崎

解决方案中心云计算部副经理

硕士

北京

马庆怀

解决方案中心上海平台技术工程师

硕士

北京

姜海旺

解决方案中心云计算首席工程师、实施交付组组长

硕士

北京

张聪杰

解决方案中心云计算部高级工程师

硕士

北京

高增

解决方案中心云计算部实施工程师

硕士

北京

胡晓鑫

解决方案中心云计算部实施工程师

硕士

杜夏威

解决方案中心实施工程师

硕士

北京

实施后备组成员

李柳

解决方案中心高级咨询工程师、教育行业首席工程师

硕士

北京

4人

卜景德

解决方案中心高级咨询工程师

硕士

北京

蒋海京

解决方案中心CAE行业首席工程师

硕士

北京

史经业

解决方案中心云计算部首席工程师、业务三组组长

硕士

北京

项目经理联系方式:

侯雪峰houxf@

项目系统集成

AA公司拥有丰富的大型高性能计算机项目实施经验。

针对本项目,AA公司项目经理将协调系统安装组、系统架构组以及应用专家组共同完成项目的软硬件集成,并帮助用户完成超算中心相关应用软件以及硬件的集成,确保为用户提供完整高性能计算中心解决方案。

系统集成服务的主要目标有三点:

第一,帮助客户建设高性能计算中心环境。

第二,培训客户,有效使用该计算中心计算能力;

第三,和客户研究以及有效提高高性能计算中心的操作和使用能力。

针对这三个目标,系统集成服务主要内容包括系统集成与调试、运行环境设计、系统管理维护工具的部署、系统性能优化、系统管理与使用培训,提供系统日常管理和使用的培训,并在一定时间内承担系统维护的技术支持。

系统扩容成功后,具备以下特性:

Ø使用共同的高效的并行文件系统;

Ø使用统一的软件分发平台,解决节点的安装和恢复工作;

Ø使用统一的监控平台,对日常运行和维护进行支持。

Ø使用统一的作业调度软件,有效调度各科学运算作业;

Ø部署并行作业开发库,提供并行作业开发的能力。

AA公司可以协助用户对如下主要应用软件提供系统集成实施:

ØCAE领域:

Ansys、Nastran、Pam-Crash、LS-Dyna、Fastran、Fluent、Abaqus、FEKO、CFX、Marc等;

实施时间进度表

序号

开始

结束

阶段名称

目标/主要任务

1

签订合同T1

T1+30

备货、生产

完成部件采购和生产

2

T1+31

T1+40

内部集成

内部系统集成,性能测试

3

T1+41

T1+45

发货、到货

设备发到用户现场

3

T1+41

T1+45

实施准备

编写总体实施计划;

与用户确认实施环境准备;

4

T1+46

T1+70

集群实施集成

硬件上架调试、布线

系统标准环境实施

5

T1+71

T1+80

应用系统联调

系统客户化功能定制

定制系统软硬件联合调试

6

T1+81

T1+89

集群验收测试

验收测试

7

T1+90

T1+90

系统移交、总结

项目文档资料移交

项目内部总结

项目资料存档

项目管理

项目管理在高性能计算系统的建设过程中,具有重要的意义。

高性能计算系统的建设涉及到硬件和软件的安装实施,集群系统的有效配置,以及包括网络环境、存储系统等的统一集成。

高质量的项目管理服务,保证了高性能计算系统的建设质量、建设速度以及建设的目标。

项目管理包含以下主要内容:

项目计划

项目计划部分的内容包括:

与客户的项目经理讨论工作说明书和双方的合同责任;准备一个详细的集成项目计划来确定和划分工作层次,设立项目小组任务阶段性完成的主要标志,以及阶段性完成的预定时间和达成的主要途径;协调建立项目所需环境。

项目计划部分的内容还包括,制定变更控制计划;制定项目状态汇报计;为客户项目小组做定向指导。

项目跟踪和汇报

项目的跟踪和汇报,是指在项目实施过程中对项目的进度监管及问题跟踪和评估。

其内容包括,根据项目计划衡量、跟踪和评估项目的进展;与客户项目经理一起解决项目计划出现的例外情况;审查项目的任务进展、日程安排和资源调配,并根据情况作出适当的改变。

项目的跟踪和汇报,还包括与客户项目小组一起召开例会,以检查项目进展状况;在例行项目状况检查会议上,与客户的项目经理一起共同审查项目进展状况;准备月度报告;实施项目变更控制程序;审查并分析项目变更需求;审查客户项目小组的工作成果等。

项目实施

项目主要实施内容包括:

硬件安装

主要包括基础设施、服务器、存储和网络等硬件设备的安装上架、布线、加电等,确保与用户现有设备的有效连接。

操作系统

所有系统安装的软件包及其版本一致,均为RedHat企业版64位操作系统,为操作系统提供合理的补丁包,并给所有节点操作系统进行补丁工作。

存储系统

该部分工作提供对统一存储系统的实施,该存储系统构成高性能计算中心的中央存储。

该部分工作包括存储系统的安装,存储系统的配置、存储系统的有效优化以及并行文件系统的部署和优化等。

集群网络环境

安装优化的Infiniband和以太网驱动,进行网络性能测试满足要求指标。

系统管理软件

安装集群管理软件,并做到:

能够监控系统内所有节点当前运行状态;

能够对系统当前的异常状态或时间给出告警;

能够对一段时间的系统性能状况给出统计报表和汇报。

并行库软件

该部分工作将根据统一的设计,部署和实施并行库软件。

这包括提供统一的并行库软件实施,以及操作和演示基于并行库软件的并行应用。

资源调度软件

部署和实施作业调度软件。

这包括提供统一的作业调度软件实施,还包括作业调度软件的配置,以及操作和演示作业调度软件的作业调度能力,以及作业流功能的演示。

并提交范例作业,作业成功执行。

应用软件集成

协助用户就用户的应用软件提供安装基础服务,并根据需要提供与作业调度系统的集成。

系统备份

对安装的特殊功能的节点进行备份,对安装的共享存储下的软件进行备份。

安装后验证

将所有节点按照顺序全部关机、并按照顺序重新开机。

进行如下确认。

1所有节点的配置是正常,包括hosts表,nfs的挂载,ssh/rsh无密码访问是否配同,用户信息是否同步。

2能否用作业调度系统进行一个全局作业的提交

3是否教会用户如何创建并同步用户。

4是否教会用户如何关机、并重新开机。

IT系统验收方案

系统实施完毕后,AA公司和用户一起组织对项目进行验收。

验收测试内容包括功能性考核、性能考核和稳定性考核三类。

功能性考核

功能性考核主要包括系统规格检查、设备加电测试、网络连通测试、预装软件检查、存储系统测试以及管理软件测试等内容。

通过模拟用户实际运行环境,测试系统管理能力、作业调度能力以及资源非配的有效性和合理性。

基于运行模拟环境,随机制造系统故障,如计算节点故障、互联网络故障以及IO节点故障等,测试系统容错能力。

性能考核

性能考核基于国际上通用的Linpack并行计算软件,测试过程中将产生大量的CPU、内存负载以及网络IO流量。

Linpack性能测试由实施工程师依据《AA服务器现场施工作业指导手册》中的相关操作规范完成。

此外,还将根据用户要求进行网络测试、IO测试以及HPCC基准测试等。

稳定性考核

方法1:

采用用户应用软件或Linpack软件连续加压运行24小时以上视为通过稳定性考核。

方法2:

系统试运行“约定时间”后未出现重大故障视为通过稳定性考核。

“约定时间”依据《项目销售合同》或双方商议确定。

验收测试过程包括但不限于上述内容,可根据实际情况进行适当调整。

验收测试过程中,实施工程师应对过程及结果进行记录,并形成《项目验收测试报告》。

验收通过后,AA公司向用户移交全部设备和技术文档。

2高性能计算中心建设项目培训方案

AA公司是以研究开发、测试生产、技术服务为特色的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机软件及应用

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1