ImageVerifierCode 换一换
格式:DOCX , 页数:30 ,大小:948.12KB ,
资源ID:9423198      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9423198.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(高性能计算习题及答案.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

高性能计算习题及答案.docx

1、高性能计算习题及答案高性能计算练习题1、 一下哪种编程方式适合在单机内并行?哪种适合在多机间并行?单机:Threading线程、OpenMP;多机:MPI。2、 例题:HPC集群的峰值计算能力:一套配置256个双路X5670处理器计算节点的HPC集群。X5560:2.93GHz Intel XS5670 Westmere六核处理器,目前主流的Intel处理器每时钟周期提供4个双精度浮点计算。峰值计算性能:2.93GHz*4Flops/Hz*6Core*2CPU*256节点=36003.8GFlops。Gflops=10亿次,所以36003Gflops=36.003TFlops=36.003万亿

2、次每秒的峰值性能。3、 Top500排名的依据是什么?High Performance Linpack(HPL)测试结果4、 目前最流行的GPU开发环境是什么?CUDA5、 一套配置200TFlops的HPC集群,如果用双路2.93GHz Intel westmere六核处理器X5670来构建,需要用多少个计算节点?计算节点数=200TFlops/(2*2.93GHz*6*4Flops/Hz)=14226、 天河1A参与TOP500排名的实测速度是多少,效率是多少?2.57PFlops 55%7、 RDMA如何实现? RDMA(Remote Direct Memory Access),数据发送

3、接收时,不用将数据拷贝到缓冲区中,而直接将数据发送到对方。绕过了核心,实现了零拷贝。8、InfiniBand的最低通讯延迟是多少?1-1.3usec MPI end-to-end,0.9-1us InfiniBand latency for RDMA operations9、GPU-Direct如何加速应用程序运行速度?通过除去InfiniBand和GPU之间的内存拷贝来加速程序运行。GPUs provide cost effective way for building supercomputers【GPUs提供高效方式建立超级计算机】Dense packaging of compute f

4、lops with high memory bandwidth 【使用高端内存带宽的密级封装浮点计算】10、网络设备的哪个特性决定了MPI_Allreduce性能?集群大小,Time for MPI_Allreduce keeps increasing as cluster size scales,也就是说集群的规模决定了MPI_Allreduce的性能。11、现排名世界第一的超级计算机的运行速度?K computer: 10PFlops 也就是10千万亿次,93%12、以下哪些可以算作是嵌入式设备: A 路由器 B机器人 C微波炉 D笔记本电脑13、选择嵌入式操作系统的头两个因素是: A 成

5、本 B 售后服务 C可获得源代码 D相关社区 E开发工具14、构建嵌入式Linux的主要挑战是: A 需要广博的知识面 B深度定制的复杂性 C日益增加的维护成本 D稳定性与安全性 E开源项目通常质量低下15、The Yocto Project的主要目的是:A. 构建一个统一的嵌入式Linux社区 B. 提供高质量的工具帮助你轻松构建嵌入式Linux, 从而专注于其上的研究工作 C. 包括一组经过测试的metadata,指导最核心的一些开源项目的交叉编译过程 D. 提供灵活的扩展接口,可以方便的导入新的项目, 或是新的板级支持包(BSP)16、请描述交叉编译一个开源项目需要完成哪些工作? Pat

6、ch-Configure-Compile-Install-Sysroot-Package-Do_rootfs17. Top500排名的依据是什么?答:High Performance Linpack(HPL)测试结果18.Write codes to create a thread to compute the sum of the elements of an array.答:Create a thread to complete the sum of the elements of an array.struct arguments double *array; int size; dou

7、ble *sum; int main(int argc, char *argv) double array100; double sum; pthread_t worker_thread; struct arguments *arg; arg = (struct arguments *)calloc(1, sizeof(struct arguments); arg-array = array; arg-size=100; arg-sum = ∑ if (pthread_create(&worker_thread, NULL, do_work, (void *)arg) fprintf(

8、stderr,”Error while creating threadn”); exit(1); .void *do_work(void *arg) struct arguments *argument; int i, size; double *array; double *sum; argument = (struct arguments*)arg; size = argument-size; array = argument-array; sum = argument-sum; *sum = 0; for (i=0;i p computing sum s (2)Assignment th

9、read k sums sk = f (Ak*n/p) + + f(A(k+1)*n/p-1) thread 1 sums s = s1+ + sp (for simplicity of this example) thread 1 communicates s to other threads (3)Orchestration starting up threads communicating, synchronizing with thread 1 (4)Mapping processor j runs thread jMFlops:Millions of floating point o

10、perations /secPOSIX :Portable Operating System Interface of Unix可移植操作系统接口33. Thread线程:可作为独立单元被调度的一连串代码。(process进程)34. 编写多线程代码时要注意的问题 (1)负载均衡 (2)正确的存取共享变量(通过互斥代码或互斥锁实现)35. 用户级线程:多对一映射。不需要系统支持,操作开销小。一个线程阻塞时其他线程也要阻塞。 内核级线程:一对一映射。每个内核线程调度相互独立,OS完成线程的操作。在一个处理器上每个内核线程可并行执行,一个线程阻塞时其他线程也可以被调度。线程调度开销大,OS要适应线

11、程数目的变化。36. 多线程 pthread_t :the type of a thread pthread_create() :creates a thread pthread_mutex_t :the type of a mutex lock pthread_mutex_lock() :lock a mutex pthread_self() :Returns the thread identifier for the calling thread int pthread_create ( pthread_t *thread , pthread_attr_t *attr, void * (*

12、start_routine) (void *) , void *arg); (1)计算数组元素之和 struct arguments double *array; int size; double *sum; int main(int argc, char *argv) double array100; double sum; pthread_t worker_thread; struct arguments *arg; arg = (struct arguments *)calloc(1,sizeof(struct arguments); arg-array = array; arg-siz

13、e=100; arg-sum = ∑ if (pthread_create(&worker_thread, NULL , do_work, (void *)arg) fprintf(stderr,”Error while creating threadn”); exit(1); . void *do_work(void *arg) struct arguments *argument; int i, size; double *array; double *sum; argument = (struct arguments*)arg; size = argument-size; arr

14、ay = argument-array; sum = argument-sum; *sum = 0; for (i=0;iarray = array; arg-size=100; arg-sum = ∑ if (pthread_create(&worker_thread, NULL , do_work, (void *)arg) fprintf(stderr,”Error while creating threadn”); exit(1); . if (pthread_join(worker_thread, &return_value) fprintf(stderr,”Error wh

15、ile waiting for threadn”); exit(1); RDMA,Remote Direct Memory Access,远程直接存储器存储,通过Zero-copy和Kernel bypass技术实现。37. InfiniBand 的最低通讯延迟是多少?高吞吐率(40Gb/s 点对点和120Gb/s连接;消息传递接近90M/s;发送接收和RDMA操作通过0复制),低延迟(11.3usec MPI 端对端;RDMA操作0.91us Infiniband延迟)38. 计算科学与理论科学和实验科学是人类认识自然的三大支柱。39. 应用领域:美国HPCC计划,包括:磁记录技术、新药设计

16、、高速民航、催化作用、燃料燃烧、海洋建模、臭氧损耗、数字解析、大气污染、蛋白质结构设计、图像理解、密码破译。40. HPC衡量单位:十亿次Gflop/s,万亿次Tflop/s,千万亿次Pflop/s。41. Linpack是国际上最流行的用于测试高性能计算机系统浮点性能的benchmark。通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,评价高性能计算机的浮点性能。42. 共享存储对称多处理机系统(SMP,Shared Memory Processor),任意处理器可直接访问任意内存地址,且访问延迟、带宽、几率都是等价的; 系统是对称的。43. Cluster集群:将多个

17、计算机系统通过网络连接起来如同一个系统一样提供服务,可以获得高并行处理能力、高可用性、负载均衡和管理便捷性。44. Cluster技术进步的必然:高性能处理器、高速网络、集群OS和管理系统、并行/分布计算工具以及软件。 45. 并行计算Parallel computing: 单一系统,众核处理同一任务;分布式计算Distributed computing: 将多系统用调度器松散的结合起来,处理相关任务;网格计算Grid Computing: 用软件和网络将多系统和多处理器紧耦合,共同处理同一任务或相关任务。46. 并行计算的两大优势:处理器总体性能更强,总体内存更大。47. 并行式计算的分类:

18、1)shared memory (共享内存),可以分为统一内存访问 Uniform memory access (UMA)即所有处理器访存相同和Non-uniform memory access (NUMA)访存延迟取决于数据存储位置;2)distributed memory (分布式内存)。可分为大规模并行处理器 Massively Parallel Processor (MPP)和集群Cluster。48. 对称多处理器SMP与全局内存通过总线或交叉开关crossbar互联。优点编程模型简单,问题总线带宽会饱和,交叉开关规模会随处理器个数增加而增大。缺点不宜扩展,限制了SMP的规模。49

19、集群优势:通用的高性能、高可用性、高扩展性和高性价比。50. 分布式内存编程模型:MPI51. 共享内存编程模型:OpenMP,Pthreads52. 并行粒度:PVM/MPI、Threads、Compilers、CPU。53. 消息传递是当前并行计算领域的一个非常重要的并行程序设计方式.54. MPI是一个库,而不是一门语言;MPI是一种消息传递编程模型,是提供一个实际可用的、可移植的、高效的和灵活的消息传递接口标准.55. 消息传送机制:阻塞方式,必须等到消息从本地送出之后才可以执行后续的语句;非阻塞方式,不须等到消息从本地送出就可以执行后续的语句,并不保证资源的可再用性。56. 并行加速的木桶理论:一个给定问题中的并行加速比受此问题的串行部分限制。57. 对于并行计算来说,最危险的缺陷就是将一个计算问题变成了一个通信问题:这种问题一般发生在各个节点为了保持同步而传输数据的时间超过了CPU进行计算的时间,常见网络Infiniband,10GE,GE,Myrinet。58. GPU,C-G混合架构。第二次课:蒋运宏59. VMM,Virtual Machine Monitor,虚拟机监控程序

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1