20春学期《并行程序设计》在线作业FB701EB378194FFBAFA8D5C955A31D8C总18页总18页Word格式.docx

资源描述

20春学期《并行程序设计》在线作业FB701EB378194FFBAFA8D5C955A31D8C总18页总18页Word格式.docx

《20春学期《并行程序设计》在线作业FB701EB378194FFBAFA8D5C955A31D8C总18页总18页Word格式.docx》由会员分享，可在线阅读，更多相关《20春学期《并行程序设计》在线作业FB701EB378194FFBAFA8D5C955A31D8C总18页总18页Word格式.docx（11页珍藏版）》请在冰豆网上搜索。

20春学期《并行程序设计》在线作业FB701EB378194FFBAFA8D5C955A31D8C总18页总18页Word格式.docx

采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在____。

CPU内存

GPU显存

GPU共享内存

GPU寄存器

pthread_rwlock_wrlock是对读写锁进行____操作。

加锁

解锁

加读琐

加写锁

SSE数据移动指令分类不包括____。

对齐传输

未对齐传输

标量传输

缓存传输

SSEintrinsics_mm_load_pd命令的功能是____。

对齐向量读取单精度浮点数

未对齐向量读取单精度浮点数

对齐向量读取双精度浮点数

未对齐向量读取双精度浮点数

每个SSE寄存器宽度为____位。

128

256

我国首次获得戈登?

贝尔奖是在____年。

2015

2016

2017

2018

FORTRAN语言存储二维数组采取____。

行主次序存储

列主次序存储

交错式存储

对角线存储

对于科学仿真并行计算的一般方法,哪个步骤的描述是错误的?

将空间离散化为网格

在网络上进行局部计算

局部计算结果完全独立

重复若干时间步

当前CPU性能提升已从依赖时钟频率提升转为更多依赖____。

多核和众核技术

突破物理局限

改善散热

采用新材料

我国最近一次夺得全球超级计算机计算能力冠军的是____。

天河1号

天河1A

天河2号

神威.太湖之光

对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是____。

正确的

错误的

MPI组通信操作不包括哪类____。

通信

同步

点对点

计算

对一个串行程序进行SIMD并行化,应重点考虑的程序部分是____。

声明语句

条件分支语句

循环语句

输入输出语句

在使用互斥量之后必须对其进行____。

初始化

销毁

____执行pthread_sem_post操作,当前线程会唤醒阻塞线程。

当信号量已加锁时

当信号量为0时

当信号量已超过阈值时

当信号量已销毁时

一个AVX寄存器最多存放____个双精度浮点数。

OpenMP不会自动地在____位置设置barrier。

并行结构开始

并行结构结束

其他控制结构开始

其他控制结构结束

关于障碍机制,下面说法错误的是____。

会导致快速线程阻塞，不应使用

在需要强制线程步调一致时，应使用

可用互斥量机制实现

属于一种组通信

动态线程编程模式的缺点是____。

线程管理开销高

系统资源利用率低

线程任务分配困难

线程通信效率低

任务依赖图中顶点权重之和表示____。

任务数

任务难度

串行执行时间

并行执行时间

编写矩阵乘法的AVX程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。

CUDA的优点不包括____。

可移植性

入门简单

标准的SPMD模式

不再需要图形API

为了实现向量计算,SIMD架构还需提供____。

更大的内存容量

更快的内存传输

更宽的寄存器

更快的网络传输

主线程通过____函数获取特定线程的返回结果。

pthread_create

pthread_join

pthread_cancel

pthread_get

n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法____。

肯定不是代价最优

肯定是代价最优

不确定是否代价最优

以上皆错

为防止编译器不支持OpenMP,应使用____实现OpenMP代码和普通代码的条件编译。

#include<

omp.h>

#pragmaompparallel"

#ifdef_OPENMP"

#define_OPENMP"

在使用条件变量之前必须对其进行____。

采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是____。

更有利于负载均衡

减少了通信开销

降低了计算次数

减少了从进程空闲

以下超级计算机中,____是SIMD架构。

CRAY-1

对划分输入数据的策略,下面说法错误的是____。

当输出数据很少时，需划分输入数据

当输出数据存在依赖时，需划分输入数据

通常最后需要汇总结果

由于不是直接划分输出数据，性能会很差

实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是____。

ompparallel

ompbarrier

ompcritical

ompreduce

for（i=2;

10;

i++）A[i]=A[i-2]+1;

此循环____数据依赖。

存在

不存在

不确定

SSEintrinsics_mm_hadd_ps命令的功能是____。

寄存器间单精度浮点数向量加法

寄存器间双精度浮点数向量加法

寄存器内单精度浮点数加法

寄存器内双精度浮点数加法

一个Neon寄存器最多存放____个双精度浮点数。

关于并行代价,下面描述正确的是____。

总是小于串行时间

总是大于并行时间

总是与并行时间渐进相等

在使用条件变量之后必须对其进行____。

下列哪门课程不是并行程序设计的先导课?

计算机概论

高级语言程序设计

计算机体系结构

数据库系统

CPUcache大小为32KB,64*64的两个矩阵进行加法计算,下面说法正确的是____。

可利用cache时间局部性优化性能

可利用cache空间局部性优化性能

可通过矩阵分片优化性能

访存方面无优化可能

记并行时间为T,串行时间为T'

处理器数量为p,并行代价的定义是____。

p（T'

-T）

pT-T'

每个AVX寄存器宽度为____位。

伸缩性的含义不包括____。

硬件能升级扩展

扩大系统规模构造成本增长不快

程序在新硬件下仍能高效运行

程序在更大规模系统下仍能高效运行

静态线程编程模式的缺点是____。

线程负载不均

线程通信开销高

OpenMP循环并行指令是____。

ompsingle

ompparallelfor

ompmaster

对单精度浮点计算,SSE最高实现____路并行。

MMX有____个专用寄存器。

在MPI中从/向虚拟进程收/发消息的实际效果是____。

与通信域根进程通信

与0号进程通信

像什么都没发生一样

1）R=XR*1.3;

G=XG*1.8;

B=XB*1.1;

2）R=X[0]*1.3;

G=X[1]*1.8;

B=X[2]*1.1;

这两个程序片段哪个进行向量化效率更高?

1）

2）

展开阅读全文