20春学期《并行程序设计》在线作业FB701EB378194FFBAFA8D5C955A31D8C总18页总18页Word格式.docx
《20春学期《并行程序设计》在线作业FB701EB378194FFBAFA8D5C955A31D8C总18页总18页Word格式.docx》由会员分享,可在线阅读,更多相关《20春学期《并行程序设计》在线作业FB701EB378194FFBAFA8D5C955A31D8C总18页总18页Word格式.docx(11页珍藏版)》请在冰豆网上搜索。
C
采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在____。
CPU内存
GPU显存
GPU共享内存
GPU寄存器
pthread_rwlock_wrlock是对读写锁进行____操作。
加锁
解锁
加读琐
加写锁
SSE数据移动指令分类不包括____。
对齐传输
未对齐传输
标量传输
缓存传输
SSEintrinsics_mm_load_pd命令的功能是____。
对齐向量读取单精度浮点数
未对齐向量读取单精度浮点数
对齐向量读取双精度浮点数
未对齐向量读取双精度浮点数
每个SSE寄存器宽度为____位。
32
64
128
256
我国首次获得戈登?
贝尔奖是在____年。
2015
2016
2017
2018
B
FORTRAN语言存储二维数组采取____。
行主次序存储
列主次序存储
交错式存储
对角线存储
对于科学仿真并行计算的一般方法,哪个步骤的描述是错误的?
将空间离散化为网格
在网络上进行局部计算
局部计算结果完全独立
重复若干时间步
当前CPU性能提升已从依赖时钟频率提升转为更多依赖____。
多核和众核技术
突破物理局限
改善散热
采用新材料
A
我国最近一次夺得全球超级计算机计算能力冠军的是____。
天河1号
天河1A
天河2号
神威.太湖之光
对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是____。
正确的
错误的
MPI组通信操作不包括哪类____。
通信
同步
点对点
计算
对一个串行程序进行SIMD并行化,应重点考虑的程序部分是____。
声明语句
条件分支语句
循环语句
输入输出语句
在使用互斥量之后必须对其进行____。
初始化
销毁
____执行pthread_sem_post操作,当前线程会唤醒阻塞线程。
当信号量已加锁时
当信号量为0时
当信号量已超过阈值时
当信号量已销毁时
一个AVX寄存器最多存放____个双精度浮点数。
2
8
16
OpenMP不会自动地在____位置设置barrier。
并行结构开始
并行结构结束
其他控制结构开始
其他控制结构结束
关于障碍机制,下面说法错误的是____。
会导致快速线程阻塞,不应使用
在需要强制线程步调一致时,应使用
可用互斥量机制实现
属于一种组通信
动态线程编程模式的缺点是____。
线程管理开销高
系统资源利用率低
线程任务分配困难
线程通信效率低
任务依赖图中顶点权重之和表示____。
任务数
任务难度
串行执行时间
并行执行时间
编写矩阵乘法的AVX程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。
CUDA的优点不包括____。
可移植性
入门简单
标准的SPMD模式
不再需要图形API
为了实现向量计算,SIMD架构还需提供____。
更大的内存容量
更快的内存传输
更宽的寄存器
更快的网络传输
主线程通过____函数获取特定线程的返回结果。
pthread_create
pthread_join
pthread_cancel
pthread_get
n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法____。
肯定不是代价最优
肯定是代价最优
不确定是否代价最优
以上皆错
为防止编译器不支持OpenMP,应使用____实现OpenMP代码和普通代码的条件编译。
"
#include<
omp.h>
#pragmaompparallel"
#ifdef_OPENMP"
#define_OPENMP"
在使用条件变量之前必须对其进行____。
采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是____。
更有利于负载均衡
减少了通信开销
降低了计算次数
减少了从进程空闲
以下超级计算机中,____是SIMD架构。
CRAY-1
对划分输入数据的策略,下面说法错误的是____。
当输出数据很少时,需划分输入数据
当输出数据存在依赖时,需划分输入数据
通常最后需要汇总结果
由于不是直接划分输出数据,性能会很差
实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是____。
ompparallel
ompbarrier
ompcritical
ompreduce
for(i=2;
i<
10;
i++)A[i]=A[i-2]+1;
此循环____数据依赖。
存在
不存在
不确定
SSEintrinsics_mm_hadd_ps命令的功能是____。
寄存器间单精度浮点数向量加法
寄存器间双精度浮点数向量加法
寄存器内单精度浮点数加法
寄存器内双精度浮点数加法
一个Neon寄存器最多存放____个双精度浮点数。
关于并行代价,下面描述正确的是____。
总是小于串行时间
总是大于并行时间
总是与并行时间渐进相等
在使用条件变量之后必须对其进行____。
下列哪门课程不是并行程序设计的先导课?
计算机概论
高级语言程序设计
计算机体系结构
数据库系统
CPUcache大小为32KB,64*64的两个矩阵进行加法计算,下面说法正确的是____。
可利用cache时间局部性优化性能
可利用cache空间局部性优化性能
可通过矩阵分片优化性能
访存方面无优化可能
记并行时间为T,串行时间为T'
处理器数量为p,并行代价的定义是____。
pT
T'
+T
p(T'
-T)
pT-T'
每个AVX寄存器宽度为____位。
伸缩性的含义不包括____。
硬件能升级扩展
扩大系统规模构造成本增长不快
程序在新硬件下仍能高效运行
程序在更大规模系统下仍能高效运行
静态线程编程模式的缺点是____。
线程负载不均
线程通信开销高
OpenMP循环并行指令是____。
ompsingle
ompparallelfor
ompmaster
对单精度浮点计算,SSE最高实现____路并行。
MMX有____个专用寄存器。
在MPI中从/向虚拟进程收/发消息的实际效果是____。
与通信域根进程通信
与0号进程通信
像什么都没发生一样
1)R=XR*1.3;
G=XG*1.8;
B=XB*1.1;
2)R=X[0]*1.3;
G=X[1]*1.8;
B=X[2]*1.1;
这两个程序片段哪个进行向量化效率更高?
1)
2)