20秋学期1909《并行程序设计》在线作业 3.docx
《20秋学期1909《并行程序设计》在线作业 3.docx》由会员分享,可在线阅读,更多相关《20秋学期1909《并行程序设计》在线作业 3.docx(11页珍藏版)》请在冰豆网上搜索。
20秋学期1909《并行程序设计》在线作业3
20秋学期(1709、1803、1809、1903、1909、2003、2009)《并行程序设计》在线作业
SSE指令移动单精度浮点数,不能实现____。
A:
将64位数据移动到SSE寄存器高位
B:
将64位数据移动到SSE寄存器低位
C:
将32位数据移动到SSE寄存器指定位置
D:
在两个SSE寄存器高/低64位间移动
答案:
C
以下超级计算机中,____不是SIMD架构。
A:
CDCSTAR-100
B:
757
C:
银河
D:
天河1号
答案:
D
下列指令集中___不是SIMD指令集。
A:
SSE
B:
Neon
C:
AVX
D:
EMT64
答案:
D
SSE寄存器A和B中元素分别为A1A2A3A4和B1B2B3B4(均为由低到高),则执行C=blend(A,B,0x05)后,C中元素为
A:
A1A2B3B4
B:
B1B2A3A4
C:
A1B2A3B4
D:
B1A2B3A4
答案:
D
以下哪条不是推动并行计算发展的因素?
A:
存储是系统瓶颈
B:
单CPU发展已能满足应用需求
C:
利用标准硬件构造并行机令升级容易
D:
编程环境标准化逐步发展
答案:
B
在使用互斥量之前必须对其进行____。
A:
初始化
B:
加锁
C:
解锁
D:
销毁
答案:
A
全球500强超算在CPU、网络等硬件上越来越体现出采用____的趋势。
A:
特殊硬件
B:
通用硬件
C:
非公开硬件
D:
廉价硬件
答案:
B
有大量分支指令的程序不适合下面哪种体系结构上进行并行化?
A:
SISD
B:
SIMD
C:
SPMD
D:
MIMD
答案:
B
Pthread不支持____。
A:
创建并发执行线程
B:
同步
C:
非显式通信
D:
自动并行化
答案:
D
在超市的顾客购买商品记录中统计一些商品组合的购买频率,将购买频率(商品组合)划分给不同进程,这是一种划分____的数据并行策略。
A:
输入数据
B:
中间结果
C:
输出数据
D:
临时数据
答案:
C
当处理器数量不变时,随着问题规模增大,加速比____。
A:
所有算法都增大
B:
所有算法都减小
C:
代价最优算法都增大
D:
代价最优算法都减小
答案:
C
两个矩阵相乘,若矩阵总规模小于cache大小,则优化访存的最佳方法是____。
A:
先将两个矩阵读入cache再进行乘法
B:
先转置第一个矩阵再进行乘法
C:
先转置第二个矩阵再进行乘法
D:
以上皆错
答案:
A
关于消息传递编程的特点,以下说法正确的是____。
A:
与共享内存一样有竞争条件
B:
编程简单
C:
需程序员考虑局部性
D:
无需考虑进程间通信
答案:
C
编译器编译OpenMP并行循环时,会自动生成一些代码,其中不包括____。
A:
创建和管理线程代码
B:
循环划分给线程的代码
C:
找出数据依赖的代码
D:
线程同步的代码
答案:
C
n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法____。
A:
肯定不是代价最优
B:
肯定是代价最优
C:
不确定是否代价最优
D:
以上皆错
答案:
A
任务依赖图中权重之和最长的路径称为____。
A:
最大任务
B:
关键路径
C:
平均并发度
D:
最短路径
答案:
B
将起泡排序程序改写为奇偶转置排序,关于其两层循环是否存在数据依赖,下面说法正确的是____。
A:
外层存在,内层不存在
B:
外层不存在,内层存在
C:
两层都不存在
D:
两层都存在
答案:
A
在下面问题中,SIMD并行最不适合____。
A:
向量加法
B:
向量中元素排序
C:
矩阵向量乘法
D:
矩阵加法
答案:
B
OpenMP编译指示是以____开头的。
A:
"#include"
B:
"#ifdef"
C:
"#pragam"
D:
"#else"
答案:
C
一个SSE寄存器可容纳____个短整型数。
A:
2
B:
4
C:
8
D:
16
答案:
C
当前并行软件面临的主要挑战不包括____。
A:
能耗
B:
伸缩性
C:
研发周期
D:
可靠性
答案:
C
创建线程时,我们通过____将线程号分别传递给每个线程。
A:
全局变量
B:
局部变量
C:
动态分配变量
D:
pthread_create的“线程函数参数”参数
答案:
D
利用cacheline一次读取多个数据字的机制优化程序访存性能,其机理是____。
A:
降低了访存延迟
B:
隐藏了访存延迟
C:
利用了cache空间局部性
D:
利用了cache时间局部性
答案:
C
R*=1.3;G+=1.8;B+=1.2;X*=1.1,此程序片段可进行SIMD并行化吗?
A:
不可以
B:
可以
C:
不确定
D:
以上皆错
答案:
A
SSEintrinsics_mm_loadu_ps命令的功能是____。
A:
对齐向量读取单精度浮点数
B:
未对齐向量读取单精度浮点数
C:
对齐向量读取双精度浮点数
D:
未对齐向量读取双精度浮点数
答案:
B
互斥量是一种____同步机制。
A:
一元状态
B:
二元状态
C:
多元状态
D:
以上皆错
答案:
C
AVX是____平台的SIMD架构。
A:
x86
B:
POWER
C:
SPARC
D:
ARM
答案:
A
除了用于解决竞争条件外,互斥量还可用于____。
A:
解决共享资源竞争的问题
B:
解决并发度低的问题
C:
解决通信开销大的问题
D:
解决负载不均的问题
答案:
A
在分布式内存架构编程中,进程间不能____。
A:
进行通信
B:
进行同步
C:
发送和接收消息
D:
通过读写变量交换数据
答案:
D
关于OpenMP循环并行程序的编写,下列说法中不正确的是____。
A:
程序员无需编写线程创建和管理代码
B:
程序员无需编写循环划分代码
C:
程序员需指出哪个循环应并行
D:
程序员需编写线程同步代码
答案:
D
限制CPU内流水线深度的因素包括_____。
A:
指令复杂程度
B:
分支预测性能
C:
CPU核心数
D:
CPUcache大小
答案:
B
SSE数据移动指令分类不包括____。
A:
对齐传输
B:
未对齐传输
C:
标量传输
D:
缓存传输
答案:
D
将t个线程的局部结果汇总,可采用递归分解并行进行,即,两两汇总,中间结果继续两两汇总,直到剩下唯一的最终结果,其时间复杂度为____。
A:
Θ
(1)
B:
Θ(logt)
C:
Θ(t)
D:
Θ(tlogt)
答案:
B
一个SSE寄存器可容纳____个双精度浮点数。
A:
2
B:
4
C:
8
D:
16
答案:
A
对这样的循环for(i=0;i<100;i+=1)A[i+0]=A[i+0]+B[i+0];进行向量化,基本技术手段是____。
A:
循环划分
B:
循环消除
C:
循环展开
D:
以上皆错
答案:
C
在128位的SIMD寄存器中,我们不能保存____。
A:
16个8位整数
B:
8个16位短整型
C:
4个32位整型
D:
16个字符的字符串
答案:
D
floata[64];for(i=0;i<60;i+=4)Va=a[i+2:
i+5];系统向量化访存是按16字节对齐的,则此向量化程序每个循环步产生____个内存访问操作。
A:
1
B:
2
C:
3
D:
4
答案:
B
两个n*n的矩阵相乘,将所有n^2个乘法计算划分给不同进程,再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素,这是一种划分____的数据并行。
A:
输入数据
B:
中间结果
C:
输出数据
D:
临时数据
答案:
B
忙等待方法解决竞争条件的思路是____。
A:
令CPU一直处于忙碌状态无法产生竞争条件
B:
令存在数据依赖的内存操作充分并行
C:
强制多线程进入临界区的顺序来将存在数据依赖内存操作串行化
D:
以上皆错
答案:
C
SSE的blend指令的8位二进制整数参数被用做8个掩码imm8[0:
7],若imm8[j]=0则表示___。
A:
将第一个源寄存器的第j个元素放在目标寄存器位置0
B:
将第二个源寄存器的第j个元素放在目标寄存器位置0
C:
将第一个源寄存器的第j个元素放在目标寄存器位置j
D:
将第二个源寄存器的第j个元素放在目标寄存器位置j
答案:
C
CUDA线程层次中不包括____。
A:
Kernel
B:
Grid
C:
Block
D:
Thread
答案:
A
将寄存器设置为4个单精度浮点数0.0的SSEintrinsics指令是____。
A:
_mm_set_ps
B:
_mm_set1_ss
C:
_mm_setzero_ss
D:
_mm_setzero_ps
答案:
D
floata[64];for(i=0;i<64;i+=4)Va=a[i:
i+3];此向量化程序内存访问完全对齐,每个循环步恰好是一次对齐的内存访问,则该系统向量化访存是按____字节对齐。
A:
8
B:
16
C:
32
D:
64
答案:
B
对单精度浮点计算,AVX最高实现____路并行。
A:
2
B:
4
C:
8
D:
16
答案:
C
MPI默认点对点通信模式是____。
A:
阻塞的
B:
非阻塞的
C:
对等的
D:
主从的
答案:
A
以下____是MPI基本原语。
A:
MPI_barrier
B:
MPI_Comm_numprocs
C:
MPI_Comm_rank
D:
MPI_Comm_Send
答案:
C
在SSEintrinsics程序中双精度浮点数数据类型是____。
A:
__m128
B:
__m128f
C:
__m128d
D:
__m128i
答案:
C
在对互斥量进行解锁时,还会执行____操作。
A:
互斥量初始化
B:
互斥量销毁
C:
唤醒阻塞线程
D:
以上皆错
答案:
C
SSEintrinsics_mm_load_ss命令的功能是____。
A:
对齐向量读取单精度浮点数
B:
未对齐向量读取单精度浮点数
C:
对齐标量读取单精度浮点数
D:
未对齐标量读取单精度浮点数
答案:
C
求解同一个问题的4个并行算法的等效率函数分析结果如下,其中____的可扩展性最优。
A:
Θ(plogp)
B:
Θ(p^2)
C:
Θ(p^2logp)
D:
Θ(p^3)
答案:
A