20秋学期1909《并行程序设计》在线作业 3.docx

上传人:b****2 文档编号:405472 上传时间:2022-10-09 格式:DOCX 页数:11 大小:17.82KB
下载 相关 举报
20秋学期1909《并行程序设计》在线作业 3.docx_第1页
第1页 / 共11页
20秋学期1909《并行程序设计》在线作业 3.docx_第2页
第2页 / 共11页
20秋学期1909《并行程序设计》在线作业 3.docx_第3页
第3页 / 共11页
20秋学期1909《并行程序设计》在线作业 3.docx_第4页
第4页 / 共11页
20秋学期1909《并行程序设计》在线作业 3.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

20秋学期1909《并行程序设计》在线作业 3.docx

《20秋学期1909《并行程序设计》在线作业 3.docx》由会员分享,可在线阅读,更多相关《20秋学期1909《并行程序设计》在线作业 3.docx(11页珍藏版)》请在冰豆网上搜索。

20秋学期1909《并行程序设计》在线作业 3.docx

20秋学期1909《并行程序设计》在线作业3

20秋学期(1709、1803、1809、1903、1909、2003、2009)《并行程序设计》在线作业

SSE指令移动单精度浮点数,不能实现____。

A:

将64位数据移动到SSE寄存器高位

B:

将64位数据移动到SSE寄存器低位

C:

将32位数据移动到SSE寄存器指定位置

D:

在两个SSE寄存器高/低64位间移动

答案:

C

以下超级计算机中,____不是SIMD架构。

A:

CDCSTAR-100

B:

757

C:

银河

D:

天河1号

答案:

D

下列指令集中___不是SIMD指令集。

A:

SSE

B:

Neon

C:

AVX

D:

EMT64

答案:

D

SSE寄存器A和B中元素分别为A1A2A3A4和B1B2B3B4(均为由低到高),则执行C=blend(A,B,0x05)后,C中元素为

A:

A1A2B3B4

B:

B1B2A3A4

C:

A1B2A3B4

D:

B1A2B3A4

答案:

D

以下哪条不是推动并行计算发展的因素?

A:

存储是系统瓶颈

B:

单CPU发展已能满足应用需求

C:

利用标准硬件构造并行机令升级容易

D:

编程环境标准化逐步发展

答案:

B

在使用互斥量之前必须对其进行____。

A:

初始化

B:

加锁

C:

解锁

D:

销毁

答案:

A

全球500强超算在CPU、网络等硬件上越来越体现出采用____的趋势。

A:

特殊硬件

B:

通用硬件

C:

非公开硬件

D:

廉价硬件

答案:

B

有大量分支指令的程序不适合下面哪种体系结构上进行并行化?

A:

SISD

B:

SIMD

C:

SPMD

D:

MIMD

答案:

B

Pthread不支持____。

A:

创建并发执行线程

B:

同步

C:

非显式通信

D:

自动并行化

答案:

D

在超市的顾客购买商品记录中统计一些商品组合的购买频率,将购买频率(商品组合)划分给不同进程,这是一种划分____的数据并行策略。

A:

输入数据

B:

中间结果

C:

输出数据

D:

临时数据

答案:

C

当处理器数量不变时,随着问题规模增大,加速比____。

A:

所有算法都增大

B:

所有算法都减小

C:

代价最优算法都增大

D:

代价最优算法都减小

答案:

C

两个矩阵相乘,若矩阵总规模小于cache大小,则优化访存的最佳方法是____。

A:

先将两个矩阵读入cache再进行乘法

B:

先转置第一个矩阵再进行乘法

C:

先转置第二个矩阵再进行乘法

D:

以上皆错

答案:

A

关于消息传递编程的特点,以下说法正确的是____。

A:

与共享内存一样有竞争条件

B:

编程简单

C:

需程序员考虑局部性

D:

无需考虑进程间通信

答案:

C

编译器编译OpenMP并行循环时,会自动生成一些代码,其中不包括____。

A:

创建和管理线程代码

B:

循环划分给线程的代码

C:

找出数据依赖的代码

D:

线程同步的代码

答案:

C

n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法____。

A:

肯定不是代价最优

B:

肯定是代价最优

C:

不确定是否代价最优

D:

以上皆错

答案:

A

任务依赖图中权重之和最长的路径称为____。

A:

最大任务

B:

关键路径

C:

平均并发度

D:

最短路径

答案:

B

将起泡排序程序改写为奇偶转置排序,关于其两层循环是否存在数据依赖,下面说法正确的是____。

A:

外层存在,内层不存在

B:

外层不存在,内层存在

C:

两层都不存在

D:

两层都存在

答案:

A

在下面问题中,SIMD并行最不适合____。

A:

向量加法

B:

向量中元素排序

C:

矩阵向量乘法

D:

矩阵加法

答案:

B

OpenMP编译指示是以____开头的。

A:

"#include"

B:

"#ifdef"

C:

"#pragam"

D:

"#else"

答案:

C

一个SSE寄存器可容纳____个短整型数。

A:

2

B:

4

C:

8

D:

16

答案:

C

当前并行软件面临的主要挑战不包括____。

A:

能耗

B:

伸缩性

C:

研发周期

D:

可靠性

答案:

C

创建线程时,我们通过____将线程号分别传递给每个线程。

A:

全局变量

B:

局部变量

C:

动态分配变量

D:

pthread_create的“线程函数参数”参数

答案:

D

利用cacheline一次读取多个数据字的机制优化程序访存性能,其机理是____。

A:

降低了访存延迟

B:

隐藏了访存延迟

C:

利用了cache空间局部性

D:

利用了cache时间局部性

答案:

C

R*=1.3;G+=1.8;B+=1.2;X*=1.1,此程序片段可进行SIMD并行化吗?

A:

不可以

B:

可以

C:

不确定

D:

以上皆错

答案:

A

SSEintrinsics_mm_loadu_ps命令的功能是____。

A:

对齐向量读取单精度浮点数

B:

未对齐向量读取单精度浮点数

C:

对齐向量读取双精度浮点数

D:

未对齐向量读取双精度浮点数

答案:

B

互斥量是一种____同步机制。

A:

一元状态

B:

二元状态

C:

多元状态

D:

以上皆错

答案:

C

AVX是____平台的SIMD架构。

A:

x86

B:

POWER

C:

SPARC

D:

ARM

答案:

A

除了用于解决竞争条件外,互斥量还可用于____。

A:

解决共享资源竞争的问题

B:

解决并发度低的问题

C:

解决通信开销大的问题

D:

解决负载不均的问题

答案:

A

在分布式内存架构编程中,进程间不能____。

A:

进行通信

B:

进行同步

C:

发送和接收消息

D:

通过读写变量交换数据

答案:

D

关于OpenMP循环并行程序的编写,下列说法中不正确的是____。

A:

程序员无需编写线程创建和管理代码

B:

程序员无需编写循环划分代码

C:

程序员需指出哪个循环应并行

D:

程序员需编写线程同步代码

答案:

D

限制CPU内流水线深度的因素包括_____。

A:

指令复杂程度

B:

分支预测性能

C:

CPU核心数

D:

CPUcache大小

答案:

B

SSE数据移动指令分类不包括____。

A:

对齐传输

B:

未对齐传输

C:

标量传输

D:

缓存传输

答案:

D

将t个线程的局部结果汇总,可采用递归分解并行进行,即,两两汇总,中间结果继续两两汇总,直到剩下唯一的最终结果,其时间复杂度为____。

A:

Θ

(1)

B:

Θ(logt)

C:

Θ(t)

D:

Θ(tlogt)

答案:

B

一个SSE寄存器可容纳____个双精度浮点数。

A:

2

B:

4

C:

8

D:

16

答案:

A

对这样的循环for(i=0;i<100;i+=1)A[i+0]=A[i+0]+B[i+0];进行向量化,基本技术手段是____。

A:

循环划分

B:

循环消除

C:

循环展开

D:

以上皆错

答案:

C

在128位的SIMD寄存器中,我们不能保存____。

A:

16个8位整数

B:

8个16位短整型

C:

4个32位整型

D:

16个字符的字符串

答案:

D

floata[64];for(i=0;i<60;i+=4)Va=a[i+2:

i+5];系统向量化访存是按16字节对齐的,则此向量化程序每个循环步产生____个内存访问操作。

A:

1

B:

2

C:

3

D:

4

答案:

B

两个n*n的矩阵相乘,将所有n^2个乘法计算划分给不同进程,再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素,这是一种划分____的数据并行。

A:

输入数据

B:

中间结果

C:

输出数据

D:

临时数据

答案:

B

忙等待方法解决竞争条件的思路是____。

A:

令CPU一直处于忙碌状态无法产生竞争条件

B:

令存在数据依赖的内存操作充分并行

C:

强制多线程进入临界区的顺序来将存在数据依赖内存操作串行化

D:

以上皆错

答案:

C

SSE的blend指令的8位二进制整数参数被用做8个掩码imm8[0:

7],若imm8[j]=0则表示___。

A:

将第一个源寄存器的第j个元素放在目标寄存器位置0

B:

将第二个源寄存器的第j个元素放在目标寄存器位置0

C:

将第一个源寄存器的第j个元素放在目标寄存器位置j

D:

将第二个源寄存器的第j个元素放在目标寄存器位置j

答案:

C

CUDA线程层次中不包括____。

A:

Kernel

B:

Grid

C:

Block

D:

Thread

答案:

A

将寄存器设置为4个单精度浮点数0.0的SSEintrinsics指令是____。

A:

_mm_set_ps

B:

_mm_set1_ss

C:

_mm_setzero_ss

D:

_mm_setzero_ps

答案:

D

floata[64];for(i=0;i<64;i+=4)Va=a[i:

i+3];此向量化程序内存访问完全对齐,每个循环步恰好是一次对齐的内存访问,则该系统向量化访存是按____字节对齐。

A:

8

B:

16

C:

32

D:

64

答案:

B

对单精度浮点计算,AVX最高实现____路并行。

A:

2

B:

4

C:

8

D:

16

答案:

C

MPI默认点对点通信模式是____。

A:

阻塞的

B:

非阻塞的

C:

对等的

D:

主从的

答案:

A

以下____是MPI基本原语。

A:

MPI_barrier

B:

MPI_Comm_numprocs

C:

MPI_Comm_rank

D:

MPI_Comm_Send

答案:

C

在SSEintrinsics程序中双精度浮点数数据类型是____。

A:

__m128

B:

__m128f

C:

__m128d

D:

__m128i

答案:

C

在对互斥量进行解锁时,还会执行____操作。

A:

互斥量初始化

B:

互斥量销毁

C:

唤醒阻塞线程

D:

以上皆错

答案:

C

SSEintrinsics_mm_load_ss命令的功能是____。

A:

对齐向量读取单精度浮点数

B:

未对齐向量读取单精度浮点数

C:

对齐标量读取单精度浮点数

D:

未对齐标量读取单精度浮点数

答案:

C

求解同一个问题的4个并行算法的等效率函数分析结果如下,其中____的可扩展性最优。

A:

Θ(plogp)

B:

Θ(p^2)

C:

Θ(p^2logp)

D:

Θ(p^3)

答案:

A

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 畜牧兽医

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1