奥鹏教育南开大学21春学期《并行程序设计》在线作业.docx

资源描述

奥鹏教育南开大学21春学期《并行程序设计》在线作业.docx

《奥鹏教育南开大学21春学期《并行程序设计》在线作业.docx》由会员分享，可在线阅读，更多相关《奥鹏教育南开大学21春学期《并行程序设计》在线作业.docx（38页珍藏版）》请在冰豆网上搜索。

奥鹏教育南开大学21春学期《并行程序设计》在线作业.docx

奥鹏教育南开大学21春学期《并行程序设计》在线作业

第一次：

2分

下列哪门课程不是并行程序设计的先导课?

A计算机概论

B高级语言程序设计

C计算机体系结构

D数据库系统

我的得分：

2分

我的答案：

2分

为利用cache空间局部性,需满足____。

Acache空间足够大

Bcacheline足够大

C程序访问的数据量足够小

D程序访存模式符合空间局部性特点

我的得分：

2分

我的答案：

2分

OpenMP的缺点不包括____。

A常见并行结构的表达并不总可行

B局部性处理不易

C不易编写多核单核通用程序

D性能控制不易

我的得分：

2分

我的答案：

for（i=0;i<10;i++）A[i]=A[i]+1;此循环____数据依赖。

2分

A存在

B不存在

C不确定

D以上皆错

我的得分：

2分

我的答案：

2分

编写矩阵乘法的Neon程序,若矩阵元素为双精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。

D16

我的得分：

2分

我的答案：

2分

在用pthread_mutex_trylock对互斥量进行加锁时,若其已上锁,则线程进入____状态。

A初始化

B阻塞

C继续执行

D销毁

我的得分：

2分

我的答案：

2分

以下说法正确的是____。

A多对多广播的高效算法基于一对多广播的高效算法

B多对多归约的高效算法基于多对一归约的高效算法

C多对多广播的高效算法基于串行的一对多广播算法

D以上皆错

我的得分：

2分

我的答案：

2分

SSE运算指令中未提供____指令。

A算术运算

3/13

B矩阵运算

C逻辑运算

D比较运算

我的得分：

2分

我的答案：

2分

SSE是____平台的SIMD架构。

Ax86

BPOWER

CSPARC

DARM

我的得分：

2分

我的答案：

2分

在使用信号量之前必须对其进行____。

A初始化

B加锁

C加1

D销毁

我的得分：

2分

我的答案：

2分

CUDA共享内存是由____共享。

AGrid中所有线程

B一个Block中所有线程

C一个Warp中所有线程

DGPU中所有线程

我的得分：

2分

我的答案：

2分

对于条件变量,下列说法错误的是____。

A可以用互斥量实现相同功能

B不能用互斥量实现相同功能

4/13

C较之互斥量方案节省资源

D较之互斥量方案代码更简洁

我的得分：

2分

我的答案：

2分

OpenMP编译指示中说明共享变量是用____子句。

Aprivate

Bshared

Cschedule

Dnowait

我的得分：

2分

我的答案：

2分

为了充分利用CPU内的多条流水线,程序应满足____。

A相邻指令无依赖性

B相邻指令相互依赖

C整段程序中指令无依赖性

D整段程序中指令相互依赖

我的得分：

2分

我的答案：

2分

对于向量化,以下说法错误的是____。

A总会有打包/解包开销

B若运算对象连续存储，可消除打包开销

C若运算结果连续存储，可消除解包开销

D打包/解包开销由数据存储决定

我的得分：

2分

我的答案：

2分

对于起泡排序程序两层循环是否存在数据依赖,下面说法正确的是____。

A外层存在，内层不存在

B外层不存在，内层存在

C两层都不存在

5/13

D两层都存在

我的得分：

2分

我的答案：

2分

单精度浮点数矩阵乘法进行AVX并行,期望的加速比为____.

A等于8

B小于8

C4到8之间

D等于4

我的得分：

2分

我的答案：

2分

OpenMP主要是通过____来更高层抽象的多线程编程。

A设计实现新的语言

B为现有语言提供大量库函数

C为现有语言扩展编译指示

D新编译器实现自动并行化

我的得分：

2分

我的答案：

2分

OpenMP能实现的是____。

A避免数据竞争

B提供任务划分策略

C确保加速

D确保降低通信开销

我的得分：

2分

我的答案：

2分

对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几

个元素的___操作才能得到结果矩阵的一个元素。

A排列

B交换

C广播

D归约

我的得分：

2分

我的答案：

2分

对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一

个元素,这种说法是____。

A正确的

B错误的

我的得分：

2分

我的答案：

2分

在条件不成立时,使用pthread_cond_wait____。

A令线程阻塞

B解锁互斥量

C解锁互斥量然后令线程阻塞

D加锁互斥量

我的得分：

2分

我的答案：

2分

SSEintrinsics_mm_load_sd命令的功能是____。

A对齐标量读取单精度浮点数

B未对齐标量读取单精度浮点数

C对齐标量读取双精度浮点数

D未对齐标量读取双精度浮点数

我的得分：

2分

我的答案：

2分

编写矩阵乘法的Neon程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。

D16

我的得分：

2分

我的答案：

2分

CUDA线程层次中不包括____。

AKernel

BGrid

CBlock

DThread

我的得分：

2分

我的答案：

2分

使用____无法直接实现“主线程等待4个从线程完成任务”。

A1个信号量

B障碍

C1个互斥量

D4个互斥量

我的得分：

2分

我的答案：

2分

编译器编译OpenMP并行循环时,会自动生成一些代码,其中不包括____。

A创建和管理线程代码

B循环划分给线程的代码

C找出数据依赖的代码

D线程同步的代码

我的得分：

2分

我的答案：

2分

以下哪条不是推动并行计算发展的因素?

A存储是系统瓶颈

B单CPU发展已能满足应用需求

C利用标准硬件构造并行机令升级容易

D编程环境标准化逐步发展

我的得分：

2分

我的答案：

2分

SSE有____个专用寄存器。

C16

D33

我的得分：

2分

我的答案：

2分

主线程创建了4个线程,它们打印各自的线程号（0-3）,未使用任何同步,则输出顺序____。

A必然是0123

B必然是4321

C不可能是4321

D以上皆错

我的得分：

2分

我的答案：

2分

链表数据结构的查找、插入、删除等操作,既有对链表的读也有对链表的写,对此,采用互斥量加解锁每个节点

的同步机制相比加解锁整个链表的方式的缺点是____。

A粒度太粗，节点读写一致性不能保证

B粒度太粗，线程不必要的等待

C粒度太细，加解锁开销大

D粒度太细，总体读写一致性不能保证

我的得分：

2分

我的答案：

2分

SSE的shuffle指令的8位二进制整数参数被划分为4个2位二进制整数imm8[0:

3],若imm8[2]=j则表示___。

A将第一个源寄存器的第j个元素放在目标寄存器位置2

B将第二个源寄存器的第j个元素放在目标寄存器位置2

C将第一个源寄存器的第2个元素放在目标寄存器位置2

D将第二个源寄存器的第2个元素放在目标寄存器位置2

我的得分：

2分

我的答案：

2分

当处理器数量不变时,随着问题规模增大,效率增大对____成立。

A部分并行算法

B所有并行算法

C所有并行算法都不

D以上皆错

我的得分：

2分

我的答案：

2分

对于效率E,下面描述错误的是____。

A理想并行E=1

B总是在0~1之间

C可能>1

D可能随着处理器数量增大趋向于0

我的得分：

2分

我的答案：

2分

____执行pthread_sem_wait操作,线程进入阻塞状态。

A当信号量已加锁时

B当信号量为0时

C当信号量已超过阈值时

D当信号量已销毁时

我的得分：

2分

我的答案：

2分

任务依赖图中顶点权重之和表示____。

A任务数

B任务难度

C串行执行时间

D并行执行时间

我的得分：

2分

我的答案：

2分

编写矩阵乘法的SSE程序,若矩阵元素为双精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。

D16

我的得分：

2分

我的答案：

2分

pthread_rwlock_rdlock是对读写锁进行____操作。

A加锁

B解锁

C加读琐

D加写锁

我的得分：

2分

我的答案：

2分

OpenMP中指定多线程中只有主线程执行代码块的指令是____。

Aompsingle

Bompmaster

Compslave

Dompparallel

我的得分：

2分

我的答案：

2分

当问题规模不变时,随着处理器数量增大,加速比____。

A必然增大

B必然减小

C必然不变

D以上皆错

我的得分：

2分

我的答案：

2分

采用多核、众核技术提升CPU性能,相对于单核的优势不包括____。

A架构设计更容易

B更易突破物理极限

C能更充分利用现有资源

D功耗优势明显

我的得分：

0分

我的答案：

2分

在对互斥量进行解锁时,还会执行____操作。

A互斥量初始化

B互斥量销毁

C唤醒阻塞线程

D以上皆错

我的得分：

2分

我的答案：

2分

在分布式内存架构编程中,进程间不能____。

A进行通信

B进行同步

C发送和接收消息

D通过读写变量交换数据

我的得分：

2分

我的答案：

2分

超立方中相邻节点二进制编号____。

A至少差1位

B至多差1位

C恰好差1位

D差异不固定

我的得分：

2分

我的答案：

2分

CUDA的优点不包括____。

A可移植性

B入门简单

C标准的SPMD模式

D不再需要图形API

我的得分：

2分

我的答案：

2分

采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1

行的缺点是____。

A更不利于负载均衡

B增大了通信开销

C提高了计算次数

D增加了从进程空闲

我的得分：

2分

我的答案：

2分

每个AVX寄存器宽度为____位。

A32

B64

C128

D256

我的得分：

2分

我的答案：

2分

我们在小规模系统和小规模输入下测试了几个并行算法,应选择哪个应用在实际系统中?

A选择性能测试并行时间最少者

B选择性能测试加速比最大者

C选择性能测试效率最高者

D应结合可扩展性分析做出选择

我的得分：

2分

我的答案：

2分

Flynn分类法中,下面哪种体系结构在实际中几乎没有意义?

ASISD

BSIMD

CMISD

DMIMD

我的得分：

2分

我的答案：

2分

一个程序用pthread_create创建了4个线程,此时系统中属于这个程序的共有____线程。

我的得分：

2分

我的答案：

第二次：

2分

利用cacheline一次读取多个数据字的机制优化程序访存性能,其机理是____。

A降低了访存延迟

B隐藏了访存延迟

C利用了cache空间局部性

D利用了cache时间局部性

我的得分：

0分

我的答案：

2分

for（i=2;i<10;i++）A[i]=A[i-2]+1;此循环____数据依赖。

A存在

B不存在

C不确定

D以上皆错

我的得分：

2分

我的答案：

2分

记并行时间为T,串行时间为T',处理器数量为p,则额外开销应如何计算?

AT'-T

BT-T'

CpT

DpT-T'

我的得分：

2分

我的答案：

4OpenMP的优点不包括____。

2分

A从头编写并行程序很自然

B串行程序并行化简单

C不必关心低层细节

D可移植、可扩展

我的得分：

2分

我的答案：

2分

编写矩阵乘法的Neon程序,若矩阵元素为双精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。

D16

我的得分：

2分

我的答案：

2分

两个矩阵相乘,若矩阵总规模小于cache大小,则优化访存的最佳方法是____。

A先将两个矩阵读入cache再进行乘法

B先转置第一个矩阵再进行乘法

C先转置第二个矩阵再进行乘法

D以上皆错

我的得分：

2分

我的答案：

2分

MPI不包括的通信类别是____。

A点对点通信

B数据传输组通信

C计算和数据传输组通信

D加锁解锁通信

我的得分：

2分

我的答案：

2分

加速比计算中串行时间应该取求解同一问题的哪个串行算法的时间____。

A任意一个串行算法

B作为并行算法基础的那个串行算法

C已知最优的串行算法

D所有串行算法的平均时间

我的得分：

2分

我的答案：

2分

在128位的SIMD寄存器中,我们不能保存____。

A16个8位整数

B8个16位短整型

C4个32位整型

D16个字符的字符串

我的得分：

2分

我的答案：

2分

在使用互斥量之前必须对其进行____。

A初始化

B加锁

C解锁

D销毁

我的得分：

2分

我的答案：

2分

对于效率E,下面描述错误的是____。

A理想并行E=1

B总是在0~1之间

C可能>1

D可能随着处理器数量增大趋向于0

我的得分：

2分

我的答案：

2分

n个节点的线性阵列中,节点最远通信距离为____。

BO（logn）

CO（sqrt（n））

DO（n）

我的得分：

2分

我的答案：

2分

对矩阵每行排序的程序进行多线程并行化,对矩阵采用____。

A简单均匀块划分即可保证负载均衡

B循环划分才能实现负载均衡

C动态划分才能实现负载均衡

D随机划分才能实现负载均衡

我的得分：

2分

我的答案：

2分

如果运算对象是独立无关的变量,则在向量运算之前需____。

A将变量拷贝到连续区域

B将变量地址拷贝到连续区域

C将变量逐个传输到向量寄存器

D以上皆错

我的得分：

2分

我的答案：

2分

我国最近一次夺得全球超级计算机计算能力冠军的是____。

A天河1号

B天河1A

C天河2号

D神威.太湖之光

我的得分：

2分

我的答案：

2分

OpenMP能实现的是____。

A避免数据竞争

B提供任务划分策略

C确保加速

D确保降低通信开销

我的得分：

2分

我的答案：

2分

SIMD并行模式是将多个____运算打包并发执行。

A不同

B相同

C混合

D依赖

我的得分：

2分

我的答案：

2分

pthread_create函数中设置一个参数为“线程函数参数”的原因是____。

A它调用线程函数时可直接传递，性能更优

B它需要预处理之后传递给线程函数

C线程函数不是用户程序调用，只能采用这种方式由系统代为传递参数

D没有特别用意

我的得分：

2分

我的答案：

2分

SSE有____个专用寄存器。

C16

D33

我的得分：

2分

我的答案：

2分

全球500强超算在操作系统上越来越体现出____一家独大的趋势。

AUnix

BWindows

CLinux

Dios

我的得分：

2分

我的答案：

2分

条件变量相对于互斥量的优点是____。

A是多源状态

B加锁解锁开销低

C条件不成立时阻塞线程并自动解锁加锁

D以上皆错

我的得分：

2分

我的答案：

2分

当条件判断____时,控制流语句SIMD并行化可能达到较好效果。

A绝大部分结果为真

B绝大部分结果为假

C全部结果都一样

D绝大部分结果都一样

我的得分：

2分

我的答案：

2分

将寄存器设置为4个给定单精度浮点数的SSEintrinsics指令是____。

A_mm_set_ps

B_mm_set1_ss

C_mm_setzero_ss

D_mm_setzero_ps

我的得分：

2分

我的答案：

2分

OpenMP归约指令采用的是一种____算法。

A分治

B贪心

C动态规划

D排序

我的得分：

2分

我的答案：

2分

单精度浮点数矩阵乘法进行AVX并行,期望的加速比为____.

A等于8

B小于8

C4到8之间

D等于4

我的得分：

2分

我的答案：

2分

OpenMP中指定多线程中只有主线程执行代码块的指令是____。

Aompsingle

Bompmaster

Compslave

Dompparallel

我的得分：

2分

我的答案：

2分

pthread_join的作用是____。

A强制终止指定线程

B检测指定线程是否结束

C等待指定线程结束才返回

D向指定线程发送数据

我的得分：

2分

我的答案：

2分

静态线程编程模式的缺点是____。

A线程管理开销高

B系统资源利用率低

C线程负载不均

D线程通信开销高

我的得分：

2分

8/13

我的答案：

2分

用pthread_barrier_init初始化障碍,应提供的参数不包括____。

A障碍对象

B障碍初值

C障碍属性

D参与的线程数

我的得分：

2分

我的答案：

2分

SSE指令移动单精度浮点数,不能实现____。

A将64位数据移动到SSE寄存器高位

B将64位数据移动到SSE寄存器低位

C将32位数据移动到SSE寄存器指定位置

D在两个SSE寄存器高/低64位间移动

我的得分：

2分

我的答案：

2分

并行计算的新兴应用领域不包括____。

A制药

B数字媒体

C国防

D游戏

我的得分：

2分

我的答案：

2分

互斥量mutex机制,在任何时刻____进入它保护的区域。

A允许任意数量任意类型的线程

B允许一个读线程任意个写线程

C允许一个写线程任意个读线程

D只允许一个线程

我的得分：

2分

我的答案：

9/13

2分

对于向线程函数传递参数,下列说法错误的是____。

A线程函数并非用户程序调用，因此无法直接传递

B线程函数必须接受void*参数，因此只能传递大小不超过指针的数据对象

C线程通常通过此途径获取线程号

D不同线程间的参数传递相互无关，即使它们具有相同的线程函数

我的得分：

2分

我的答案：

2分

OpenMP不会自动地在____位置设置barrier。

A并行结构开始

B并行结构结束

C其他控制结构开始

D其他控制结构结束

我的得分：

2分

我的答案：

2分

SSE的shuffle指令的8位二进制整数参数被划分为4个2位二进制整数imm8[0:

3],若imm8[1]=j则表示___。

A将第一个源寄存器的第j个元素放在目标寄存器位置1

B将第二个源寄存器的第j个元素放在目标寄存器位置1

C将第一个源寄存器的第1个元素放在目标寄存器位置1

D将第二个源寄存器的第1个元素放在目标寄存器位置1

我的得分：

2分

我的答案：

2分

适合进行SIMD并行化的串行程序特点不包括____。

A大数据对象

B数据项连续存储

C流式计算

D算术计算密集

我的得分：

2分

我的答案：

2分

对于加速比S和处理器数量p,下列说法正确的是____。

A有可能S>p

B必然S

C不可能S=p

D两者无关联

我的得分：

2分

我的答案：

2分

采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加___前缀。

A__global__

B__device___

C__shared__

D__private__

我的得分：

2分

我的答案：

2分

在条件不成立时,使用pthread_cond_wait____。

A令线程阻塞

B解锁互斥量

C解锁互斥量然后令线程阻塞

D加锁互斥量

我的得分：

2分

我的答案：

2分

关于OpenMP循环并行程序的编写,下列说法中正确的是____。

A程序员需要编写线程创建和管理代码

B程序员需要编写循环划分代码

C程序员需要编写调度策略代码

D程序员只需指出对哪个循环进行并行，循环划分和调度策略是什么

我的得分：

2分

我的答案：

2分

OpenMP主要是通过____来更高层抽象的多线程编程。

A设计实现新的语言

B为现有语言提供大量库函数

C为现有语言扩展编译指示

D新编译器实现自动并行化

我的得分：

2分

我的答案：

2分

CPU时钟频率1GHz,每个时钟周期两个计算单元可执行4条指令,内存延迟125ns,进行向量点积运算,无cache

情况下,计算能力为

A8MFlops

B125MFlops

C1GFlops

D4GFlops

我的得分：

2分

我的答案：

2分

CUDA共享内存是由____共享。

AGrid中所有线程

B一个Block中所有线程

C一个Warp中所有线程

DGPU中所有线程

我的得分：

2分

我的答案：

2分

1）R=XR*1.3;G=XG*1.8;B=XB*1.1;2）R=X[0]*1.3;G=X[1]*1.8;B=X[2]*1.1;这两个程序片段哪个进行向量

化效率更高?

A1）

B2）

C不确定

D以上皆错

我的得分：

2分

我的答案：

2分

并行计算还主要用于国防、工程研究等领域,这种说法是_

展开阅读全文