1、C采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在_。CPU内存GPU显存GPU共享内存GPU寄存器pthread_rwlock_wrlock是对读写锁进行_操作。加锁解锁加读琐加写锁SSE数据移动指令分类不包括_。对齐传输未对齐传输标量传输缓存传输SSE intrinsics _mm_load_pd命令的功能是_。对齐向量读取单精度浮点数未对齐向量读取单精度浮点数对齐向量读取双精度浮点数未对齐向量读取双精度浮点数每个SSE寄存器宽度为_位。3264128256我国首次获得戈登?贝尔奖是在_年。2015201620172018BFORTRAN语言存储二维数组采取_。行主次序存储
2、列主次序存储交错式存储对角线存储对于科学仿真并行计算的一般方法,哪个步骤的描述是错误的?将空间离散化为网格在网络上进行局部计算局部计算结果完全独立重复若干时间步当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。多核和众核技术突破物理局限改善散热采用新材料A我国最近一次夺得全球超级计算机计算能力冠军的是_。天河1号天河1A天河2号神威.太湖之光对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是_。正确的错误的MPI组通信操作不包括哪类_。通信同步点对点计算对一个串行程序进行SIMD并行化,应重点考虑的程序部分是_。声明语句条件分
3、支语句循环语句输入输出语句在使用互斥量之后必须对其进行_。初始化销毁_执行pthread_sem_post操作,当前线程会唤醒阻塞线程。当信号量已加锁时当信号量为0时当信号量已超过阈值时当信号量已销毁时一个AVX寄存器最多存放_个双精度浮点数。2816OpenMP不会自动地在_位置设置barrier。并行结构开始并行结构结束其他控制结构开始其他控制结构结束关于障碍机制,下面说法错误的是_。会导致快速线程阻塞,不应使用在需要强制线程步调一致时,应使用可用互斥量机制实现属于一种组通信动态线程编程模式的缺点是_。线程管理开销高系统资源利用率低线程任务分配困难线程通信效率低任务依赖图中顶点权重之和表示
4、_。任务数任务难度串行执行时间并行执行时间编写矩阵乘法的AVX程序,若矩阵元素为单精度浮点数,则应对矩阵乘加计算的循环进行_路循环展开。CUDA的优点不包括_。可移植性入门简单标准的SPMD模式不再需要图形API为了实现向量计算,SIMD架构还需提供_。更大的内存容量更快的内存传输更宽的寄存器更快的网络传输主线程通过_函数获取特定线程的返回结果。pthread_createpthread_joinpthread_cancelpthread_getn个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。肯定不是代价最优肯定是代价最优不确定是否代价最优以上皆错为防止编译器不支
5、持OpenMP,应使用_实现OpenMP代码和普通代码的条件编译。#include #pragma omp parallel#ifdef _OPENMP#define _OPENMP在使用条件变量之前必须对其进行_。采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。更有利于负载均衡减少了通信开销降低了计算次数减少了从进程空闲以下超级计算机中,_是SIMD架构。CRAY-1对划分输入数据的策略,下面说法错误的是_。当输出数据很少时,需划分输入数据当输出数据存在依赖时,需划分输入数据通常最后需要汇总结果由于不是直接划分输出数据,性能会
6、很差实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。omp parallelomp barrieromp criticalomp reducefor (i=2; i10; i+) Ai = Ai-2+1; 此循环_数据依赖。存在不存在不确定SSE intrinsics _mm_hadd_ps命令的功能是_。寄存器间单精度浮点数向量加法寄存器间双精度浮点数向量加法寄存器内单精度浮点数加法寄存器内双精度浮点数加法一个Neon寄存器最多存放_个双精度浮点数。关于并行代价,下面描述正确的是_。总是小于串行时间总是大于并行时间总是与并行时间渐进相等在使用条件变量之后必须对其进行_。下列
7、哪门课程不是并行程序设计的先导课?计算机概论高级语言程序设计计算机体系结构数据库系统CPU cache大小为32KB,64*64的两个矩阵进行加法计算,下面说法正确的是_。可利用cache时间局部性优化性能可利用cache空间局部性优化性能可通过矩阵分片优化性能访存方面无优化可能记并行时间为T,串行时间为T,处理器数量为p,并行代价的定义是_。pTT+Tp(T-T)pT-T每个AVX寄存器宽度为_位。伸缩性的含义不包括_。硬件能升级扩展扩大系统规模构造成本增长不快程序在新硬件下仍能高效运行程序在更大规模系统下仍能高效运行静态线程编程模式的缺点是_。线程负载不均线程通信开销高OpenMP循环并行指令是_。omp singleomp parallel foromp master对单精度浮点计算,SSE最高实现_路并行。MMX有_个专用寄存器。在MPI中从/向虚拟进程收/发消息的实际效果是_。与通信域根进程通信与0号进程通信像什么都没发生一样1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1; 这两个程序片段哪个进行向量化效率更高?1)2)
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1