计算机体系结构.docx

资源描述

计算机体系结构.docx

《计算机体系结构.docx》由会员分享，可在线阅读，更多相关《计算机体系结构.docx（12页珍藏版）》请在冰豆网上搜索。

计算机体系结构.docx

计算机体系结构

并行计算

之我见

指导老师：

陈丽萍

学院：

信息科学与工程学院

班级：

计科0908班

姓名：

原海南

学号：

0909083125

完成日期：

2012年5月21日

1.并行计算简介

1.1什么是并行计算

1.2为什么需要并行计算

1.3并行计算的历史

1.4并行计算的现状

2.并行计算与互联网

2.1并行计算的体系结构

2.2并行计算网络拓扑结构

3.并行机分类

3.1传统分类

3.1.1单指令多数据流（SIMD）

3.1.2多指令多数据流（MIMD）

3.2按内存访问模型，微处理器和网络的不同分类

3.2.1对称多处理共享存储并行机（SMP）

3.2.2分布共享存储并行机（DSM）

3.2.3机群（Cluster）

3.2.4星群（Constellation）

3.2.5大规模并行机（MPP）

4.并行算法

4.1并行算法的历史

4.2并行计算的分类及简介

5.并行计算程序的性能与优化

5.1并行计算的程序的执行时间

5.2并行程序性能优化

6.参考文献

正文

1.并行计算简介

1.1什么是并行计算

并行计算（ParalledComputing）是指，在并行机上，将这个任务分解成多个子任务，分配给不同的处理器。

各个处理器之间相互协同，并行地执行子任务，从而达到加速求解速度，或者求解问题规模的目的。

1.2为什么需要并行计算

大规模科学与工程计算应用是推动并行计算发展的主要动力。

长期以来，它们对并行计算的需要是相依相扶的。

比如，全球气象预报中天气预报模式要求在24小时内完成48小时天气预测数据模拟。

此时，至少需要计算635万个网格点，内存需求大于1TB，计算性能要求达到25万亿次/秒。

除此之外，在天体物理，流体力学，密码破译，海洋大气环境，石油勘探，地震数据处理，生物信息处理，新药研制，工业制造，图像处理等均需要并行计算的支持。

1.3并行计算的历史

从20世纪40年代开始的现代计算机发展历程可以分为两个明显的发展时代：

串行计算时代、并行计算时代。

每一个计算时代都从体系结构发展开始，接着是系统软件（特别是编译器与操作系统）、应用软件，最后随着问题求解环境的发展而达到顶峰。

20世纪60年代初期，由于晶体管以及磁芯存储器的出现，处理单元变得越来越小，存储器也更加小巧和廉价。

这些技术发展的结果导致了并行计算机的出现。

这一时期的并行计算机多是规模不大的共享存储多处理器系统，即所谓大型主机。

IBM360是这一时期的典型代表。

到了20世纪60年代末期，同一个处理器开始设置多个功能相同的功能单元，流水线技术也出现了。

与单纯提高时钟频率相比，这些并行特性在处理器内部的应用大大提高了并行计算机系统的性能。

伊利诺依大学和Burroughs公司此时开始实施IlliacⅣ计划，研制一台64颗CPU的SIMD主机系统，它涉及到硬件技术、体系结构、I/O设备、操作系统、程序设计语言直至应用程序在内的众多研究课题。

不过，当一台规模大大缩小的原型系统（仅使用了16颗CPU）终于在1975年面世时，整个计算机界已经发生了巨大变化。

20世纪80年代中期，加州理工学院成功地将64个i8086/i8087处理器通过超立方体互连结构连结起来。

此后，便先后出现了InteliPSC系列、INMOSTransputer系列，IntelParagon以及IBMSP的前身Vulcan等基于消息传递机制的并行计算机。

20世纪80年代末到90年代初，共享存储器方式的大规模并行计算机又获得了新的发展。

IBM将大量早期RISC微处理器通过蝶形互连网络连结起来。

人们开始考虑如何才能在实现共享存储器缓存一致的同时，使系统具有一定的可扩展性。

20世纪90年代初期，斯坦福大学提出了DASH计划，它通过维护一个保存有每一缓存块位置信息的目录结构来实现分布式共享存储器的缓存一致性。

后来，IEEE在此基础上提出了缓存一致性协议的标准。

20世纪90年代至今，主要的几种体系结构开始走向融合。

属于数据并行类型的CM-5除大量采用商品化的微处理器以外，也允许用户层的程序传递一些简单的消息。

CrayT3D是一台NUMA结构的共享存储型并行计算机，但是它也提供了全局同步机制、消息队列机制，并采取了一些减少消息传递延迟的技术。

随着微处理器商品化、网络设备的发展以及MPI/PVM等并行编程标准的发布，集群架构的并行计算机出现开始。

IBMSP2系列集群系统就是其中的典型代表。

在这些系统中，各个节点采用的都是标准的商品化计算机，它们之间通过高速网络连接起来。

1.4并行计算的现状

目前，在计算力学领域内，围绕着基于变分原理的有限元法和基于边界积分方程的边界元法，以及基于现在问世的各种并行计算机，逐渐形成了一个新的学科分支——有限元并行计算。

它是高效能的，使得许多现在应用串行计算机和串行算法不能解决或求解不好的大型的、复杂的力学问题能得到满意的解答，故其发展速度十分惊人。

在国际上已经掀起了利用并行机进行工程分析和研究的高潮。

从1975到1995年的二十年间，有关有限元方法和相应的数值并行计算的文章已发表1000余篇。

有限元并行计算正在向两个方向发展。

一是对系统方程组实施并行求解的各种算法。

二是并行分析方法，包括有限元并行算法和边界元并行算法，前者趋向成熟，而后者的研究较少。

对这一方面的研究，是为了挖掘有限元计算自身潜在的并行性，是有限元并行计算的根本问题。

并行算法的设计和有效实现强烈地依赖于并行机的硬软件环境。

国内仅极少数单位拥有并行机，且机型杂乱，因此研究人员少，起步晚，而且局限于特定的硬件环境。

从有限元分析方法的内容来看，发表的几十篇研究论文（报告）还未显示出较强的系统性。

国内并行计算方法的研究，在硬件上基于向量机、分布式并行机和共享存贮式并行机；在内容上，似乎面很广，但系统性和深度还很不够，软件开发距实际应用和商品化还有很大距离，对不依赖并行机具体环境的通用并行算法研究还很少，同样对旨在进行结构有限元分析的并行计算的硬件研究也很少。

自从美国国家宇航局（NASA）的A.K.Noor于1975年发表第一篇有限元并行计算的文章以来，有限元并行处理技术几乎与并行计算机同步发展。

距不完全统计，到1992年，国外已发表了400余篇这方面的论文，其中后5年的文章篇数是前12年的总和。

在研究内容上也由过去的算法研究发展到了算法、软件和硬件相结合的研究，并针对一些机型开发了一些实用的大型结构分析软件。

当前，并行和分布计算发展的基本状况是：

1并行软件的发展远远落后于并行和分布计算体系结构的发展。

2并行和分布计算应用远远落后于并行和分布计算技术的发展。

3向尽量采用商品化的软、硬件甚至系统来构成并行和分布计算系统平台的方向发展。

4计算系统的规模可伸缩性和可编程性已成为并行和分布计算系统进一步发展的一对主要矛盾。

5由高速网联成的各种类型的、规模可伸缩计算机群，由于其经济有效性而发展很快，加上可移植异构编程环境PVM（ParallelVirtualMacRine）日益流行和标准的消息传送平台MPI（MessagePassingInterface）并行编程环境的日益普及，已经并将进一步促使并行和分布计算应用有较大的发展。

6由基于NUMA（Non-UniformMemoryAccess）方式构成的分布共享存储器（DistributedSharedMemory，DSM）组成的并行机系统，特别是采用目录方法来保持各cache之间数据一致性的CC-NUMA（CacheCoherentNUMA），由于具有良好的可伸缩性和可编程性，已受到诸多计算机厂商的青睐，不少厂商已经和准备推出有关CC-NUMA并行机系统。

7大规模并行处理系统已不再是主要研究领域。

由于负载难于平衡和相应的并行算法设计困难，据国外预测，在高能计算机市场中，MPP所占的份额将从目前的7%降为2000年的3%。

美国在并行和分布计算研究领域中，一直处于领先地位。

研究重点已从原来热门非凡的MPP系统转向可伸缩并行机（ScalableParallelComputers）和各种类型的计算机机群。

特别是后者，因为如果部门或单位已有现成的由局域网连接起来的众多工作站、PC机、服务器及并行机系统，则组成计算机机群的分布计算系统的成本就相当低，而它们的整体性能则可随机群局域互联网性能的提高（从10Mbps、100Mbps、155Mbps、622Mbps到1Gbps等）、构成机群的结点机性能提高以及运行软件的效率提高而不断提高。

美国计算机厂商对由NUMA方式，特别是CC-NUMA方式构成的可伸缩并行机系统特别看好。

SGI公司推出的Origin2000采用可伸缩共享内存多处理器结构，采用MIPSR100004路超标量处理器。

每个结点机由若干个CPU、一定容量存储器、相应I/O带宽和电源模块组成。

随着模块数增多，系统规模也随之增大，在增加处理器数目的同时，存储器容量和I/O带宽也按比例增长。

为了提高整个系统带宽，各模块间用高速的Craylink（高速光缆）连接器连接起来，从而保证系统具有良好的可伸缩性。

Sequent公司则用传统SMP多机系统作为结点机，最小规模的结点机内有4个Intel的Pentium-Pro超标量机以及相应存储器和7个PCI槽。

这种结点模块称为NUMA-Q（Quad）。

更大规模的结点机可由若干个Quad组成。

各Quad之间用高速IQLink连接器连接起来，形成规模可伸缩CC-NUMA并行机系统。

HP公司沿用Sequent公司的类似方法和技术来构成自己的CC-NUMA并行机产品。

应指出的是上述的CC-NUMA系统都是遵照基于目录表原理的SCI（ScalableCo

展开阅读全文