现代微处理器体系结构课堂笔记.docx

资源描述

现代微处理器体系结构课堂笔记.docx

《现代微处理器体系结构课堂笔记.docx》由会员分享，可在线阅读，更多相关《现代微处理器体系结构课堂笔记.docx（31页珍藏版）》请在冰豆网上搜索。

现代微处理器体系结构课堂笔记.docx

现代微处理器体系结构课堂笔记

系统结构笔记

第一章绪论

1、背景介绍，市场变化及原因及趋势

2、计算机体系结构基本概念

计算机体系结构的定义

ComputerArchitecture=InstructionSetArchitecture+

MachineOrganization+Hardware

指令级结构（InstructionSetArchitecture）

研究软、硬件功能分配以及机器级界面的确定，既由机器语言程序设计者或编译程序设计者所看到的机器物理系统的抽象或定义。

但它不包括机器内部的数据流和控制流、逻辑设计和器件设计等。

计算机组织（ComputerOrganization）

ISA的逻辑实现，包括机器级内的数据流和控制流的组成以及逻辑设计等。

它着眼于机器内各事件的排序方式与控制机构、各部件的功能以及各部件间的联系。

计算机实现（ComputerImplementation）

是指计算机组成的物理实现，包括处理机、主存等部件的物理结构，器件的集成度和速度，器件、模块、插件、底板的划分与连接，专用器件的设计，微组装技术，信号传输，电源、冷却及整机装配技术等。

它着眼于器件技术和微组装技术，其中，器件技术在实现技术中起着主导作用。

计算机体系结构＝ISA+Organization+Hardware

3、定量分析技术基础

1、计算机系统评价

当客户拿到一组机器时，他们肯定想知道哪个性能最好，哪个价格最低，哪个性价比最高？

而我们设计者则需要最大限度的提高性能，使性价比达到最高，因此我们必须要就基本的评价标准和方法。

常用性能评价指标：

执行时间（CPUTime）、峰值速度（PeakPerformance）、负载（load）

开销（overhead）、利用率（utilizationratio）、饱和性能（saturateperformance）、

带宽（bandwidth）、延迟（latency）、吞吐率（throughout）、加速比（speedup）、

Amdahi定律（amdahilaw）、效率（efficiency）、基准测试（benchmark）、

响应时间（responsetime）等等

2、性能度量

性能定义为每秒完成的任务数-biggerisbetter

如果我们更关心响应时间（responsetime）

X性能是Y的n倍是指

3、性能设计与评测的基本原则

并行性

大概率事件优先原则

所有指令都需要取指令操作，只有部分指令访问数据

优化指令访问操作比优化数据访问操作优先

程序局部性原理：

时间局部性、空间局部性

4、Amdahl’s定律

Speedup（withE）=1/（（1-F）+F/S））F指fraction（小部分）S指小部分的加速比

CPUtime=CPI*IC*T

CPUtime=Seconds=InstructionsxCyclesxSeconds

ProgramProgramInstructionCycle

执行时间是计算机系统度量的最实际，最可靠的方式

第二章指令集结构设计

对于一种指令集结构，我们必须要知道指令格式或编码方式，操作数和操作结果存放的位置，数据类型和大小，寻址方式，支持哪些操作，下一条指令的地址（jumps，conditions，branches）

1、指令集结构分类

累加器型、堆栈型、通用寄存器型、存储器-存储器型

通用寄存器型占主导地位，因为寄存器比存储器快，对编译器而言，寄存器更容易使用

通用寄存器的分类：

优点

缺点

指令格式简单，并且长度固定，是一种简单的代码生成模型，各种指令的执行时钟周期数相近。

指令条数相对较多，目标代码大。

直接对存储器操作数进行访问，容易对指令进行编码，且其目标代码较小。

指令中的操作数类型不同。

指令的操作数可以存储在不同类型的存储器单元，所以每条指令的执行时钟周期数也不尽相同。

Memory-Memory

编码方式紧密，不用为保存临时变量而浪费寄存器空间。

指令字长多种多样。

每条指令的执行时钟周期数也大不一样，对存储器的频繁访问将导致存储器访问瓶颈问题。

2、寻址方式

如何解释存储器地址？

如何说明寻址方式？

目前几乎所有的机器的存储器都是按字节编址的，当读取一个32位字时，如果每次一个字节，四次完成，每次一个字，一次就可以了，问题来了：

如何将字节地址映射到字地址（尾端问题）

一个字是否可以存放在任何字节边界上（对齐问题）

对齐问题：

对一个s字节的对象访问，地址为A，如果Amods=0那么它就是边界对齐的。

边界对齐的原因是存储器本身读写的要求，存储器本身读写通常就是边界对齐的，对于不是边界对齐的对象的访问可能要导致存储器的两次访问，然后再拼接出所需要的数。

（或发生异常）

重要的寻址方式:

偏移寻址方式,立即数寻址方式,寄存器间址方式

SPEC测试表明，使用频度达到75%--99%

还有其他很多寻址方式，这里就不解释了

3、操作数的类型、表示和大小

操作数类型是面向应用，面向软件系统所处理的各种数据结构

整型、浮点型、字符、字符串、向量类型等

类型由操作码确定或数据附加硬件解释的标记，一般采用由操作码确定

操作数的表示：

硬件结构能够识别，指令系统可以直接调用的结构

整型：

原码、反码、补码

浮点：

IEEE754标准

十进制：

BCD码，二进制十进制表示

单字、双字的数据访问具有较高的频率

4、指令集功能设计

需考虑的因素：

速度、价格和灵活性。

基本要求：

指令系统的完整性、规整性、高效率和兼容性

完整性设计：

具备基本指令种类

兼容性：

系列机

高效率：

指令执行速度快、使用频度高

规整性：

让所有运算部件都能对称、均匀的在所有数据存储单元之间进行操作。

对所有数据存储单元都能同等对待，无论是操作数或运算结果都可以无约束地存放到任意数据存储单元中

正交性：

数据类型独立于寻址方式，寻址方式独立于所要完成的操作

1、CISC计算机指令集结构的功能设计

目标：

增强指令功能，减少指令的指令条数，以提高系统性能

面向目标程序的优化，面向高级语言和编译器的优化

对大量的目标程序机器执行情况进行统计分析，找出使用频度高，执行时间长的指令或指令串

对于那些使用频度高的指令，用硬件加快其执行，对于那些使用频度高的指令串，用一条新的指令来代替它

2、RISC计算机指令结构的功能设计

通过简化指令系统，用最高效的方法实现最常用的指令

充分发挥流水线的效率，减少CPI

硬件方面：

硬布线控制逻辑，减少指令和寻址方式的种类，使用固定格式，采用Load/Store，指令执行过程中设置多级流水线。

软件方面：

十分强调优化编译的作用

5、指令格式

指令格式选择策略

如果代码长度最重要，那么使用变长指令格式

如果性能至关重要，使用固定长度指令

有些嵌入式CPU附加可选模式，由每一应用自己选择性能还是代码量

有些机器使用边执行边解压的方式

如果每条指令存在多个存储器操作数，或有多种寻址方式,每一操作数都要说明其寻址方式

6、编译技术与计算机体系结构

编译优化-4个层次

高层优化：

一般在源码上进行，同时把输出传递给以后的优化扫描步骤

局部优化：

仅在一系列代码片断之内（基本块）将代码优化

全局优化：

将局部优化扩展为跨越分支，并且引入一组针对优化循环的转换

与机器相关的优化：

充分利用特定的系统结构

第三章流水线技术

1、流水线技术

流水线技术要点

流水线技术并不能提高单个任务的执行效率，它可以提高整个系统的吞吐率

流水线中的瓶颈——最慢的那一段

多个任务同时执行，但使用不同的资源

其潜在的加速比＝流水线的级数

流水段所需时间不均衡将降低加速比

流水线存在装入时间和排空时间，使得加速比降低

由于存在相关问题，会导致流水线停顿

流水线正常工作的基本条件

增加寄存器文件保存当前段传送到下一段的数据和控制信息

存储器带宽是非流水的5倍

指令流水线通过指令重叠减小CPI

充分利用数据通路

当前指令执行时，启动下一条指令

其性能受限于花费时间最长的段:

解决办法：

串联：

将最慢段进一步划分

并联：

增加部件

检测和消除相关

如何有利于流水线技术的应用

所有的指令都等长

只有很少的指令格式

只用Load/Store来进行存储器访问

TP:

吞吐率S加速比E效率-设备利用效率

2、流水线的相关

采用流水线技术必然会带来流水线相关问题，虽然我们使用等待策略总是可以解决相关,但是，流水线控制必须能检测相关，否则由软件设计来避免

结构相关同一时间两种方式使用同一资源（停顿等待）

数据相关在数据未准备好之前，就需要使用数据当前指令的执行需要上一条指令的结果（RAW,WAW,WAR硬件方法：

采用定向技术，软件方法：

指改变指令顺序，插入缓冲槽，指令集调度）

RAW（写后读）由于实际的数据交换需求而引起的

WAR（读后写）由于重复使用寄存器名“r1”引起的

DLX5段基本流水线不会有此类相关因为，所有的指令都是5段,并且读操作总是在第2段，而写操作在第5段。

WAW（写后写）也是由于重复使用寄存器“r1”引起的

在DLX5段基本流水线中，也不会发生。

因为所有指令都是5段，并且写操作都在第5段，在后面的复杂的流水线中我们将会看到WAR和WAW相关。

控制相关由于控制类指令引起的，试图在条件未评估之前，就做决定

分支需要解决两个问题：

分支目标地址（转移成功意谓着PC值不是PC+4），转移条件是否有效，这两点在DLX中都在流水线的靠后段中确定

译码在ID段后，转移地址必须在ID段后才知道，此时取进来的指令可能是错误的指令

解决控制相关的静态方法：

1、Stall：

直到分支方向确定

2、预测分支失败：

直接执行后继指令，如果分支实际情况为分支成功，则撤销流水线中的指令对流水线状态的更新

DLX分支指令平均47%为分支失败

由于PC+4已经计算出来，因此可以用它来取下一条指令

3、预测分支成功：

平均53%DLX分支为分支成功，但分支目标地址在ID段才能计算出目标地址

4、延迟转移：

选择指令来填充延迟槽

3、异常精确中断非精确中断

异常发生在指令中，并且要求恢复执行，要求==>流水线必须安全地shutdown

PC必须保存，如果重新开始的是一条分支指令，它需要重新执行

引起异常的指令前面的指令都已执行完，故障后的指令可以重新从故障点后执行

理想情况，引起故障的指令没有改变机器的状态

要正确的处理这类异常请求，必须保证故障指令不产生副作用

精确中断对整数流水线而言，不是太难实现

第四章指令级并行

本章研究的是减少停顿（stalls）数的方法和技术

流水线提高的是指令带宽（吞吐率），而不是单条指令的执行速度