现代微处理器体系结构课堂笔记.docx-资源下载

现代微处理器体系结构课堂笔记.docx

1、现代微处理器体系结构课堂笔记系统结构笔记第一章绪论1、背景介绍，市场变化及原因及趋势2、计算机体系结构基本概念计算机体系结构的定义 Computer Architecture = Instruction Set Architecture + Machine Organization + Hardware指令级结构(Instruction Set Architecture)研究软、硬件功能分配以及机器级界面的确定，既由机器语言程序设计者或编译程序设计者所看到的机器物理系统的抽象或定义。但它不包括机器内部的数据流和控制流、逻辑设计和器件设计等。计算机组织(Computer Organizatio

2、n)ISA的逻辑实现，包括机器级内的数据流和控制流的组成以及逻辑设计等。它着眼于机器内各事件的排序方式与控制机构、各部件的功能以及各部件间的联系。计算机实现（Computer Implementation）是指计算机组成的物理实现，包括处理机、主存等部件的物理结构，器件的集成度和速度，器件、模块、插件、底板的划分与连接，专用器件的设计，微组装技术，信号传输，电源、冷却及整机装配技术等。它着眼于器件技术和微组装技术，其中，器件技术在实现技术中起着主导作用。计算机体系结构ISA + Organization + Hardware 3、定量分析技术基础1、计算机系统评价当客户拿到一组机器时，他们

3、肯定想知道哪个性能最好，哪个价格最低，哪个性价比最高？而我们设计者则需要最大限度的提高性能，使性价比达到最高，因此我们必须要就基本的评价标准和方法。常用性能评价指标：执行时间（CPU Time）、峰值速度（Peak Performance）、负载（load）开销（overhead）、利用率（utilization ratio）、饱和性能（saturate performance）、带宽（bandwidth）、延迟（latency）、吞吐率（throughout）、加速比（speedup）、Amdahi定律（amdahi law）、效率（efficiency）、基准测试（benchmark）、响

4、应时间（response time）等等2、性能度量性能定义为每秒完成的任务数-bigger is better如果我们更关心响应时间（response time） X性能是Y的n倍是指3、性能设计与评测的基本原则并行性大概率事件优先原则所有指令都需要取指令操作，只有部分指令访问数据优化指令访问操作比优化数据访问操作优先程序局部性原理：时间局部性、空间局部性4、Amdahls 定律Speedup(with E) = 1/(1-F)+F/S) F指fraction（小部分）S指小部分的加速比CPU time = CPI * IC * T CPU time = Seconds = Instruct

5、ions x Cycles x Seconds Program Program Instruction Cycle执行时间是计算机系统度量的最实际，最可靠的方式第二章指令集结构设计对于一种指令集结构，我们必须要知道指令格式或编码方式，操作数和操作结果存放的位置，数据类型和大小，寻址方式，支持哪些操作，下一条指令的地址（jumps，conditions，branches）1、指令集结构分类累加器型、堆栈型、通用寄存器型、存储器-存储器型通用寄存器型占主导地位，因为寄存器比存储器快，对编译器而言，寄存器更容易使用通用寄存器的分类：优点缺点Register-Register指令格式简单，并且长度

6、固定，是一种简单的代码生成模型，各种指令的执行时钟周期数相近。指令条数相对较多，目标代码大。Register-Memory直接对存储器操作数进行访问，容易对指令进行编码，且其目标代码较小。指令中的操作数类型不同。指令的操作数可以存储在不同类型的存储器单元，所以每条指令的执行时钟周期数也不尽相同。Memory-Memory编码方式紧密，不用为保存临时变量而浪费寄存器空间。指令字长多种多样。每条指令的执行时钟周期数也大不一样，对存储器的频繁访问将导致存储器访问瓶颈问题。2、寻址方式如何解释存储器地址？如何说明寻址方式？目前几乎所有的机器的存储器都是按字节编址的，当读取一个32位字时，如果每次一个字

7、节，四次完成，每次一个字，一次就可以了，问题来了：如何将字节地址映射到字地址（尾端问题）一个字是否可以存放在任何字节边界上（对齐问题）对齐问题：对一个s字节的对象访问，地址为A，如果A mod s =0 那么它就是边界对齐的。边界对齐的原因是存储器本身读写的要求，存储器本身读写通常就是边界对齐的，对于不是边界对齐的对象的访问可能要导致存储器的两次访问，然后再拼接出所需要的数。（或发生异常）重要的寻址方式:偏移寻址方式, 立即数寻址方式, 寄存器间址方式SPEC测试表明，使用频度达到 75%-99%还有其他很多寻址方式，这里就不解释了3、操作数的类型、表示和大小操作数类型是面向应用，面向软件系统

8、所处理的各种数据结构整型、浮点型、字符、字符串、向量类型等类型由操作码确定或数据附加硬件解释的标记，一般采用由操作码确定操作数的表示：硬件结构能够识别，指令系统可以直接调用的结构整型：原码、反码、补码浮点：IEEE 754标准十进制：BCD码，二进制十进制表示单字、双字的数据访问具有较高的频率4、指令集功能设计需考虑的因素：速度、价格和灵活性。基本要求：指令系统的完整性、规整性、高效率和兼容性完整性设计：具备基本指令种类兼容性：系列机高效率：指令执行速度快、使用频度高规整性：让所有运算部件都能对称、均匀的在所有数据存储单元之间进行操作。对所有数据存储单元都能同等对待，无论是操作数或运算结果都可

9、以无约束地存放到任意数据存储单元中正交性：数据类型独立于寻址方式，寻址方式独立于所要完成的操作1、CISC计算机指令集结构的功能设计目标：增强指令功能，减少指令的指令条数，以提高系统性能面向目标程序的优化，面向高级语言和编译器的优化对大量的目标程序机器执行情况进行统计分析，找出使用频度高，执行时间长的指令或指令串对于那些使用频度高的指令，用硬件加快其执行，对于那些使用频度高的指令串，用一条新的指令来代替它2、RISC计算机指令结构的功能设计通过简化指令系统，用最高效的方法实现最常用的指令充分发挥流水线的效率，减少CPI硬件方面：硬布线控制逻辑，减少指令和寻址方式的种类，使用固定格式，采用Loa

10、d/Store，指令执行过程中设置多级流水线。软件方面：十分强调优化编译的作用5、指令格式指令格式选择策略如果代码长度最重要，那么使用变长指令格式如果性能至关重要，使用固定长度指令有些嵌入式CPU附加可选模式，由每一应用自己选择性能还是代码量有些机器使用边执行边解压的方式如果每条指令存在多个存储器操作数，或有多种寻址方式, 每一操作数都要说明其寻址方式6、编译技术与计算机体系结构编译优化-4个层次高层优化：一般在源码上进行，同时把输出传递给以后的优化扫描步骤局部优化：仅在一系列代码片断之内（基本块）将代码优化全局优化：将局部优化扩展为跨越分支，并且引入一组针对优化循环的转换与机器相关的

11、优化：充分利用特定的系统结构第三章流水线技术1、流水线技术流水线技术要点流水线技术并不能提高单个任务的执行效率，它可以提高整个系统的吞吐率流水线中的瓶颈最慢的那一段多个任务同时执行，但使用不同的资源其潜在的加速比流水线的级数流水段所需时间不均衡将降低加速比流水线存在装入时间和排空时间，使得加速比降低由于存在相关问题，会导致流水线停顿流水线正常工作的基本条件增加寄存器文件保存当前段传送到下一段的数据和控制信息存储器带宽是非流水的5倍指令流水线通过指令重叠减小 CPI充分利用数据通路当前指令执行时，启动下一条指令其性能受限于花费时间最长的段:解决办法：串联：将最慢段进一步划分并联：增加部件检测和

12、消除相关如何有利于流水线技术的应用所有的指令都等长只有很少的指令格式只用Load/Store来进行存储器访问TP:吞吐率 S加速比 E效率-设备利用效率2、流水线的相关采用流水线技术必然会带来流水线相关问题，虽然我们使用等待策略总是可以解决相关,但是，流水线控制必须能检测相关，否则由软件设计来避免结构相关同一时间两种方式使用同一资源（停顿等待）数据相关在数据未准备好之前，就需要使用数据当前指令的执行需要上一条指令的结果（RAW,WAW,WAR 硬件方法：采用定向技术，软件方法：指改变指令顺序，插入缓冲槽，指令集调度）RAW（写后读）由于实际的数据交换需求而引起的WAR（读后写）由于重复使

13、用寄存器名“r1”引起的DLX 5 段基本流水线不会有此类相关因为，所有的指令都是5段, 并且读操作总是在第2段，而写操作在第5段。 WAW（写后写）也是由于重复使用寄存器“r1”引起的在DLX 5段基本流水线中，也不会发生。因为所有指令都是5段，并且写操作都在第5段，在后面的复杂的流水线中我们将会看到 WAR 和WAW 相关。控制相关由于控制类指令引起的，试图在条件未评估之前，就做决定分支需要解决两个问题：分支目标地址（转移成功意谓着PC值不是 PC+4），转移条件是否有效，这两点在DLX中都在流水线的靠后段中确定译码在ID段后，转移地址必须在ID段后才知道，此时取进来的指令可能是错误的指

14、令解决控制相关的静态方法：1、Stall：直到分支方向确定2、预测分支失败：直接执行后继指令，如果分支实际情况为分支成功，则撤销流水线中的指令对流水线状态的更新DLX分支指令平均47%为分支失败由于PC+4已经计算出来，因此可以用它来取下一条指令3、预测分支成功：平均53% DLX 分支为分支成功，但分支目标地址在ID段才能计算出目标地址4、延迟转移：选择指令来填充延迟槽3、异常精确中断非精确中断异常发生在指令中，并且要求恢复执行，要求=流水线必须安全地 shut downPC必须保存，如果重新开始的是一条分支指令，它需要重新执行引起异常的指令前面的指令都已执行完，故障后的指令可以重新从

15、故障点后执行理想情况，引起故障的指令没有改变机器的状态要正确的处理这类异常请求，必须保证故障指令不产生副作用精确中断对整数流水线而言，不是太难实现第四章指令级并行本章研究的是减少停顿(stalls)数的方法和技术流水线提高的是指令带宽（吞吐率），而不是单条指令的执行速度相关限制了流水线性能的发挥结构相关：需要更多的硬件资源数据相关：需要定向，编译器调度控制相关：尽早检测条件，计算目标地址，延迟转移，预测增加流水线的级数会增加相关产生的可能性异常，浮点运算使得流水线控制更加复杂编译器可降低数据相关和控制相关的开销Load 延迟槽Branch 延迟槽Branch预测1、指令级并行的概念计算机系统

16、的并行性，从执行程序的角度，分为：指令内部并行：指令内部的微操作指令级并行：并行执行两条或多条指令任务级或过程级并行：并行执行两个或多个过程或任务作业或程序级并行：在多个作业或程序间并行从处理数据的角度，并行性等级分为：字串位串字串位并字并位串全并行提高并行的三种途径时间重叠资源重复资源共享ILP: 无关的指令重叠执行流水线的平均CPIPipeline CPI = Ideal Pipeline CPI + Struct Stalls + RAW Stalls + WAR Stalls + WAW Stalls + Control Stalls 2、硬件方案: 指令级并行为什么要使用硬件调度方案

17、?在编译时无法确定的相关，可以通过硬件调度来优化编译器简单代码在不同组织结构的机器上，同样可以有效的运行基本思想: 允许 stall后的指令继续向前流动DIVD F0,F2,F4ADDD F10,F0,F8SUBD F12,F8,F14允许乱序执行（out-of-order execution） = out-of-order completion硬件方案之一: 记分牌记分牌控制的四阶段1、Issue指令译码，检测结构相关如果当前指令所使用的功能部件空闲，并且没有其他活动的指令使用相同的目的寄存器（WAW), 记分牌发射该指令到功能部件，并更新记分牌内部数据，如果有结构相关或WAW相关，则该指

18、令的发射暂停，并且也不发射后继指令，直到相关解除. 2、Read operands没有数据相关时，读操作数如果先前已发射的正在运行的指令不对当前指令的源操作数寄存器进行写操作，或者一个正在工作的功能部件已经完成了对该寄存器的写操作，则该操作数有效. 操作数有效时，记分牌控制功能部件读操作数，准备执行。记分牌在这一步动态地解决了RAW相关，指令可能会乱序执行。3、Execution取到操作数后执行 (EX) 接收到操作数后，功能部件开始执行. 当计算出结果后，它通知记分牌，可以结束该条指令的执行. 4、Write resultfinish execution (WB) 一旦记分牌得到功能部件执行

19、完毕的信息后，记分牌检测WAR相关，如果没有WAR相关，就写结果，如果有WAR 相关，则暂停该条指令。 Example: DIVD F0,F2,F4 ADDD F10,F0,F8 SUBD F8,F8,F14CDC 6600 scoreboard 将暂停SUBD直到ADDD读取操作数后，才进入WR段处理。记分牌的主要思想是：允许stall后的指令继续进行处理可以out-of-order execution = out-of-order completionID 段检测结构相关和WAW相关6600 scoreboard的缺陷:没有定向数据通路指令窗口较小，仅局限于基本块内的调度功能部件数较少，容

20、易产生结构相关，特别是其Load store操作也是用IU部件完成的结构冲突时不能发射WAR相关是通过等待解决的WAW相关时，不会进入IS阶段动态调度方案之二：Tomasulo AlgorithmTomasulo 算法的三阶段：性能受限于Common Data Bus1、Issue从FP操作队列中取指令如果RS空闲(no structural hazard), 则控制发射指令和操作数 (renames registers). 消除WAR，WAW相关2、Executionoperate on operands (EX) 当两操作数就绪后，就可以执行如果没有准备好，则监测Common Data

21、 Bus 以获取结果。通过推迟指令执行避免RAW相关3、Write resultfinish execution (WB) 将结果通过Common Data Bus传给所有等待该结果的部件; 表示RS可用TomasuloScoreboard流水化的功能部件多个功能部件(6 load, 3 store, 3 +, 2 x/)(1 load/store, 1 + , 2 x, 1 )指令窗口大小: 14 instructions 5 instructions有结构冲突时不发射相同WAR: 用寄存器重命名避免stall 来避免WAW:用寄存器重命名避免停止发射从FU广播结果写寄存器方式Contro

22、l: RS 集中式scoreboard关于异常处理?乱序完成加大了实现精确中断的难度在前面指令还没有完成时，寄存器文件中可能会有后面指令的运行结果.如果这些前面的指令执行时有中断产生，怎么办？例如：DIVD F10, F0, F2SUBD F4, F6, F8ADDD F12, F14, F16需要“rollback” 寄存器文件到原来的状态:精确中断含义是其返回地址为：该地址之前的所有指令都已完成，其后的指令还都没有完成实现精确中断的技术：顺序完成（或提交）即提交指令完成的顺序必须与指令发射的顺序相同Reorder Buffer:提供了撤销指令运行的机制指令以发射序存放在ROB中指令顺序提交

23、有效的支持精确中断，推测执行分支预测对提高性能是非常重要的推断执行是利用了ROB撤销指令执行的机制控制相关的动态解决技术控制相关：由条件转移或程序中断引起的相关，也称全局相关。控制相关对流水线的吞吐率和效率影响相对于数据相关要大得多条件指令在一般程序中所占的比例相当大中断虽然在程序中所占的比例不大，但中断发生在程序中的哪一条指令，发生在一条指令执行过程中的哪一个功能段都是不确定的处理好条件转移和中断引起的控制相关是很重要的。当分支方向预测错误时，不仅流水线中有多个功能段要浪费，更严重的是可能造成程序执行结果发生错误，因此当程序沿着错误方向运行后，作废这些程序时，一定不能破坏通用寄存器和主存储器

24、的内容。动态分支预测方法基于BPB(Branch Prediction Buffer) 1、一位预测1-bit BHT问题: 在一个循环中, 1-bit BHT 将导致2次分支预测错误最后一次循环, 前面都是预测成功，而这次需要退出循环第一次循环，由于前面预测为失败，而这次实际上为成功2、两位预测2-bit BHT解决办法: 2位记录分支历史3、两级预测记录转移历史信息根据所记录的转移历史信息，预测转移的方向3、多指令流出技术如何使CPI 1 两种基本方法Superscalar: 每个时钟周期所发射的指令数不定（1 8条）由编译器或硬件完成调度IBM PowerPC, Sun UltraSpa

25、rc, DEC Alpha, HP 8000该方法对目前通用计算是最成功的方法(Very) Long Instruction Words (V)LIW: 每个时钟周期流出的指令数（操作）固定 (4-16) 由编译器调度，实际上由多个单操作指令构成一个超长指令目前比较成功的应用于DSP，多媒体应用1999/2000 HP和Intel达成协议共同研究VLIW第五章存储系统计算机（CPU+存储系统+I/O）冯诺依曼结构是五个部分（控制器，运算器，主存，输入，输出）Cpu_time=IC*CPI*I前面第四章主要讲cpu方面的,通过指令级并行来减少平均的指令执行时间,以及各种相关及其解决方案（减少

26、stall）,和超标量（多发射），来减少CPI存储系统主要讲cache(提高访存速度)和虚存技术（提高主存容量），主要讲下面四个部分：映射功能，查找策略，替换策略，写策略.一、存储层次结构1、存储系统的设计目标通过优化存储系统的组织来使得针对典型的应用平均访存时间最短基本解决方法：多级层次结构 CPU-M1-M2-Mn存储系统速度接近速度最快M1，容量和价格接近最大最便宜的Mn。2、存储层次的工作原理和基本概念Temporal Locality（时间局部性）：保持最近访问的数据项最接近微处理器Spatial Locality（控件局部性）：把地址连续的若干个字构成的块从底层复制到上一层Blo

27、ck：（块，不同层次的block大小可能不同）镜像和一致性问题：高层存储器是低层存储器的一个镜像，高层存储器内容修改必须反映到低层存储器中去，保持数据的一致性。寻址：访问数据的方式。若一组程序对存储器的访问，其中N1次在M1中找到所需数据，N2次在M2中找到数据则Hit Rate（命中率）: 存储器访问在较高层命中的比例 H= N2/(N1+N2) Hit Time（命中时间）:访问较高层的时间，TA1失效率：访问的块不在存储系统较高层次上的概率Miss Rate (失效率)= 1 - (Hit Rate) = 1 H N2/(N1+N2)当在M1中没有命中时，一般必须从M2中将所访问的数

28、据所在块搬到M1中，然后CPU才能在M1中访问设传送一个块的时间为TB,即不命中时的访问时间为：TA2+TB+TA1 = TA1+TMTM 通常称为失效开销平均访存时间 TA = HTA1+(1-H)(TA1+TM) = TA1+(1-H)TM3、常见的存储层次的组织Registers Memory 由编译器完成调度cache memory由硬件完成调度memory disks由硬件和操作系统（虚拟管理），由程序员完成调度二、Cache基本知识Cache是CPU和主存之间的一个高速，小容量的存储器1、映象规则当要把一个块从主存调入Cache时，如何放置问题三种方式全相联方式：即所调入的块可以

29、放在cache中的任何位置直接映象方式：主存中每一块只能存放在cache中的唯一位置一般，主存块地址i 与cache中块地址j 的关系为： j i mod （M) ， M为cache中的块数组相联映象：主存中每一块可以被放置在Cache中唯一的一个组中的任意一个位置，组由若干块构成，若一组由n块构成，我们称N路组相联组间直接映象组内全相联若cache中有G组，则主存中的第i 块的组号KK = i mod (G),2、查找方法显然相联度 N越大，实现查找的机制就越复杂，代价就越高无论直接映象还是组相联，查找时，只需比较 tag，index无需参加比较主存地址格式Cache结构中主存地址格式：Ca

30、che Tag放在高位段，Cache Index放中间，字节选择位放在低位段Cache TagCache IndexBlock offsetCache标记块地址块内地址Cache地址格式块地址Block offset3、替换算法主存中块数一般比cache中的块多，可能出现该块所对应的一组或一个Cache块已全部被占用的情况，这时需强制腾出其中的某一块，以接纳新调入的块，替换哪一块，这是替换算法要解决的问题：直接映象，因为只有一块，别无选择组相联和全相联有多种选择替换方法随机法（Random)，随机选择一块替换优点：简单，易于实现缺点：没有考虑Cache块的使用历史，反映程序的局部性较差，失效率较高FIFO选择最早调入的块优点：简单虽然利用了同一组中各块进入Cache的顺序，但还是反映程序局部性不够，因为最先进入的块，很可能是经常使用的块最近最少使用法（LRU) (Least Recently Used)优点：较好地利用了程序的局部性，失效率较低缺点：比较复杂，硬件实现较困难观察结果（失效率）相联度高，失效率较低

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？