ARM处理器CACHE详解.docx

资源描述

ARM处理器CACHE详解.docx

《ARM处理器CACHE详解.docx》由会员分享，可在线阅读，更多相关《ARM处理器CACHE详解.docx（23页珍藏版）》请在冰豆网上搜索。

ARM处理器CACHE详解.docx

ARM处理器CACHE详解

ARＭ920T的ＭＭＵ与Cache

虚拟地址和物理地址的概念

　虚拟内存管理ﻫ AＲＭ９20T的ＣＰ1５协处理器

　MＭUﻫ Cache　

操作MMU和Cache的内核启动代码

　参考资料索引

虚拟地址和物理地址的概念

　CＰU通过地址来访问内存中的单元,地址有虚拟地址和物理地址之分,如果CPＵ没有MMU（MeｍoｒyＭanaｇｅmｅnｔUnｉt,内存管理单元）,或者有MMU但没有启用，ＣPＵ核在取指令或访问内存时发出的地址将直接传到CPU芯片的外部地址引脚上,直接被内存芯片（以下称为物理内存，以便与虚拟内存区分）接收，这称为物理地址（PhysicaｌAｄdress，以下简称PA）,如下图所示。

图1．物理地址示意图

　如果CPU启用了MMU，CPU核发出的地址将被MＭＵ截获,从CPＵ到ＭMU的地址称为虚拟地址（ＶiｒtuａｌＡddrｅss,以下简称VA），而MMＵ将这个地址翻译成另一个地址发到CPＵ芯片的外部地址引脚上，也就是将虚拟地址映射成物理地址，如下图所示[1]。

图2.虚拟地址示意图

MＭU将虚拟地址映射到物理地址是以页（Ｐａge）为单位的，对于32位CPU通常一页为4K。

例如，虚拟地址０ｘｂ70０　1000～0xｂ7001ffｆ是一个页,可能被ＭMＵ映射到物理地址0ｘ２0００~0x2ｆff,物理内存中的一个物理页面也称为一个页框（Pａｇｅ　Fraｍe）。

虚拟内存管理

现代操作系统充分利用MMＵ提供的VA到PA的映射机制来做内存管理,以下称为虚拟内存管理（VirtｕaｌＭemoryManagement）。

首先看下面的例子:

　例　１.进程的地址空间

这是basｈ进程的虚拟地址空间，３2位CPU的虚拟地址空间是4GB，也就是０ｘ0０000000-０xｆｆffffff,该进程占用的地址范围近似为0ｘ００００0００0－０xｂｆffｆffｆ,地址范围0xc０000000-0xfffｆ　fｆff由内核占用,用户进程不允许访问。

在这个bash进程的地址空间中，从0x0８04　８00０开始的668K的权限为r-x-－,表示代码段,从0x080ef0０0开始的24K的权限是rw---，表示数据段，从0x０8０f　5000开始的2056K的权限也是ｒw---,但是没有对应任何磁盘文件,而是用［　ａnon]（ａnonymoｕs，匿名）来表示,这是堆所占的空间,从0xｂ7ｃ６d00０开始是共享库和资源文件的映射空间，每个共享库也分为代码段和数据段，用不同的权限表示，可以看到,从堆空间到下面的共享库映射空间之间有很大的地址空洞，最末从0xｂｆad400０开始的84K是栈空间。

　为什么需要虚拟内存管理呢?

可以从以下几个方面来理解。

第一，让每个进程有独立的地址空间是引入虚拟内存管理的最主要目的。

所谓独立的地址空间是指，不同进程中的同一个ＶA被MＭU映射到不同的ＰＡ，并且在某一个进程中访问任何地址都不可能访问到另外一个进程的数据，这样使得任何一个进程由于程序BUG或恶意代码所导致的非法内存访问都不会意外改写其它进程的数据，不会影响其它进程的运行，从而保证了整个系统的稳定性。

另一方面,每个进程都认为自己独占4GB的地址空间,编写程序会比较方便，不必为每个进程分配一个地址范围,而是每个进程都可以使用一个完整的地址空间中的任何地址。

　我们继续用上面的例子来理解,再打开一个sheｌl窗口，用pmap命令看一下这个新的bash进程的地址空间，可以发现和刚才的地址空间布局差不多：

该进程也占用了0x00００　０００0-0xbfｆfffff的地址空间，代码段也是从0x0８04　8０0０开始的６68K，数据段也是从0x080ef000开始的24K，共享库的内存布局也差不多。

这个进程和刚才的例子是同一个系统中同时运行着的两个进程，它们都认为自己占有0x00０000００-０ｘbｆｆf　ffff的地址空间，并且它们的数据段的地址范围是重合的，但是两个进程各自干各自的事情，显然数据段中的数据是不同的，正是因为不同进程中的同一个VＡ被映射到了不同的PA,所以两个进程的数据段其实是在不同的物理地址上,如下图所示。

图　4.进程地址空间是独立的

从图中还可以看到，两个进程都是bash进程，代码段是一样的，并且代码段是只读的，不会被改写，因此操作系统会安排两个进程的代码段共享相同的物理内存。

由于每个进程都有自己的一套VA到ＰA的映射表,整个地址空间中的任何VA都在每个进程自己的映射表中查找相应的物理地址，因此不可能访问到其它进程的地址，也就没有可能意外改写其它进程的数据。

第二，引入VA到PA的映射也会给分配和释放内存带来方便，物理上不连续的空间可以映射为逻辑上连续的虚拟地址空间。

比如要maｌlｏc一块很大的内存空间,而物理内存虽然有足够的空闲内存,却没有足够大的连续空闲内存,这时就可以分配多个不连续的物理页面,而映射为连续的虚拟地址范围。

如下图所示。

图5.不连续的PA可以映射为连续的VA

　第三，一个系统如果同时运行着很多进程,为各进程分配的内存之和可能会大于实际可用的物理内存,虚拟内存管理使得这种情况下各进程仍然能够正常运行。

因为各进程分配的只不过是虚拟内存的页,这个页的内容可以映射到物理内存的页框,也可以临时保存到磁盘上而不占用物理内存的页框,磁盘上这一部分称为交换设备（S），可能是一个磁盘分区，也可能是一个磁盘文件。

当物理内存不够时将物理内存中不常用的页框临时保存到磁盘上,而当用到这些页框时再从磁盘加载回内存,这称为换页（Ｐagiｎg）因此:

ﻫ 系统中可分配的内存总量=　物理内存的大小　+　交换设备的大小

如下图所示。

第一张图是换出（Pageｏｕt）,将物理页面的内容保存到磁盘,并解除地址映射,释放物理页面。

第二张图是换入（Pａgein），从空闲的物理页面中分配一个,将磁盘暂存的页面加载回内存,并建立地址映射。

图6．　换页

第四，虚拟内存管理可以控制物理页面的访问权限。

物理内存本身是不限制访问的,任何地址都可以读写，而操作系统要求实现各种不同的访问权限,在先前的例子中我们已经看到,代码段要求是rx的，数据段要求是rw的,用户进程不能访问属于内核的地址空间,这些都是操作系统和ＭMU配合实现的。

MMＵ中还实现了一种访问限制是关于Ｃache的。

Ｃaｃｈe（高速缓存）是ＣＰU内的一小块高速RAM,用来缓存最近访问过的内存数据,CＰＵ访问Ｃａche的速度是访问内存速度的数十倍,所以有效地利用Ｃache可以大大提高计算机的整体性能。

CPＵ核要访问数据时首先发出VA,Cache利用VA查找相应的数据有没有被缓存[2],如果有就通知CＰU核，如果是读操作就直接将Cache中的数据传给CPU核中的寄存器,如果是写操作就直接改写Caｃｈｅ中的数据，而不需要访问物理内存。

但是，有些VA所对应的PA并不是物理内存中的地址而是设备寄存器的地址,对这些寄存器进行读写并不是为了保存数据,而是对设备做特殊操作,这种VA通常是不允许缓存的,因为如果缓存了,对VA的读写将只在Ｃache中起作用，而不会传到设备寄存器对设备进行操作。

以串口的收发寄存器为例，如果收发寄存器地址被缓存了会出现什么问题呢？

如下图所示。

如果发送寄存器的地址被缓存起来,CPＵ核往发送寄存器的地址做写操作都写到Cache中去了，发送寄存器并没有及时得到数据，也就不能及时发送,此外，CＰＵ核先后发出的1、2、3三个数据都会写到Cache中的同一个地址,最后Ｃaｃｈｅ中只保存了第3个数据,如果这时Cache的数据写回到发送寄存器去,只能把第3个数据发送出去,前两个数据就丢失了。

与此类似，如果接收寄存器的地址被缓存起来,CＰＵ核在读第1个数据时，Ｃaｃhe会从接收寄存器读进来缓存，然而接收寄存器后面收到２、3两个数据Caｃhｅ并不知道,因为Caｃhe把接收寄存器当作内存，并且相信内存中的数据是不会自己变的,所以以后每次ＣＰU核读接收寄存器时，Cacｈe都提供给CPU核第1个数据。

ARM920T的CP１５协处理器

ＡRM920T的MＭＵ和Cache都集成在CP15协处理器中，MＭＵ和Cachｅ的联系非常密切,本节首先从总体上介绍ＭＭU、Cacｈｅ和ＣＰU核是如何协同工作的,后面两节分别讲解MＭU和Caｃhe的细节。

三星公司的Ｓ3C2410是一种很常见的采用ARM920T的芯片,涉及到具体的芯片时我们以S3C2４10为例。

以下是CP15协处理器的寄存器列表（摘自[Ｓ３C2４１０用户手册］），和ＣPＵ核的r0到r1５寄存器一样,协处理器寄存器也是用0到15来编号，在指令中用４个ｂit来表示寄存器编号,有些协处理器寄存器有影子寄存器，这种情况下对同一个编号的寄存器使用不同的选项读或者写实际上访问的是不同的寄存器，后文用到某个寄存器时会详细说明它的功能。

表１．　ＣP15协处理器的寄存器列表

对CＰ１5协处理器的操作使用mcr和mrc两条协处理器指令,这两条指令的记法是从后往前看:

ｍcr是把r（ＣPU核寄存器）中的数据传送到ｃ（协处理器寄存器）中,mｒc则是把ｃ（协处理器寄存器）中的数据传送到r（ＣPU核寄存器）中。

对CＰ15协处理器的所有操作都是通过CPU核寄存器和ＣP１５寄存器之间交换数据来完成的。

下图是协处理器的指令格式（摘自[S3C２4１0用户手册]）。

图　8.协处理器指令格式

和其它ARＭ指令一样,Cond是条件码,bｉt2０是L位，表示该指令是读还是写，如果L=１就表示Lｏad，从外面读到CPU核中,也就是ｍrｃ指令,如果L=0就表示Ｓtorｅ，也就是mcｒ指令。

[１1:

８]这四个位是协处理器编号,CＰ15的编号是１５，因此是4个1。

CRn是CP15寄存器编号，Rd是CPU核寄存器编号，各占４个位。

对于ＣP15协处理器,规定opcode１应该为０，opｃoｄe２和ＣＲm是指令的选项,具体含义取决于不同的寄存器。

　虽然这里介绍了协处理器的寄存器编号和相关指令,但读者只需了解对协处理器是这样进行操作的就可以了,我们的重点是讲解ＭMU和Ｃaｃhｅ的基本概念,具体各种操作的指令该怎么写可以参考[Ｓ3Ｃ2４10用户手册]。

　MＭＵ是如何把ＶＡ映射成PA的呢？

从图４“进程地址空间是独立的”来看,好像是有一张VA转PA的表，给一个VＡ查表就可以查到PＡ，实际上并不是这么简单，通常要有一个多级的查表过程，对于AＲM体系结构是两级查表,对于一些6４位体系结构则需要更多级。

看下面的图示。

图9．Traｎｓlation　Tａble　Walｋ

首先将32位的VA[3]分成三段,前两段[31:

20]和［１９:

1２］作为两次查表的索引,第三段［11:

0]作为页内的偏移。

查表的步骤如下：

1CP1５协处理器的TTB寄存器（看看表　1“CP15协处理器的寄存器列表”中这是第几个寄存器?

C2）中保存着第一级页表（TranｓlationTable）的基地址,这个基地址指的是PＡ，也就是说页表是直接按这个地址存在物理内存中的。

２以TＴB中的内容为基地址，以ＶＡ[31：

20]为索引在表中查出一项（想一下这个表中一共有多少项?

4０96项），这个表项中保存着第二级页表（CoarsｅPageＴａblｅ）的基地址,同样是物理地址,也就是说第二级页表也是直接按这个地址存在物理内存中的。

3以VＡ［19:

12]为索引在第二级页表中查出一项（想一下这个表中一共有多少项?

256项），这个表项中就保存着物理页面的基地址，先前我们说虚拟内存管理是以页为单位的，一个虚拟内存的页映射到一个物理内存的页框,从这里就可以得到印证,因为查表是以页为单位来查的。

4有了物理页面的基地址之后,加上VA[1１:

0]这个偏移量就可以取出相应地址上的数据（想一下一个页是多少字节？

4Ｋ）。

这个过程称为Tranｓlａtion　TableWalk,Waｌｋ这个词用得非常形象。

从TTB走到一级页表,又走到二级页表,又走到物理页面，一次寻址其实是三次访问物理内存。

注意这个“走”的过程完全是硬件做的,每次CＰU寻址时MＭU就自动完成以上四步，不需要编写指令指示MMU去做，前提是操作系统要维护页表项的正确性，每次分配内存时填写相应的页表项，每次释放内存时清除相应的页表项，在必要的时候分配或释放整个页表。

有了以上基本概念，我们来看CPU访问内存时的硬件操作顺序（摘自[ＡRＭ参考手册]）。

图10.ＣＰU访问内存时的硬件操作顺序

我们以CＰU读内存为例解释一下图中的步骤,各步骤在图中有对应的标号。

　1CPU核（图中的“AＲM”框）发出VA请求读数据，TＬB（TransｌａtioｎLookaside　Buffer）接收到该地址。

TLB是MMU中的一块高速缓存（也是一种Ｃaｃhe）,它缓存最近查找过的VＡ对应的页表项，如果ＴLＢ里缓存了当前VA的页表项就不必做ＴrａnｓlationTable　Walk了，否则去物理内存中读出页表项保存在ＴLB中,TLB缓存可以减少访问物理内存的次数。

２页表项中不仅保存着物理页面的基地址,还保存着权限位和是否允许Ｃａｃhe的标志。

MＭU首先检查权限位,如果没有访问权限，就引发一个异常给ＣPＵ核。

然后检查是否允许Ｃachｅ，如果允许Cａche就启用Cacｈｅ和CＰＵ核互操作,图中的“C,Bbｉts”可以理解为直写和回写线,后面再详细解释这两个位的作用。

3如果不允许Cａche,则直接发出ＰA从物理内存中读取数据到CPU核。

４　如果允许Ｃaｃhｅ，则以VA为索引到Cａｃhe中查找是否缓存了要读取的数据，如果Cａcｈｅ中已经缓存了该数据（称为CacheHｉｔ）则直接返回给CPU核,如果Caｃhe中没有缓存该数据（称为Cache　Misｓ），则发出ＰＡ从物理内存中读取数据并缓存到Cacｈe中,同时返回给CPU核。

然而Cａｃｈe并不是只取CPU核所要的数据,而是把相邻的数据都取上来缓存，这称为一个Caｃhe　Ｌine。

ＡRM9２０T的CａcheLiｎe是32字节,例如CＰU核要读取地址０x1３4－0ｘ137的4字节数据,Ｃａcｈe会把地址0x120-0ｘ１３f（对齐到３2字节地址边界）的32字节都取上来缓存。

MMU

　我们已经简单了解了一下查页表的过程,实际上ARM9２0T支持多种尺寸规格的页表,图　9　“TｒanslationＴabｌe　Walk”所示的只是其中一种情况。

下图示意了所有可能的情况（本节的图表均摘自[S3C2４10用户手册]）。

图　11.查页表的过程

回顾一下查表的过程，首先从CP15的TTB寄存器找到一级页表的基地址，再把ＶA[３1:

20]（共４096项）作为索引从表中找出一项,这个表项称为一级页描述符（Leｖel1　Descriｐtor），一个这样的表项占4个字节,可以是以下四种格式之一:

图１２.　一级页描述符

　如果描述符的最低两位是0０，属于Ｆａult格式,表示该范围的ＶＡ没有映射到PA。

如果描述符的最低两位是10，属于Sｅction格式,这种格式没有二级页表而是直接映射到物理页面,一个Sectiｏn是1Ｍ的大页面,描述符中[３1:

20]位就是这个页面的基地址,基地址的[１９:

0]低位全为0,对齐到1Ｍ地址边界,描述符中的Dｏmaｉn和AP位控制访问权限，C、B两位控制缓存,后面再详细解释每个位的含义。

如果描述符的最低两位是01或１1,则分别对应两种不同规格的二级页表（ＶＡ［19:

12则为２５６项]）。

根据地址对齐的规律想一下,这两种页表分别是多大？

从一级描述符中取出二级页表的基地址，再把ＶA的一部分作为索引去查二级描述符（Level2Descrｉptｏｒ）（如果是CoarsePａge　Ｔａble则ＶA[１９：

12］是索引,如果是Finｅ　PageTablｅ则VA[19:

10]是索引），二级描述符可以是以下四种格式之一：

图１３.二级页描述符

描述符最低两位是00属于Fault格式,其它三种情况分别对应三种不同规格的物理页面。

Laｒge　Ｐａge和SmallPage有四组ＡＰ权限位，每组两个biｔ,这样可以为每1/４个物理页面分别设置不同的权限，也就是说,ＬargｅPage可以为每16K设置不同的权限，ＳmallPagｅ可以为每1Ｋ设置不同的权限。

ＡRM920T提供了多种页表和页面规格,但操作系统只采用其中一种，Ｌｉｎux采用的就是图9　“Tｒanｓlａtion　Tａble　Waｌk”所示的规格,一级描述符是ＣｏarsePａgeＴaｂle格式,二级描述符是SmａｌｌPage格式,每个物理页面4K。

我们以此为例,结合前面的的解释和页描述符的格式,再看一下TrａnsｌatｉonTableＷaｌｋ的详细过程：

图１4．ＴｒａｎslaｔionＴableWalk的详细过程

　从上到下依次解释如下:

1VA被划分为三段用于地址映射过程,各段的长度取决于页描述符的格式。

2TTB寄存器中只有[3１:

１４］位有效，低14位全为0，因此一级页表的基地址对齐到16K地址边界,而一级页表的大小也是16K。

３一级页表的基地址加上VA[3１:

20]左移两位组装成一个物理地址。

想一想为什么VA[３1:

20]要左移两位占据[１3:

２］的位置，而空出[1：

0]两位呢?

类型？

4　用这个组装的物理地址从物理内存中读取一级页描述符，这是一个Coaｒse　PａｇｅTable格式的描述符。

5通过Domaiｎ权限检查后，ＣoａrsｅPageTable的基地址再加上VＡ[19:

１2］左移两位组装成一个物理地址。

　6用这个组装的物理地址从物理内存中读取二级页描述符，这是一个SmallPage格式的描述符。

　7通过AP权限检查后,SmaｌlＰaｇe的基地址再加上VＡ［11:

0］就是最终的物理地址。

想一想为什么这次不左移两位了呢?

　下面解释一下Ｄomaｉn和AＰ位。

ＣP15的Domaｉn访问控制寄存器（见表1“CP１５协处理器的寄存器列表”寄存器3）表示了16个域（Domaiｎ）,每两位表示一个Ｄｏmａin的访问权限，以下是该寄存器的格式：

图15.Domaｉn　Access　ContｒolReｇiｓter

每个Domain的两个位可以取值为00、０１、1０或１1,如果取值为00或10则表示该Domaiｎ不可访问,如果取值为０1则表示访问该Dｏmain需要进一步检查AP位，如果取值为1１则表示可以直接访问该Dｏmain而无需检查ＡＰ位。

回想一下，一级页描述符中的Domain字段由4个位组成,可以有16个不同的取值,就表示该描述符所描述的二级页表或Section属于这１6个Ｄoｍａin中的哪一个。

快速上下文切换、Doｍaiｎ和多种规格的页表是ARM特有的机制，是针对嵌入式系统软件的特点而设计的，其它处理器不一定有类似的机制,例如也许没有Domain和快速上下文切换的概念,也许只有一种规格的页表。

为了能够在多种不同的平台上移植,Linｕx内核代码不会利用AＲM特有的这些机制。

除了这些特例之外,我们在这里介绍的其它机制都具有普遍性，读者应重点把握具有普遍意义的基本原理和基本概念。

ＣP15的控制寄存器（见表　1“ＣＰ15协处理器的寄存器列表”寄存器1）中的Ｓ和R位与页描述符的AP位合在一起决定访问权限，如下所示：

图16.AP权限检查

可见，同样的AＰ、S、Ｒ位对用户模式和特权模式来说具有不同的意义，特权模式的权限都不低于用户模式的权限。

最后将各种由内存访问产生的异常总结如下：

ＡlignmｅntFaｕlt——以Woｒd为单位的数据访问指令地址未对齐到4字节边界,或者以Ｈalf　Word为单位的数据访问指令地址未对齐到2字节边界。

Ｔranslaｔｉｏn　Fault——页描述符的［1:

0]为00,属于Fault格式,无效表项。

　Doｍain　Faｕlｔ——一级页描述符或Sｅｃtion所属Ｄomain的权限位为0０或10。

　PｅｒmissiｏnＦaulｔ——根据ＡＰ位和CP15寄存器１的S、R位检查访问权限,若所属Domａｉｎ的权限位为1１则跳过这一步检查。

ExternalAbｏrt——总线异常,例如此物理地址上没有挂RAM芯片,或者其它硬件故障。

Ｃａｃｈe　

AＲＭ920T有１６K的数据Cacｈe和１６K的指令Ｃａche，这两个Cａche是基本相同的，数据Cache多了一些写回内存的机制，后面我们以数据Cacｈｅ为例来介绍Cａchｅ的基本原理。

我们已经知道,Cａｃhｅ中的存储单位是CachｅLine，ARM9２0T的一个CａchｅＬine是32字节，因此１6K的Ｃacｈｅ由51２条CaｃhｅLiｎｅ组成。

要了解Cacｈｅ的基本原理,我们从如何设计Cache这个问题入手。

设计Cａche的一种最朴素的想法是，把VＡ分成以32字节为单位,从任何一个对齐到３2字节地址边界的ＶA开始连续的32个字节（比如0x00－0x１f,0ｘ20-０x３f,0ｘ４０-0ｘ5f等等）都可以缓存到5１2条CachｅLine中的任何一条。

那么一条CaｃheLine中的32个字节怎么知道是来自哪个ＶA的呢?

这就需要把VA也保存在Caｃhe中，由于这3２字节的起始地址是对齐到3２字节地址边界的,末5位全为０，因此只需要保存ＶA[31：

5]即可,这称为VA　Taｇ[４],Tag是VA的一部分,是CacheＬinｅ中数据的标识,表明这3２字节数据来自哪个VA。

这样设计的Caｃhe称为全相联Cacｈe（FｕｌｌyAsｓｏciativeCache），图示如下：

图1７.　全相联Cａchｅ

给定一个VA，如何在Cache中查找对应的数据呢？

首先到Ｃacｈｅ中比较查找哪一行的Ｔａｇ等于VA［３1：

5]，找到对应的CａcheＬｉne后,再根据VA[４:

0]决定要访问的是该CaｃｈeLｉne缓存的３2个字节中的哪一个字节。

由于有5１2条ＣaｃheLｉne，如果这个VＡ没有缓存在Cａchｅ中则需要比较５1２次才知道，这是最坏的情况,也是最常见的情况，下面我们要改进Ｃaｃhe的设计来解决这个问题。

全相联Ｃaｃhe的特点是任何VＡ都可以缓存到任何一条Cａｃhe　Lｉｎe,给定一个VA做查找时,由于它有可能缓存在５12条CacheLine中的任何一条，就只好全部都找一遍了。

如果限定某一个VA只允许缓存在某一条CacheLine中，那么查找的过程就快多了:

检查一下应该缓存这个VＡ的那条CachｅLine,看Tag一致不一致,如果一致就是CacheＨｉt,如果不一致就是ＣacｈeMiｓｓ，可以直接访问物理内存而不必再找其它Caｃhe　Line了。

这种设计称为直接映射Cａcｈe（DirectMappedCａchｅ），如下图所示:

图18.直接映射Cache

地址0~31应该缓存在第1条Caｃｈe　Line中,地址3２~6３应该缓存在第2条ＣａcheLine中，依此类推，地址16352~１63８3应该缓存在第512条ＣachｅLine中,下一个地址应该是1６3８4（16Ｋ）了，我们又回到开头，地址16K

展开阅读全文