寄存器堆(register file)是CPU中多个寄存器组成的阵列,通常由快速的静态随机读写存储器(SRAM)实现。这种RAM具有专门的读端口与写端口,可以多路并发访问不同的寄存器。
CPU的指令集架构总是定义了一批寄存器,用于在内存与CPU运算部件之间暂存数据。在更为简化的CPU,这些架构寄存器(architectural registers)与CPU内的物理存在的寄存器一一对应。在更为复杂的CPU,使用寄存器重命名技术,使得执行期间哪个架构寄存器对应于哪个寄存器堆的物理存储条目(physical entry stores)是动态改变的。寄存器堆是指令集架构的一部分,程序可以访问,这与透明的CPU高速缓存(cache)不同。
通常的设计布局是一个简单的阵列,在水平方向的一行就是寄存器的全字长宽度,一行的每一位元的存储单元(bit cell)通过位线(Bit Line)读/写其数据。在垂直方向把寄存器一次即能全字长读出。放大电路(Sense amplifier)通常设在底部,把读出的小幅值的两根位线(组成了一对差分电路)的电位差,放大为全幅值的逻辑值电位。更大的寄存器堆的设计是镜像与旋转后(tiling mirrored and rotated)拼贴这种简单的寄存器阵列。
寄存器堆的每个条目(entry,即一个物理寄存器)对每个端口(port)都有一条字线(word line),每个位元的基本存储单元,对每个读端口有1条位线,对每个写端口有2条位线。每个位元的基本存储单元都连接到了供电的Vdd(高电平)与Vss(低电平或者接地),这里的d是指组成SRAM的场效应管的漏极(drain),s是指场效应管的源极(source)。因此,布线所占面积随端口的平方增加,晶体管是线性增加。多个冗余的具有较少读端口的寄存器堆可能会比具有全套多个读端口的单一寄存器堆,面积更小、读取更快。MIPS R8000的整数单元,有一个寄存器堆的实现,有32个条目,字长64位,具有9个读端口及4个写端口。
一个位元的基本存储单元的基本模式:
许多可能的优化:
大多数寄存器堆并没有特殊设施来预防多个写端口同时写同一个寄存器条目。替代的,指令调度硬件确保在任何时钟周期只有一条指令写入特定的一个寄存器条目。如果针对同一个寄存器的多条机器指令同时被发出(issue),只有一条的写使能(write enable)不被关闭。
每个基本存储单元内部的两个交叉反相器需要在写位线执行后用一些时间修改内部状态。如果正在写操作时对同一个条目执行读操作,或者需要等待更长时间,或者读到的是错误的状态数据。通常有一个旁路复用器(bypass multiplexor)把正在写入的数据旁路(bypass)给读端口。 这种旁路复用器往往是更大规模旁路网络的一部分,用来把功能器件之间转发还没有提交的数据。
寄存器堆通常是间距匹配与所对应的数据通路,这避免了许多总线转角,节约了占用面积。但是由于每个单元必须有相同的位线间距,迫使数据通路上的位线间距遵从最宽的单元,浪费了面积。
如果一条数据通路经过多个单元,则通过两条数据通路并行,使得每条数据通路的位线间距更小,从而节约了面积。因此通常会导致了一个寄存器堆的多个副本,每个副本有自己的数据通路。
例如,Alpha 21264 (EV6)处理器有两个整数寄存器堆的副本。仅用一个时钟周期就可以在二者之间传播数据。发射逻辑(issue logic)试图降低在两个副本间的数据转发。MIPS R8000浮点单元有两个浮点寄存器堆的副本,每个副本有4个读口、4个写口。写操作是对两个副本的对应条目同时写入。
处理器的寄存器重命名能为每个功能单元安排写入到物理寄存器堆的一个子集。这可以避免每个基本存储单元有多个写口的要求,很大节约了面积。最终的寄存器堆,效果上是一个单写口、双读口的寄存器堆组成的栈。
SPARC ISA定义了“register window”,寄存器的5-bit架构名称指向一个很大的有数百个条目的寄存器堆的一个窗口。register window没移动一步就经过16个寄存器。因此每个架构寄存器名字仅指向这个寄存器堆中的少量寄存器。例如架构寄存器r20仅指向物理寄存器#20, #36, #52, #68, #84, #100, #116, 如果这个物理寄存器堆仅有7个窗口。