预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

多核处理器创新型多核处理器的发展布线延迟将影响目前主流商用超标量和vliw技术的长远发展。目前,一些新型多核处理器结构初露端倪,它们依赖于开发指令级并行性以外的其他更粗粒度的并行性,如数据级并行性和线程级并行性,以实现更高性能和应用效能。仅靠扩充目前占主流的超标量和vliw技术,要实现新一代处理器是十分困难的,其中一个主要原因是布线延迟问题。随着芯片制造技术的发展,一个时钟周期中信号在芯片内所能传输的范围越来越小。特别当未来采用35纳米以下设计技术时,在一个时钟周期内信号所能传输的范围仅为芯片面积的1%。在采用传统架构的处理器中,为使信号传遍芯片的各个角落往往需要很大的延迟,在进行距离最远的两点间通信时,会产生数十个周期的延迟,因而引起性能的急剧下降。为此,在考虑未来5~10年的处理器设计时,必须从结构设计顶层就充分考虑布线延迟问题。这要求体系结构和微体系结构进行根本的变革。目前,一些新型cmp结构初露端倪,它们依赖于开发指令级并行性以外的其他更粗粒度的并行性,如数据级并行性和线程级并行性,以实现更高性能和应用效能。tile结构处理器我们把无布线延迟问题的小尺寸功能块,按一定规则排列构成高速处理器的方式称为tile结构。这种方式由于受到小尺寸功能块的制约,可以大大减轻在tile内部产生的布线延迟问题。此外,由于信息传输仅在物理位置相距很近的几个tile间进行,因而也使tile间的通信延迟得以缓解。tile结构与超标量处理器最大的不同就在于,tile处理器是由多个采用相同设计的功能块按一定规则排列构成的,其功能部件主要有计算单元、tile间连接布线和路由器等。它与采用总线或环网连接的多核处理器有许多共同点,然而其设计思想却有很大差别。多核处理器尽量沿用了传统处理器设计技术,只是对高速缓存和互连网络进行了优化以谋求更高的性能。而tile处理器为了克服布线延迟,在传统处理器从未采用过的tile内部结构上下足了工夫,即在芯片上配置多个结构完全相同的tile单元,以提高设计的可重用性,减轻验证等作业的负担。这种tile结构大多采用在增加tile单元数时,不降低工作频率的就近连接网络。旨在提高大量视频和音频数据处理速度的专用多媒体处理器,也有采用类似tile结构这种将多个处理器配置于二维网格结构的。然而,tile结构面临的最大挑战是,作为通用处理器它必须能高效地处理各种应用。为了有效利用与传统处理器有很大差异的tile结构,多数tile处理器采用了独特的指令集结构,因而放弃了与传统的cisc和risc处理器的代码互换性。此时,应用程序要用c或fortran等高级语言描述,并用独特的编译器生成tile处理器专用的目标代码。下面介绍两种典型的tile结构处理器。1)raw处理器美国马萨诸塞大学正在开发的raw处理器可以说是tile结构的先驱,除克服布线延迟外,用活tile结构丰富的硬件资源,充分利用处理器有限的管腿也是raw追求的目标。目前,raw正在进行芯片试制和系统级评价。如图1所示,raw处理器由16个结构相同的tile单元构成,而每个tile单元由近似mips处理器的单指令发射内部处理计算流水线和静态、动态网络构成。每个tile单元可作为具有独立程序计数器的处理器工作,当指令或数据缓存发生错误时,则从配置在芯片外的主存获取数据。tile单元间的通信必须借助寄存器,所有布线均被设计为短于tile单元单边的长度。因此,即使是根据应用的性能要求或可用晶体管数的提高,而增加集成的tile单元数也不会降低芯片的工作频率。假使试制芯片经过每个tile单元时产生1个周期的延迟,则右下tile单元要使用左上tile单元生成的数据,会产生6个周期的通信延迟。tile单元中的运算流水线由8级指令流水线构成,每条运算流水线都采用单指令发射的简单结构。尽管一个tile单元每个时钟周期只能处理一条指令,但16个tile单元可同时进行运算,因而每个芯片一个时钟周期就可完成16条指令的处理,从而达到较高的峰值性能。为了缩短tile单元间的通信延迟,在运算流水线的数据通路中嵌入了专门的通信机构,这样无需特殊指令就可进行tile单元间的数据传送。raw处理器的硬件结构十分精炼,即使对最复杂的通信和计算也能提供可明确描述的指令集,在运算流水线的数据通路上还设有专门的通信机构,从而大大缩短了tile单元间必要的通信延迟。2)trips处理器ibm和德克萨斯大学也正在开发一款采用tile结构的trips处理器。该处理器由网状配置的多个运算结点(tile单元)构成,其运算结点则由单指令发射的简单整数运算、浮点运算部件和指令缓存、操作数缓存及操作数路由器构成。采用大数据流执行方式是trips处理器的一大特征。将运算结点按4×4网状配置的trips处理器的结构如图2所示,由于只能