欢迎来到天天文库
浏览记录
ID:13316926
大小:539.50 KB
页数:14页
时间:2018-07-22
《消除存储墙:处理器存储器一体化》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、消除存储墙:处理器存储器一体化1绪论传统上,处理器和存储设备的发展是独立的。处理技术、芯片设计和处理器体系结构的发展、处理器速度和存储设备容量几乎以指数级增长。然而,存储延迟并没有显著提高,存储器访、时间进一步限制了系统的性能,这个现象被称为“存储墙”(theMemoryWall)[1][2]。处理这个问题的一般方法是添加很多级的cache到存储系统中:使用SRAM设备(staticrando、-accessmemory)可大幅提升系统的执行效率。结合预取和适当的代码调度等延迟隐藏技术、高性能的处理器可以运行在比较合理的效率。上述的方法应用在所有主流微处理器体系结
2、构的高端系统中。但是,大型的应用软件,比如CAD程序、数据库或科学应用软件常常达不到由于CPU高速度而产生的对性能的预期。这种以CPU为中心的设计模式导致了非常复杂的,拥有深度流水线的超标量体系结构处理器、这里的复杂性很多是为了隐藏存储系统的延迟,比如乱序执行、寄存器记数等。而且,高端、处理器需要大量的逻辑电路的支持:caches,控制器,数据通路等。不包括I/O,10米晶体、CPU芯片需要通过昂贵的支持芯片来对话主存:cache存储器,cache控制器,数据通路,存、器控制器。这增加了相当大的开销、功能损耗和设计复杂度。为了充分地利用处理器,要求、一个大型的存储
3、系统。这样设计的效果会产生瓶颈,增加了CPU和存储器的距离——如图1所示。它增加了接口和芯、边界,封装和连接限制会降低了存储器带宽的可用性。从外部来看,一个DRAM设备只有一小、分的内部带宽可用。、我们将证明把处理器和存储设备一体化设计可以避免很多以CPU为中心的设计带来的问题,、且可以有效地弥补单一芯片设计的技术局限性。2背景在当代的高端模式中,Sun的Sparc-Station5workstation(SS-5)的优越性能证明了把存储器处理器紧密结合的优势。在低端模式中,SS-5包含了一个小型的MicroSparcCPU,它的cache是小的,单层的(16K字
4、节的指令,8K字节的数据)。它把存储控制器整合到CPU中,所以DRAM设备直接由处理器芯片逻辑驱动。CPU和外围设备之间由一条单独的I/O总线连接。外围设备只能通过CPU芯片访问存储器。同时期的可供比较的高端机是Sparc-Station10/61(SS-10/61)。它有一个大型的带有两层cache的SuperSparcCPU。cache的第一层是20K的指令和16K的数据;同时它们共享了1M的第二层cache。如表1所示,和SS-10/61相比较,SS-5在Spec’92Int和Spec’92Fp基准测试方面稍逊一筹,但是,在综合工作量上(Synopsys[3
5、],超过50Mbytes)表现优于SS-10/61。这种差异的原因是SS-5较低的主存延迟,它弥补了相对低速的CPU。图2显示了在不同大小的存储数组不同长度的跨距下的存储器访问时间。存储墙是许多日益紧迫的障碍中的第一个。在不远的将来,这些障碍会和快速增长的多处理器性能产生进一步冲撞。通过多处理器和其他并行形式来提高性能的压力会进一步增大,但是这些策略也必须解决存储子系统的性能问题。、即将来临的一体化技术可以通过集成一个大型的存储器、处理器、共享内存控制器和交互控制器在相同的设备上来解决这个问题。这篇论文提供和评估了这种方案。3技术特性和趋势存储器处理器一体化的主要
6、缺陷是存储器的价格昂贵。许多增加DRAM性能的尝试,比如video-buffers(VDRAM),integratedcaches(CDRAM),graphicssupport(3D-RAM)和smart,higherperformanceinterfaces(RamBus,SDRAM)都由于非存储区的额外成本而受到损害。然而随着256Mbit和1Gbit设备[4][5]的出现,存储芯片已经足够大,以至于许多计算机只需要一个存储芯片。这使得存储设备可以看作一个单元,与CPU拥有同等的地位。在过去,CDRAM增加7%的容量,造价需要增加10%。忽略那些影响价格的非技
7、术因素,一个256M字节的DRAM芯片需要800美元,大约25美元每兆。从CDRAM的例子可以推算出,增加10%的容量到存储器处理器一体化设备,需要花费1000美元——其中200美元是增加处理器性能的开销。我们证明这样一台机器可以匹敌比它昂贵许多的系统。而且它的体积更小,功耗更小,设计更简单。过去的DRAM技术不能满足高效的处理器。比如,直到16M这一代,DRAM才使用多于一层的材料。然而即将到来的0.25微米的DRAM拥有两层或者三层的材料,已经可以支持一个简单200MHzd的CPU内核。和逻辑电路的发展水平相比较,DRAM使用更多的材料沥青有更高的门延迟。但是
8、,日本东芝
此文档下载收益归作者所有