并行计算内存和性能new

并行计算内存和性能new

ID:34508370

大小:292.98 KB

页数:8页

时间:2019-03-07

并行计算内存和性能new_第1页
并行计算内存和性能new_第2页
并行计算内存和性能new_第3页
并行计算内存和性能new_第4页
并行计算内存和性能new_第5页
资源描述:

《并行计算内存和性能new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、ChinaResearchLaboratoryOutline内存系统,性能评测°内存系统对性能的影响°性能评测–基本性能指标–加速比定律于策2011-03-09http://cs.tju.edu.cn/orgs/hpclab/2011-03-09http://cs.tju.edu.cn/orgs/hpclab/ChinaResearchLaboratoryChinaResearchLaboratoryOutline内存系统对性能的影响°内存系统对性能的影响°对于很多应用而言,瓶颈在于内存系统,而不是CPU°性能评测°内存系统的性能包括两个方面:延迟和带宽–

2、基本性能指标–延迟:处理器向内存发起访问直至获取数据所需要的时间–加速比定律–带宽:内存系统向处理器传输数据的速率2011-03-09http://cs.tju.edu.cn/orgs/hpclab/2011-03-09http://cs.tju.edu.cn/orgs/hpclab/ChinaResearchLaboratoryChinaResearchLaboratory延迟和带宽的区别内存延迟示例°理解延迟与带宽的区别非常重要。°考虑某一处理器以1GHz(1纳秒时钟)运行,与之相连°考虑消防龙头的情形。如果打开消防龙头后2秒水才从消防水管的DRAM有

3、100纳秒的延迟(没有高速缓存)。假设处的尽头流出,那么这个系统的延迟就是2秒。理器有两个multiply-add部件,在每1纳秒的周期内能执行4条指令。°当水开始流出后,如果水管1秒钟能流出5加仑的水,那么这个水管的“带宽”就是5加仑/秒。–处理器的峰值是4GFLOPS。°如果想立刻扑灭火灾,那么更重要是减少延迟的时间。–由于内存延迟是100个周期,并且块大小为一个字(word),每次处理内存访问请求时,处理器必须要等待°如果是希望扑灭更大的火,那么需要更高的带宽。100个周期,才能够获得数据。2011-03-09http://cs.tju.edu.cn

4、/orgs/hpclab/2011-03-09http://cs.tju.edu.cn/orgs/hpclab/1ChinaResearchLaboratoryChinaResearchLaboratory内存延迟示例使用高速缓存改善延迟°在以上平台上,考虑计算两个向量点积的问题。°高速缓存是处理器与DRAM之间的更小但更快的内存单元。–计算点积对每对向量元素进行一次乘法-加法运算,即每一次浮点运算需要取一次数据。°这种内存是低延迟高带宽的存储器。–此计算的峰值速度的限制是,每100纳秒才能够进行一次°如果某块数据被重复使用,高速缓存就能减少内存浮点计算,

5、速度为10MFLOPS,只是处理器峰值速度的很系统的有效延迟小一部分。°由高速缓存提供的数据份额称为高速缓存命中率(hitratio)°高速缓存命中率严重影响内存受限程序的性能。2011-03-09http://cs.tju.edu.cn/orgs/hpclab/2011-03-09http://cs.tju.edu.cn/orgs/hpclab/ChinaResearchLaboratoryChinaResearchLaboratory高速缓存缓存效果示例°继续考虑前一示例。°在其中加入一个大小为32KB,延迟时间为1纳秒(或1个周期)的高速缓存。°使用

6、此系统来计算矩阵乘法,两个矩阵A和B的维数为32×32。–之所以选择这个大小,是为了能够将A、B两个矩阵以及结果矩阵都放入高速缓存中。2011-03-09http://cs.tju.edu.cn/orgs/hpclab/2011-03-09http://cs.tju.edu.cn/orgs/hpclab/ChinaResearchLaboratoryChinaResearchLaboratory缓存效果示例缓存的效果°结果如下°对相同数据项的重复引用相当于“时间本地性(temporallocality)”–将两个矩阵取到高速缓存中等同于取2K个字,需要大约

7、200µs。°对于高速缓存的性能来说,数据的重复使用至关重要。–两个n×n的矩阵乘需要2n3步计算。在本例中,需要64K步计算,如果每个周期执行4条指令,则需要16K个周期,即16µs。–总计算时间大约是加载存储时间以及计算时间之和,即200+16µs。–峰值计算速度为64K/216=303MFLOPS。2011-03-09http://cs.tju.edu.cn/orgs/hpclab/2011-03-09http://cs.tju.edu.cn/orgs/hpclab/2ChinaResearchLaboratoryChinaResearchLabor

8、atory内存带宽的影响内存带宽的影响示例°内存带宽由内存总线的带

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。