三星CPU架构细节曝光,挑战高通和华为的武器?.doc

三星CPU架构细节曝光,挑战高通和华为的武器?.doc

ID:27823140

大小:255.00 KB

页数:20页

时间:2018-12-06

三星CPU架构细节曝光,挑战高通和华为的武器?.doc_第1页
三星CPU架构细节曝光,挑战高通和华为的武器?.doc_第2页
三星CPU架构细节曝光,挑战高通和华为的武器?.doc_第3页
三星CPU架构细节曝光,挑战高通和华为的武器?.doc_第4页
三星CPU架构细节曝光,挑战高通和华为的武器?.doc_第5页
资源描述:

《三星CPU架构细节曝光,挑战高通和华为的武器?.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、三星CPU架构细节曝光,挑战高通和华为的武器?  (本文由微信公众号半导体行业观察(ID:icbank)摘译自「anandtech],这里作为转载分享)作为今年HotChips会议的重头戏之一,我们很高兴终于看到三星披官方披露了其今年最新新的CPU设计ExynosM3。  今年1月份,媒体首次报道了三星的新微架构的相关信息,从那时起我们就很清楚,这是一个不容忽视的关注点:因为三星在性能方面取得了巨大的提升,这在他们近些年来的硅设计产品上前所未见。    但在接下来的几个月中,对于新款Exynos9810及其M3

2、内核的披露却越来越少。中间我们有过很多探索,但总不能窥到其内心。当中更是没有三星的任何内容做参考。  回顾三星这系列架构的发展,对产业来说,这是一个很好的创新和推动。  在2016年的HotChips上,三星首次展示了其初代微架构ExynosM1。据了解,三星的CPUIP是在德克萨斯州奥斯汀的“三星奥斯汀研发中心”(简称SARC)开发的,该中心成立于2010年,目标是为三星的S.LSI部门和Exynos芯片组建立内部IP。在这个中心里,有来自AMD,英特尔和其他公司和高等院校的、才华横溢的资深专家,后续的内存控

3、制器和自定义互连的出现,就是他们的工作成果。当然,三星首款定制CPU,更是其中的明星。    后来三星又推出了M2,值得一提的是,由于M2在整个工作负载中有20%IPC改进,所以即使生产芯片的时钟速度降低了12%,但是这它的性能还是优于M1。三星在M2中实现了一些最初计划到M3的一些功能,这就使得新的M3设计变得更加激进。  在这里,三星明确指出了业界最无情的方面之一,那就是在发布周期内,IP和芯片必须同步。我们看到SoC多个供应商的产品,都是为了抓住新产品的商业发布窗口而紧急推向市场。    对比Exynos

4、M3的概述以及M1的原始幻灯片,我们看到了很多的相似之处,但M3在桌面上增加了更多。SARC团队将微架构宽度从4宽解码单元(widedecodeunit)增加到6,这是新μarch的整体核心特征。我们看到一个新增的带有乘法器功能的整数ALU、第二个负载单元和一个大幅扩展的浮点/SIMD,这就将计算容量提升了三倍之多。  三星从未真正对M2微体系结构公开,并且也没有与之相关的特定编译器机器模型,但在今天的披露中,我们看到的一个变化是三星进行了从96到100个条目(entries)的微小调整,重新排序缓冲。正如我们

5、在1月份的第一次μarch披露中所提到的那样,M3大大扩展到最多228个条目,这使得μarch从这一方面看,与英特尔的核心设计更为相似(尽管我们无法直接进行不同ISA的密度比较,且随着指令的复杂性而变化)。  当Arm公布了A76的µarch细节,特别是128-entryROB(这看起来比M3还小)。在他们看来,这是性能和面积/功耗之间的平衡。特别值得一提的是,ROBcapacity增加了7%,但只带来1%的性能提升。  三星解释说,ROBcapacity是一个选择,它与微架构的其余部分以及各种缓冲区和后端调度

6、程序容量的设计密切相关-μarch宽度和μarch宽度相互补充以提高性能,而一个如如M3这样的,更广宽度的μarch能够更快地填充ROB,从而从更大的容量中获得更强的性能。总的来说,考虑到提高性能和节省成本,M3采用了与M1/M2不同的设计。  一个更大的前端  深入了解前端的更多细节,我们看到了分支预测器(branchpredicto)和fetch单元的各种改进。M1的分支预测器与其他μarch的不同之处在于它能够在每个周期采用两个分支并且在后端具有两个分支端口。M3似乎保持这个宽度,但是将μBTB从64个增

7、加到128个。mainBTB仍保留在4K条目中,但在采用了分支之后,延迟方面已有了明显提升。  除此之外,分支预测器质量总体上也有了提升,这就使得错过分支平均减少了15%。有趣的是,三星实际上发布了一个实际的MPKI(Missesperkiloinstructions)值,这是迄今为止Arm(或任何供应商?)都没有看到的东西。在这里,三星监控来自各种应用程序和用例的,不断扩展的4000-6000代码跟踪套件,以便在开发过程中验证其性能。  分支预测器和fetch单元分别供给decoupledaddress队列和

8、decoupledinstruction指令队列,这样做或者可以使得这些单元在实现中进行时钟门控。  fetch单元的带宽已加倍,现在每个周期最多可读取48个字节,相当于每个周期12个32b指令,这就让获取与解码容量的比率变为2:1,比1.5:1的比率有了明显增加(M1中的24B/c,4解码)。三星解释说,以应对更广泛的微架构上越来越大的分支泡沫问题,需要大幅增加这样的设计。他们承认,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。