欢迎来到天天文库
浏览记录
ID:27494371
大小:342.00 KB
页数:10页
时间:2018-12-04
《IBM发布POWER 9处理器,专为AI、加速计算设计.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、IBM发布POWER9处理器,专为AI、加速计算设计 日前IBM发布POWER9处理器是基于14nm工艺制程,并且专为AI、加速计算设计,相比X86系统,可缩短在机器学习框架下的训练时间。IBM表示设计之初的理念就是未来为AI服务,且率先使用了PCIe4.0技术。 近日IBM在纽约发布了最新设计的POWER9处理器,以及装有POWER9的新一代PowerSystems服务器——AC922。2017年下半年以来,针对大数据和云计算,IBM发布了多款硬件。值得一提的是,AC922是IBM第一款针对企业级AI市场发布的新品,该系统专门为人工智能、加速计算而设计,根据其内部测试数据,
2、相比X86系统,可将深度学习框架下将训练时间缩短至原来的1/4。 IBM大中华区科技合作部副总裁MaryCoucher表示,早四年前IBM开始设计POWER9时,就在整个过程中都考虑了如何来为AI服务。 具体到数据上,跟x86相比,POWER9的线程增加2倍,I/O带宽增加5倍,CPU和GPU之间的内存共享提升至2TB,且率先使用了PCIe4.0技术的,速度比基于PCIeGen3的x86快了2倍多。 基于POWER9的AC922,则嵌入了PCI-Express4.0、新一代NVIDIA的NVLink及OpenCAPI,在加速数据传送方面,超越了x86数倍,能够大幅提升C
3、hainer、TensorFlow及Caffe等人工智能框架的性能,并加速KineTIca等数据库。 记者了解到,正式产品已于本月22日上市。 以下为针对该新品在人工智能及应用方面的采访,受访人有IBM副总裁、大中华区硬件系统部总经理侯淼,IBM大中华区科技合作部副总裁MaryCoucher,IBM杰出工程师、大中华区硬件系统部首席技术官李永辉等,记者在不改变原意的基础上,做了增删。关于人工智能 提问:为什么针对AI?使用场景有哪些? 侯淼:大家好奇为什么这次发布针对AI,机器对AI和机器不对AI到底有什么差别。 在过去IBM很多产品都是针对传统的工作负载,像大家在
4、银行做银行交易一样,可能手机上有一个消费,你买了一本书,花了30块钱,这笔交易会留到银行和你的账户,会访问Database,会从你的银行的账户减掉30块钱,然后确认把这个钱给商家,这样的输入就完成了,整个过程是串行的程序来保证数据一致性,不可能并行起来。对后台机器的要求在于I/O、内存和CPU之间通路的完整性,通过软件要使这个交易完整,我们传统叫针对OnlineTransacTIon系统。 什么是AI的场景?举一个很有意思的例子,比如说在一个视频上识别一个人,有几个步骤来做,第一,要让一个机器知道要找的这个人的面貌特征,知道的过程就要用深度学习训练。这里有几个很关键的点,识别时
5、间越短越好,越快越好,越准越好。 IBM这一套技术在进行训练的时候,有一个深度学习的的一套框架,这里包括我们改进了NVLINKGPU-CPU互连加速技术、CAPII/O加速及内存一致性访问技术、水平扩展等,以前只能在一台机器,可能是十个小时,如果能够十台机器一块儿来做的,有可能是1个小时,这是IBM的优势。 接下来当你进行识别的时候,发现如果一个视频里有十个人,这个识别不是不需要从左边找第一个人到右边,而是会同时去看这些人。如果有一百个人,也会同时看一百个人到底这里面能看多少人,这取决于GPU的能力,GPU的数量越多,并发的密度越高,能力越强。 如果是高清图像的话要求你的分
6、辨率很高,这就跟GPU和CPU的内存相关,内存越大,你所得到的数据越高,从而这个比对的精准度会越快。IBM这次发布的AC922,第一个特征就是支持在2U的设备里支持6个GPU,这使识别的速度会大幅度提高。 第二是跟NVIDIA合作,采用了新一代NVLink,它把CPU和GPU相连接,好处在于,进行高清识别的时候,当GPU内存不够的话可以访问主内存,这是非常大的优势。高清识别的时候,很多情况下GPU的内存不够,会限制访问速率,或者牺牲速度增加质量,或者牺牲质量增加速度,而在AC922不需要这样来做。 提问:近4倍的超越对于芯片来讲是一个什么概念?AI现在的发展跟软件有很大关系,
7、软件的倍数会更多,是否可以介绍一下这一点? 李永辉:人工智能不单单是硬件平台,还涉及到软件的堆栈。AC922是为了人工智能而设计的,在2个U的密度里放了最多6个GPU,可以大大加速很多人工智能框架。 我们采用最新的GPU技术——V100,业界最顶级的,有双密度、单密度、半密度的算法,有效加速人工智能训练过程,也可以做一个性能的提升。在V100GPU里有TensorCore的设计,专门针对人工智能权重算法,实现并行度的加速。 在这个基础上做了软件堆栈,这个堆栈是去年年底发布的
此文档下载收益归作者所有