处于拐点期的OpenPower,IBM解读未来的Power芯片

当IBM在五年前发布OpenPower计划时,在许多人看来,OpenPower于市场而言似乎是一个名不见经传的经典案例。但OpenPower个市场带来了希望,尤其是在数据中心领域热切、积极地寻求替代Xeon处理器来减少对英特尔统治力的依靠。

早在1991年,苹果,IBM和摩托罗拉就组建了AIM联盟,该联盟试图创建一个适用于嵌入式和桌面应用的单一统一计算架构,取代已在Apple系统中使用十年的摩托罗拉68000处理器,而这正是嵌入式计算的标准,就像今天的ARM芯片一样。IBM和摩托罗拉都独立开发了自己的32位和64位PowerPC处理器,其中摩托罗拉在苹果个人电脑和大量嵌入式设备中的32位设计中取得了成功,IBM主要在其自己的服务器上销售这些芯片。最终,微软加入了这项工作,并将Windows Server移植到平台上,并且在20世纪90年代中期短暂的时间内,IBM甚至发布了基于自己PC芯片的Windows系统的PC。

然后在2004年,IBM创建了Power.org联盟,再次试图巩固Power架构的地位,因为英特尔与X86芯片,以及ARM集团与其无数供应商都在争夺由摩托罗拉和IBM控制的嵌入式市场(程度较小)。 Power.org之后开发的所有智能手机都非常重要,它允许从IBM获得知识产权许可,这些智能手机基于ARM处理器,至今仍然如此。Arm Holdings是一家知识产权授权公司,由英国系统制造商Acorn Computer Group的ARM前身创建,有趣的是在20世纪90年代,英特尔是其RISC芯片XScale系列的ARM指令集的早期授权商之一。(该业务被出售给Marvell,并成为Arm芯片业务的基础,现在增加了Cavium ThunderX产品)。无论如何,超过40家公司加入了Power.org联盟,但苹果缺席了,并且摩托罗拉将其PowerPC业务分拆为飞思卡尔半导体,因为它加强了自己的手机和智能手机业务。

当IBM重新开始考虑再次创建一个围绕Power架构的开放社区时,它没有试图重新夺回从庞大的摩托罗拉68K芯片系列延续的嵌入式市场,或试图将Power芯片重新放回PC,甚至进入智能手机。Power架构在大型计算领域具有优势,特别是当涉及到内存和I/O带宽时,尤其是对许多能耗不会成为核心问题的应用而言。最终IBM和谷歌于2013年夏季共同宣布成立OpenPower基金会,以及引入交换芯片适配器制造商Mellanox Technologies,GPU加速器制造商Nvidia和主板制造商Tyan,成为了混合计算领域开发工作和协作的焦点事件。尤其针对大型高性能计算系统的(如Oak Ridge国家实验室的“Summit”超级计算机和劳伦斯利弗莫尔国家实验室的“Sierra”超级计算机以及无数个在超级计算机中进行机器学习培训的系统)大型企业希望利用这种仍然新兴的技术。

提出混合方法的原因,以及IBM开放Power架构以获得更合理的许可,以及建立开放接口,固件和BMC控制器的原因很简单。IBM深知,如果它没有让别人帮助引导Power堆栈,IBM无法与数据中心内数以千万计的X86服务器对抗。并且它也知道摩尔定律的放缓为其提供了一个独特的,千载难逢的机会,通过联盟的方式来冲击英特尔的X86阵营。

在近期的OpenPower峰会上,IBM认知系统开发部副总裁兼研究员Brad McCredie回忆了OpenPower过往和努力,以及Power9芯片和未来Power10芯片的发布,以及如何实现IBM的承诺。

处于拐点期的OpenPower,IBM解读未来的Power芯片

McCredie在演讲中,引用了《Computer Architecture:A Quantitative Approach》一书中的图表。

IBM在CISC处理器创新方面做得很好,其高端系统的封装将各种I/O和加速器整合到2D和2.5D芯片中,塑造了经典。IBM还在RISC架构的开发和商业化方面发挥了重要作用,并得益于这一简化的CPU设计原则,毫不逊色于Sun,HP以及其他许多公司。IBM不仅认识到摩尔定律即将出现的限制(其中工艺缩小使得晶体管的成本每两年可以降低两倍)和Dennard缩放(因为电压和电流缩减与晶体管大小,功率密度保持不变)。IBM发现,要想缩小芯片,让它们更便宜,并且保持在同样的功耗范围内,将会变得更加困难。IBM表现非常出色,但正如上面性能曲线所显示的那样,曲线越来越平滑。

因此需要专用计算来加速通常可以在中央处理器上完成的功能。正如McCredie在2012年预测的那样,已经成为现实:

处于拐点期的OpenPower,IBM解读未来的Power芯片

McCredie长期以来一直在谈论这种混合方法,并一直强调,以这种或那种形式加速计算将是长期规范。他表示,“随着技术和处理器不再提供成本/性能的改进,你必须去寻找其他东西来弥补差距,这就是现在大部分行业正在做的事情。”

McCredie解释说,最大的一次性改进是服务器虚拟化。通过这种方式,你可以使用已运行10%利用率的机器,并通过在虚拟机中对操作系统及其应用程序进行binpacking操作,将它们提升至50%甚至60%。当然,大型机已经有数十年的许多形式的虚拟化,而RISC系统在20世纪90年代后期已经实现了。X86机器后来也引入了企业虚拟化。

因此,IBM一直专注于I/O连接,以各种形式加速器,借助NVLink互连以及类似的“Bluelink”OpenCAPI端口,可在系统和PCI-Express 4.0端口以及NVM-Express上连接FPGA和闪存,从而为CPU和GPU提供连贯内存的Power9芯片,从而比目前市场上的任何其他芯片提供更多I/O带宽。 McCredie说:“我们看到的最大的差距在于将加速器放入系统中。这是战略性的,这是行业发展的方向,这是IT的未来,它实际上将重新定义和重塑系统架构。”

当IBM开始OpenPower的努力时,对加速器的重点关注并不完全。事实上,IBM对我们许多人充分的期待,让企业采用Arm方法并基于Power架构创建他们自己的处理器设计,从而在那里寻求竞争优势。可以在McCredie所做的原来OpenPower演示中看到这一点:

处于拐点期的OpenPower,IBM解读未来的Power芯片

但事实并非如此,因为在高端数据中心构建了一个定制处理器(即使是基于许可知识产权的处理器)仍然需要花费2.5亿至3亿美元,而Power架构仍然存在一些问题。谷歌没有设计自己的Power芯片,而且为什么他们一起努力,让双方以及大量HPC和AI客户都从中受益?据我们所知,通过Power联盟获得PowerPC授权的苏州中晟宏芯在对Power8进行测试之后,仍然在开发自己的Power9芯片,只是在中国的一家本地代工厂实施。但除此之外,IBM是商用Power处理器的唯一供应商。

当然,投资是严重的进入市场的壁垒,并且IBM与Google和Rackspace Hosting等超大规模供应商合作满足他们的需求,并与HPC社区合作解决他们的类似需求,使得内存带宽和I/O带宽在计算方面优于X86或Arm选项,并可替代X86和Arm。CPU的内核技术,例如无序处理和推测性执行在早期的RISC处理器上和现在的所有CPU上命名(现代X86内核本质实际上是RISC-y,即使它被某些人称为CISC芯片),以及更为华丽的高速缓存存储器层次结构,如L1,L2,L3,以及带缓冲内存的Power芯片,甚至L4高速缓存 ,曾经是处理器的主要区别。但是,IBM认为I/O现在是最重要的区分因素。

McCredie在OpenPower峰会上公布的最新Power处理器路线图:

处于拐点期的OpenPower,IBM解读未来的Power芯片

到目前为止,IBM一直在推进核心数量,内存带宽(和容量)以及I/O带宽(和多样性)。“Centaur”内存缓冲芯片在内存旁边植入了L4高速缓存,将内存带宽提高了两倍多,达到210 GB/秒(即持续的非峰值带宽),同时将内核数量仅提高了50%;平衡了从PCI-Express 2.0到PCI-Express 3.0外设端口的转变。2016年,Power8 +芯片首次在Power架构中增加了四个NVLink 1.0端口中嵌入的“高级I/O信号”,为处理器提供160 GB/秒的增量带宽,将GPU连接至CPU并为Power9打下了基础。

使用Power9时,在商用双插槽中使用的“Nimbus”和“LaGrange”变体类型不使用缓冲存储器,而且持续的内存带宽已经下降到150 GB/秒,但由于支持NVLink 2.0端口和OpenCAPI端口的25 Gb/每秒Bluelink信号,这些端口现在可为复杂计算提供300 GB/秒的总带宽;PCI-Express 4.0端口也支持传统的CAPI端口以及合适的PCI-Express设备。用于大型NUMA机的“Cumulus”Power9芯片仍使用带有DDR4内存的Centaur缓冲器,持续带宽与Power8和Power8 +芯片相同。

明年,IBM所称的Power9 +将与IBM之前的命名规则保持一致,芯片制造工艺将保持在14纳米的相同水平,核心数将保持不变,即24核心核或12核心,但微体系结构将得到增强,并将提供一个新的内存子系统,在缓冲内存上的持续内存带宽高出67%。该芯片将具有相同的25 Gb/秒I/O信号电路,但将支持更新的OpenCAPI 4.0和NVLink 3.0协议。(确切地说,这些代表的增强功能尚不清楚,但毫无疑问,这些协议会对进行调整,使其更有效地运行,并且可能还包括与CCIX和Gen-Z协议兼容的功能。)

如果仔细观察,此系统体系结构图提供了有关IBM可能在做什么的一些信息:

处于拐点期的OpenPower,IBM解读未来的Power芯片

IBM将OpenCAPI北向连接到JEDEC内存缓冲区,这似乎意味着DDR4主内存可能刚刚开始挂起相同的25 Gb/秒信号,从而使内存容量和带宽在处理器上更加流畅。以往,将DDR4内存控制器移出到线路的另一端并离开芯片会很有趣,但这可能证明太难了。但是为了从CPU中解放内存,这是需要完成的,最终允许内存独立于CPU进行升级。 我们希望DDR5能够这样做,但出于商业利益,内存行业关注的是将内存容量和带宽翻一番,所以它们可能无心变革。DDR5规范在今年晚些时候发布时,我们会知道更多。

事实上,Power9 +可能是第一款支持DDR5内存的服务器。考虑到2019年DDR5内存可能还无法使用,IBM似乎更愿意在Power9 +芯片上增加更多的内存控制器,并在这些Bluelink端口和JEDEC缓冲器的另一端使用DDR4内存。如果将存储器插槽数量增加50%至48个带缓冲器的插槽,并且从满配现在Power 9的3.2 GHz启动DDR4内存到未来ower9 +芯片的3.2 GHz启动DDR4内存,则可以达到350 GB/秒显示的内存带宽。IBM可以在Power9 +上测试这种“OpenCAPI”内存理念,然后再用Power10芯片和DDR5内存来驱动。

确切地说,在2020年左右或2021年左右。Power10芯片就会问世,我们预计核心数量不会大幅增加,最多可能是18个带SMT8线程的fat核心,以及带SMT4线程的36个瘦核心。IBM承诺Power10支持PCI-Express 5.0外设,这些外设为这些设备增加了两倍的I/O带宽。

相关推荐