如何实现更加轻盈的云计算?
有人把云计算技术视为个人电脑、互联网之后的第三次革新浪潮,认为它即将甚至已经从根本上改变整个信息产业的格局,改变人类使用计算机的习惯和方式,因此云计算技术得到了迅猛发展。但是,它改变世界的同时,自己也需要被改变:由于云计算规模越来越大,它对能源与环境的影响已越来越突出,能效问题是云计算发展道路上必须要跨过的障碍。
在云计算出现之前,想要大量储存和处理数据只能自己搭建服务器系统。这不仅需要很多IT知识,还需要很高的成本,云计算技术的出现改变了这一切。所谓“云服务”,是指通过互联网,让很多用户共享软硬件资源,按照用户需求提供计算机等设备。于是,用户不再需要了解“云”中的基础设施细节,也不需要拥有相关的专业知识,就能随时随地处理和存储大量数据。因为他们不用负责控制“云”中的设备和软件,只需要付出相对低廉的费用,把技术细节交给云服务的提供商来处理就好。
通过互联网,用户可以非常方便地使用云服务,因此互联网上的“云”正迅速扩张,变得越来越庞大,甚至能把产业链的不同环节整合在一起。此外,云计算还让一些很有想象力的应用成为现实。
云服务提供商集成的大量存储和计算资源能形成规模效应,用户可以随时根据需要购买相应服务,而不需要为了短暂的高峰需求购买大量资源。从这个意义上说,云服务比本地服务更加节约资源和能源。根据模拟软件CLEER的估算,如果所有的美国公司都把自己的电子邮箱程序、电子表格应用和客户管理软件都转移到集中的云服务器里,就可以把计算耗能降低87%,节省下的能源足够让洛杉矶运转一年。
云计算的好处显而易见,但随着其规模越来越大,云计算本身的能耗越来越不可忽视。今天,云计算的耗电量已经超过全球总耗电量的1%。而且,把资源聚集在一起形成规模效应本身也有成本。云计算服务商需要专门建设数据中心,并在数据中心里安置成百上千台服务器、处理器和硬盘设备。这些设备运行时会散发大量热,因此数据中心需要额外的支持设备(比如散热系统)来维护正常运作,互联网公司谷歌甚至专门成立了能源部门为自己的数据中心供能。
一般来说,一个占地500平方米的数据中心每天消耗的电力就高达38000度,这一数字超过了3500户欧洲家庭日用电量的总和。从2000年到2007年,全世界数据中心的耗电量已从700亿度增至3300亿度,到2020年预计将超过1万亿度。此外,在2014年,只有8.5%的数据中心负责人预计在2015年后数据中心的容量仍然够用,到2020年时,75%的数据中心必须要扩容。因此,到2020年,预计数据中心的建设规模几乎将是2010年的两倍,达到780亿美元,这让云计算的能效、对环境的影响等问题更为突出。
探秘云计算
从上面这些数字可以看出,为云计算设计高能效的解决方案已经是迫在眉睫的问题。云计算耗能根源在哪?怎样节约云计算?下面的内容,不妨一看。
云计算系统有几个不可或缺的部分。首先,它需要大量的硬件设备来存储并处理数据。这些硬件设备包括放置在机柜内的计算和存储服务器,以及处理器、内存、硬盘等服务器组件。其次,在服务器之间,服务器与用户之间需要连接,所以网络也必不可少,它是连接用户与计算、存储等云资源的桥梁。此外,数据中心还需要专门的软件来监控和管理云计算的基础设施,这些软件就是云管理系统(简称CMS)。最后,云服务商还需要安装合适的应用软件,帮助用户使用云服务。
这几个部分都需要消耗大量的能源,也都会损失和浪费很多能源,比如在夜间温度较低时,散热系统仍在全速运行,或者系统在运行,却没有为用户提供服务。2003年,单机柜服务器的功率密度在0.25千瓦到1.5千瓦之间,而到了2014年,这个数字上升至10千瓦,预计到2020年会上升至30千瓦。而且,大多数服务器空载时的功率超过峰值功率的50%,服务器的平均利用率一般只有10%到50%。因此,一部只以20%性能运行的服务器的能耗,可能相当于它满载时能耗的80%。考虑到仅在2013年最后一个季度,新服务器的出货量就超过250万台,提高服务器的能效就成为第一要务。
而在网络环节,主要有3个地方会消耗能源:数据中心内部的连接、不同数据中心间的网络连接,以及让外部用户访问的固定网络和无线网络。在目前的数据中心,网络成本占所有运营费用的10%,这个数字还可能随着互联网流量的增加上涨到50%。B.硬件优化之路提高能效的第一步是升级网络设备,增加节能模式,减少网络设施在未被充分使用时的耗电量。如果能把未使用的端口、连接和交换机完全关闭,它们就不会因为空转而耗能了。
升级后,设备的热载荷也会下降,这又会降低散热系统的能耗,提升系统的稳定性。不过,只调整网络设备是不够的,因为当网络连通性降低时,系统性能也会下降。所以,还需要调整网络结构,让网络流量可以沿着多个路径传播,或只通过少数几个高能耗的关键路径发送,而网络中的其他部分则进入低能耗模式。这种方案还可用于数据中心间的网络,充分挖掘网络带宽,因为批量传输所需的成本比单独传输要低。使用云管理系统的主要目的,是对基础设施(包括服务器、虚拟机和应用程序)进行调度以实现负载平衡。虚拟机是体现云服务优越性的最佳范例,它借助软件模拟出计算机系统,具有硬件功能,可以在完全隔离的环境中运行。有几种虚拟机的使用方法能提高云计算的能效。首先,可以让虚拟机根据负载情况重新调配资源;其次,可以为虚拟机的布置选择能效最高的物理机;最后,可以将未充分利用的虚拟机迁移至数量更少的主机上,并把一直未使用的虚拟机关闭。
不过,这些步骤需要CPU软件功耗模式来实现。该模式下,软件和硬件彼此协调以共同调整能耗。而且,服务器本身也可以通过调整实际负载来降低能耗。研究表明,即便使用简单的试探法(比如在服务器持续空载一段时间后关闭服务器),也能节约大量能源。
下一步措施是在更宏观的范围内实施管理措施,比如合并多个数据中心。但是,这会增加虚拟机迁移所需的开销,在输入输出两端都要消耗能量。为了弄清楚合并数据中心能否提高能效,我们可以借助一些模拟工具,如CloudSim,它可以评估云计算管理系统消耗和节约的电量,并进一步比较服务质量的变化。显然,如果既能降低能耗,又不会影响用户使用云服务,这种合并就有利于降低云计算的能耗。云管理系统不仅可以控制服务器,还可以控制网络系统,甚至控制散热和供电,因为云管理系统“知道” 需要哪些资源,不需要哪些资源,因此可以选择合适的虚拟技术,并在服务器空载时关闭散热设备。为云计算提供支持的数据中心是一套高度耦合的系统,几乎可以视作一台大型计算机。因此,除了从数据中心的每个部分着手,降低能耗之外,还得把整个数据中心视作一个整体,分析各个基础设施之间的相关性,进而寻找节能方案。
应用设备是云计算中可管理的最小单位,但它们的性能可以影响所需服务器的数量,从而产生多米诺效应,进一步影响网络规模和支持性的设备——比如散热和供电设备的数量。因此,为目标应用程序选择适当的硬件资源,可能会对数据中心的总体能耗产生重大影响。这里的实例包括,用GPU而不是CPU运行可以高度并行的应用程序(有些程序可以在成千上万个处理器上同时运行,节省运算时间)。和CPU相比,GPU上的计算单元非常密集,可以同时执行很多任务,更适合并行计算,同时能耗更低。