谷歌选择自主构建AI芯片的六大理由

但这又引发了新的问题:为何英特尔、高能与英伟达无法满足谷歌数据中心的需求?

谷歌选择自主构建AI芯片的六大理由

事实上,TPU并非如英特尔CPU或者英伟达GPU那样属于通用型设备,而是一类专门面向机器学习乃至其人工智能子集的特定应用集成电路(简称ASIC)。过去几年以来,负责语言翻译、图像识别、消费者购买推荐等类型的机器学习方案正不断涌现,这意味着谷歌拥有大量数据以实现准确的分析与预测。

机器学习分为两大组成部分:训练与推理。训练是利用数据对预测模型进行调整,包括通过数百万自然语言示例帮助机器学习系统完成语言学习。在此之后,这套语言模型则可通过推断完成具体推断任务。训练与推断皆运行在神经网络之上——神经网络正是运行在数据中心硬件之上负责实现机器学习的优化软件层。

TPU专门针对特定应用的推理任务而设计。Google pain部门负责进行机器学习研究,从而通过多项谷歌服务交付其学习与处理结果。然而随着服务数量的不断提升,相关负载亦在急剧增长。

正是这种日益增长的工作量催生出谷歌TPU——其能够以更低成本与更低延迟向用户提供语言翻译及图像搜索等能力。

以下为谷歌公司设计并构建TPU的六大理由。

1. 性能优势

谷歌将TPU的性能与服务器级英特尔Haswell CPU与英伟达K80 GPU进行了比较,并发现前者能够在处理基准代码执行方面(代表着95%的推理型工作负载)快15到30倍。

2. 物理空间优势

云数据中心相当于IT工厂,其预算包括设备、占地、电力以及数据中心构建成本。将尽可能多的处理能力容纳在最低功耗水平且发热量最低的最小空间内无疑是实现成本优化的核心。

六年前,当用户首次开始使用自然语言识别代替手动操作时,谷歌工程师即估计,每位用户每天使用三分钟的自然语言输入即会令现有数据中心规模翻倍。正因为如此,谷歌才需要打造TPU以继续控制实现成本。

3. 功耗优势

降低功耗不仅能够节约能源成本,同时亦可削减散热成本。除了原始性能更强之外,TPU与CPU主机处理器的组合还能够实现能源效率提升。如下图所示,TPU/CPU组合的每瓦性能水平在不同工作负载下可达到CPU/GPU组合的30到80倍。

谷歌选择自主构建AI芯片的六大理由

4. TPU可解决特定应用难题

英特尔的CPU与英伟达的GPU属于通用系统芯片,专为广泛应用而设计,长于进行精确的浮点运算。机器学习模型则能够容忍精度较低的数学运算,这意味着不再需要浮点运算单元(简称FPU)。因此,TPU能够在移除FPU的前提下与英特尔CPU及英伟达GPU提供同等精度的8 bit数学运算结果。

矩阵代数数学正是大多数神经网络的运作基础。矩阵乘法单元(简称MMU)则为TPU的核心。荐包含执行8 bit乘法与加法的256 x 256乘法累加器(简称MAC)。MMU每个运算周期可执行64000次加法。这意味着主频为0.7 GHz的TPU可通过低精度矩阵数学优化以及数据与结果面向MMU快速导入/移出的方式实现超越2.3 GHz英特尔CPU与1.5 GHz英伟达GPU的性能表现。

5.引导并激励各芯片制造商构建TPU

谷歌研究论文作者指出,商用计算产品在计算架构层面的差异往往很小,因此TPU将成为特定架构层面的重要原型设计方案。由杰出芯片工程师Norman Jouppi领导的工程团队在短短15个月中即完成了TPU交付,这一成果令人印象深刻。事实上,ASIC的制造需要巨额成本,而一旦在实际生产中发现错误,则只能再次投入巨资以从头开始。

尽管如此,英特尔与英伟达的开发、人才以及设计与制造资源已经相当雄厚,足以满足ASIC的设计与制造要求。目前市场上的Amazon、谷歌、Facebook、IBM及微软等企业客户虽然规模庞大,但相较于通用CPU业务,这部分需求仍然较为小众。

正因为如此,作为对机器学习问题拥有深刻理解的谷歌公司开始大力强调TPU的重要意义。其同时发布了一系列研究论文,旨在推动机器学习社区与芯片制造商间的对接层次,最终实现相关商业解决方案的大规模产出。

6.灵活的专利与知识产权

专利发明人Jouppi在美国专利局数据库中申请了一系列TPU相关专利。而作为相关专利的主要持有方,谷歌公司可以利用这一武器激励芯片制造商投身这一业务领域。

目前Amazon、Facebook、谷歌、IBM以及微软等领先机器学习企业客户正积极引导芯片制造商开发特定产品以满足其需求。为了实现这一目标,他们需要发布更新更快的计算架构来推动行业发展,最终让更多企业积极使用AI方案。而AI企业客户的增加亦会提升芯片制造商的参与积极性。谷歌的TPU很可能成为这一良性市场循环的重要基石。

相关推荐