第三次AI浪潮革命,百万倍算力挑战大起底

第三次AI浪潮革命,百万倍算力挑战大起底

【新智元导读】AI第三次浪潮革命是在算力激增的推动下发生的。Jeff Dean说我们需要超过现在100万倍的算力,成为企业面临的重大挑战。本文通过硬件基础、软件基础以及优化框架和应用加速4个方面,为您起底百万倍算力挑战。

AI这个词,从第一次被创造出来至今,已经经历了两次浪潮。如今在算法、大数据、算力三大因素的驱动下,AI发展迎来第三次浪潮。

谷歌AI负责人Jeff Dean说:“事实证明,我们真正需要的是超过现在100万倍的计算能力,而不仅仅是几十倍的增长。”

算力为王的年代,企业需要满足4个层次的需求:

  1. 硬件,一些计算平台比如服务器、加速卡等。这是算力的物理根基,是满足算力的第一步
  2. 软件,构建在硬件之上的开发管理套件,提供整体解决方案,可以让用户无需掌握高深的AI知识,直接根据需要进行开发
  3. 优化主流框架,针对硬件和管理套件进行定制化,使得算力能够更加快速稳定
  4. 应用加速,AI端到端的解决方案,将算力落地

这就给传统企业带来了前所未有的挑战。一方面,越来越多的传统企业需要尽快转型AI;另一方面,传统企业已经无法应对AI时代的算力挑战。

提高整个AI计算系统的性能与效率迫在眉睫,而首当其冲的,就是服务器和加速卡。

解决算力需求的硬件基础:服务器和加速卡

企业的规模越大,数据的集中度就越高,对AI计算力的需求也就越高,对AI服务器的需求也就约旺盛。

根据国际调研公司(IDC)全球季度服务器跟踪报告,2018年第三季度全球服务器市场,供应商收入达234亿美元(约1581亿人民币),同比增长37.7%。全球服务器出货量320万台,同比增长18.3%。

在全球服务器市场,排名前五的分别是:DELL EMC第一、HPE/New H3C Group第二、Inspur/Inspur Power第三、Lenovo第四、 IBM,Huawei和Cisco并列第五。

具体数据如下图:

第三次AI浪潮革命,百万倍算力挑战大起底

可以看到,在服务器市场TOP 5的7家厂商中,浪潮表现的最为亮眼,出货量同比增长90.2%,营收增长达增长156.5%

而根据IDC《2018上半年中国AI基础架构市场报告》,2018上半年浪潮AI服务器销售额2.79亿美元,销售量11,713台,继续保持中国市场第一,销售额份额为51.4%。

能够胜任BAT算力要求的企业不多。在AI算力供应商的问题上,BAT纷纷选择了浪潮。

浪潮能够连续多年成为BAT最主要的AI服务器供应商,靠的是不断提升计算能力的AI服务器:

AI超级服务器AGX-5,单机配置16颗NVIDIA Tesla® V100 Tensor Core 32GB GPUs,AI计算性能高达每秒2千万亿次,可支持4倍超大规模深度神经网络模型,并将训练速度提高10倍。

第三次AI浪潮革命,百万倍算力挑战大起底

AGX-2服务器,采用P100的Linpack浮点运算性能达29.33TFLOPS,在2U空间内支持部署8块NVLink或PCI-E。在AI深度学习模型训练上,采用TensorFlow框架和GoogLeNet模型,AGX-2处理速度为每秒1165幅图片。

智能视频分析服务器NF5280M5-V,在2U空间内配置8片NVIDIA TESLA P4 GPU,单台服务器即可完成96路高清摄像头视频数据的解码及结构化实时处理需求。同时最大可提供96TB本地存储空间,可将视频处理数据的保存周期最高延长至6个月。

弹性GPU服务器NF5468M5,专注于AI云。可同时处理300路以上1080p高清视频结构化,支持288TB大容量存储或32TB固态存储,实现高达400Gbps通信带宽和1us的超低延迟。

这些服务器,同时也在为科大讯飞、商汤、旷视、字节跳动、滴滴等AI领先公司,在语音、图像、视频、搜索、网络等方面提供了算力支持。

除了AI服务器,浪潮还发布了全球首款集成HBM2高速缓存FPGA AI加速卡F37X,可在不到75W典型应用功耗提供28.1TOPS的INT8计算性能和460GB/s的超高数据带宽,实现高性能、高带宽、低延迟、低功耗的AI计算加速。

有了AI服务器和加速卡,仅仅是解决了算力需求的第一步:硬件基础设施。接下来,就需要管理套件的跟进,实现软件平台基础。

解决算力需求的软件基础:AI开发平台

解决了算力的硬件基础,企业还需要解决快速构建AI开发平台,进行人工智能产业布局的难题。

这个时候,一套能够实现对计算、存储、网络等基础资源的管理和调度的完整解决方案就非常必要了。

浪潮升级了AI高效开发管理平台AIStation,致力于提供高效、易用的人工智能开发平台。

同时AIStation还集成了主流的AI开源框架和深度学习模型,提供完整的AI开发工作流服务。

除了AIStation外,浪潮还发布了OpenStack AI云平台。

根据工信部华信研究院提供的数据显示,2018年OpenStack占据私有云60%的市场。

OpenStack AI云平台可帮助行业AI用户快速便捷的构建CPU+GPU的弹性异构云环境,并实现对异构计算资源池的动态调度与分配,支撑数据管理、模型训练、模型部署等各类AI应用场景。

通过对GPU虚拟机的支持,浪潮OpenStack AI云平台能够以多租户的形式,按需分配异构计算资源,从而实现AI敏捷开发。

同时,多租户任务排队策略、资源分组优化策略、租户资源配额集均衡策略以及GPU共享策略等精细化调度策略,也进一步提高了GPU资源的利用率。

有了管理套件后,接下来就应该深入到更细节的框架优化中了。

进一步提升算力方法:框架优化

要满足算力的不断提升,旧有的计算框架已经无法满足新的性能需求,需要不断的进行优化。

目前使用比较广的框架包括TensorFlow、PyTorch和Caffe。

TensorFlow是一款强大而成熟的深度学习框架,有强大的可视化性能,以及用于高水平模型开发的多个选项。它具备生产就绪的部署选项,支持移动平台。

Caffe用来做计算机视觉,HPC和数值优化的研究,加上产品线里的高效部署。

PyTorch用来做非常dynamic的研究加上对速度要求不高的产品。

对于企业来说,由于TF和Caffe的高效部署选项,基于TF和Caffe的框架优化就显得更有意义。

浪潮针对TF和Caffe推出了Caffe-MPI, TensorFlow-Opt, FPGA计算加速引擎TF2等优化方案。

Caffe-MPI

Caffe-MPI是全球首个集群并行版的Caffe深度学习计算开源框架,针对高性能计算系统设计使之具备良好的并行扩展性。

新版本在4节点16块GPU卡集群系统上训练性能较单卡提升13倍,其每秒处理图片数量是同配置集群运行的TensorFlow 1.0的近2倍。

Caffe-MPI设计了两层通信模式,非常适合现在的高密度GPU服务器。同时Caffe-MPI还设计实现了计算和通信的重叠,提供了更好的cuDNN兼容性,用户可以无缝调用最新的cuDNN版本实现更大的性能提升。

TensorFlow-Opt

TensorFlow-Opt已完成了ResNet-50、ResNet-101和VGG16(batch size=128 & 256)等多个网络模型的测试。

其中,在ResNet-50网络模型下(单卡batchsize=256),512块GPU每秒可训练128336张图片,即训练完成一个完整的ImageNet数据集(128万张图片)只需要约10秒时间,打破了AI训练性能世界纪录。

FPGA计算加速引擎TF2

FPGA计算加速引擎TF2支持TensorFlow,可帮助AI客户快速实现基于主流AI训练软件和深度神经网络模型DNN的FPGA线上推理,并通过全球首创的FPGA上DNN的移位运算技术获得AI应用的高性能和低延迟。

TF2计算加速引擎提高了FPGA上AI计算性能,降低了FPGA的AI软件实现门槛,将支持FPGA广泛应用于AI生态推动更多AI应用落地。

经过AI服务器提供算力的硬件基础,管理套件提供软件平台基础,优化框架保证紧跟算力不断增长的需求,最后就是为应用提供加速。

实现算力需求的落地应用:案例解析

目前,浪潮在智能视频分析、医疗影像、电力设备巡检、金融汇率预测、语音识别、AI云等应用中,已经有了很多成功案例。

成功案例一:智能安防

视频科技领域AI应用的场景化非常分散,需要提炼应用场景,根据应用规模,在解决方案中按需灵活组合各种产品。

浪潮人工智能专家团队与大华合作建立了超强计算力为核心的计算平台和计算集群单元。

在硬件上,使用AGX-2集群来处理视频相关业务计算。在管理套件上,针对智能安防的应用场景,定制开发了AIstation管理平台。

优化后的AIStation平台,可以秒级构建AI环境,实现GPU资源智能调度,整体效率大幅提升,降低运维成本。

目前大华股份与浪潮已经在智慧城市、雪亮工程、平安城市等多个领域共同打造信息化联合解决方案,共同促进智能物联网行业智能化、信息化转型升级和跨域发展。

成功案例二:首钢园落地项目

北京首钢自动化信息技术有限公司,采用了浪潮和百度联合推出的ABC一体机3.0的钢包质检解决方案后,10000张钢材照片的整体缺陷识别分类准确率达到99%以上,比人工专业检测的准确率更高。

成功案例三:语音识别一体机

浪潮与科大讯飞联合发布了面向于语音识别、翻译等AI应用的16卡计算集群“AI Booster”,单套系统能够实现单精度240TFlops/s或Int8 752TFlops/s的计算性能。

双方公布的实测数据显示,在智能翻译模型训练任务中,采用相同计算卡的“AI Booster”与传统4卡服务器组成的16卡集群相比,AI计算加速比提升18%。

解决算力需求的长期战略:人才培养

除了技术问题,传统行业AI转型还面临AI人才的短缺。在培养人才问题上,浪潮也在积极提供解决方案。

去年在AICC人工智能计算大会上开办集训营,提供了现场动手实践的课程。

打比赛也是一个很好的吸引大学生投入AI学习中的方式。世界三大超算竞赛之一的ASC,就是一个很好的例子。

目前ASC已经吸引了超过7000名来自世界各地的选手,送出了近百万的奖金。

AIStation也可以应用在AI人才培养方面。在AIStation上集成课件、实验题目、网络模型、框架和数据集,老师可以给学生开通帐号,做题目,看课件,快速完成AI能力的掌握。

除此以外,浪潮还在做教材的开发,预计今年会有正式出版的版本。

依靠算力推动AI生态发展

通过发布AI子品牌TensorServer、推出AI计算生态计划Plan T,浪潮在不断的推动AI应用落地。

在整个AI生态中,需要强大计算力来连接芯片提供商、应用提供商、服务提供商和算法提供商,计算力是一切AI产业发展的核心,是AI产业发展的基石。

浪潮为AI生态提供强大的计算力支撑,并携手百度、科大讯飞、宽邦、第四范式等伙伴伙伴,推出联合解决方案,共同推动AI生态,赋能传统行业智慧转型。

我们有理由相信在未来,将会让更多行业真正享受到AI技术的好处。