人工智能计算架构的未来
近年来,伴随着数据需求的急剧膨胀、深度学习算法和计算技术的突破,人工智能在全球范围内掀起了一股新的浪潮。人工智能为行业带来了深刻的变革,但同时也为 IT 产业带来了巨大的挑战。随着人工智能计算的需求剧增,现有计算架构遭遇功耗墙、性能墙、内存墙、摩尔定律趋缓等挑战,迫切需要计算架构的创新。
基于此,在昨日举行的世界人工智能大会上,比特大陆(BITMAIN)联合创始人、CEO 詹克团先生围绕「AI 驱动的又一个星球级计算」发表主题演讲,全面介绍了 AI 在未来的星球级别计算的宏大数据和应用,并在现场宣布了 BITMAIN 的 AI 品牌 SOPHON(算丰),其官网 SOPHON.AI 正式上线。同时,由 BITMAIN 研发的全球首款张量加速计算芯片 BM1680 正式发布,板卡 SC1/SC1+、智能视频分析服务器 SS1 等重量级产品也相应地量产出货。
BITMAIN CEO 詹克团表示:"人工智能驱动了又一个星球级的计算体量,也驱动新的计算架构创新。在感知智能方面,如图像、视频、语音、自然语言的识别和理解等,人工智能应用越来越深入,并不断推动着行业的智能化变革。"
"我们坚定地看好 AI 在各行业应用场景落地,并驱动行业智能化。也正因如此,入场人工智能领域,是 BITMAIN 的重要一步。从研发数字货币芯片、矿机到设立矿池,比特大陆自主研发,自主布局完善产业链。而现在,是 BITMAIN 进军人工智能行业的最佳时机。BITMAIN 致力于通过强大的芯片工程、快速迭代和系统设计制造能力,提供最具性价比、最具性能功耗比的 AI 计算力,同时致力于为行业定制、优化全栈的硬件和系统方案,从而极大降低行业+AI 的难度,促进 AI 普及。"
"比如我们今天发布的完整的服务器产品 SS1,基于自主研发的芯片和板卡,集成了视频智能分析算法,用户可以开箱即用的方式实现人脸人体检测、视频智能分析功能,通过调用算法 API 的方式,快速的实现系统集成到视频大系统。同时,SC1 板卡等产品也对外发售,客户可根据官方 API 进行二次开发。"
全球首发 SOPHON TPU 芯片 BM1680、SOPHON SC1 和 SC1+板卡
SOPHON TPU 芯片 BM1680,面向深度学习应用的张量计算加速处理的专用定制芯片,适用于 CNN、RNN、DNN 等深度神经网络的推理预测(Inference)和训练(Training)。
BM1680 单芯片能够提供 2TFlops 单精度加速计算能力,芯片由 64 NPU 构成,特殊设计的 NPU 调度引擎(Scheduling Engine)可以提供强大的数据吞吐能力,将数据输入到神经元核心(Neuron Processor Cores)。BM1680 采用改进型脉动阵列结构。片上 32MB SRAM 拥有高带宽,在片外有 DDR4 内存接口,单芯片可支持高达 16GB DDR 内存。
通过高度定制的 BMDNN Chip link 芯片链路技术,在高速 SerDes 上提供稳定、灵活、低延迟的链路,可以使多个 BM1680 芯片一起工作,作为一个统一的系统,能够提供更高的处理能力。
BM1680 芯片架构图(摘自 BM1680 DATASHEET 文档)
基于 BM1680 芯片,BITMAIN 提供 Sophon SC1 和 SC1+的板卡产品。其中 SC1 拥有一颗高性能的 BM1680 芯片,而 SC1+ 则是双 BM1680 级联架构,芯片之间通过高速 SerDes Chiplink 互联,为深度学习计算带来全新的加速体验。
SC1 / SC1+ 板卡实物图
SC1 和 SC1+的架构类似,都通过 PCIE 的总线连入系统。具备高达 2TFlops / 4TFlops 的单卡计算能力(单精度),单芯片 On Chip SRAM 高达 32MB,较大的 SRAM 适合装载整个神经网络模型。同时在板卡上搭载 16GB 或 32GB DDR4 内存,大容量存储适合存储较大的神经网络模型。
板卡实物图
SC1/SC1+规格参数一览:
SOPHON 芯片和板卡的软件接口和全栈软件支持
SOPHON 拥有软硬件全栈开发的能力,和各个层次的工具链能力,从硬件、驱动、指令集、线性代数加速核心数学库,RUNTIME 库,BM Deploy 的 Inference 部署工具,FFT 加速库,深度学习框架(Caffe,Darknet, Tensorflow,MXNet 等)。真正实现了软件、硬件的协同设计和一体化的优化,实现深度学习应用在硬件上的最佳优化性能。
SOPHON SS1 智能视频分析服务器
智能视频分析服务器 SOPHON SS1,是一款新的深度学习服务器。基于 BITMAIN 最新研发的 SOPHON SC1/SC1+深度学习加速卡和对于图像识别算法的深度理解而打造的深度学习服务器,专门为视频监控、互联网图像等多种应用场景提供强大的深度学习加速能力。
SOPHON SS1 提供了一整套针对视频和图像识别技术的深度学习解决方案。系统核心组件是两张 SOPHON SC1(或 SC1+)深度学习加速卡,通过 PCIE 接口实现与应用系统的连接。SS1 的应用系统基于 X86 CPU 打造,以供启动、存储管理及深度学习 SDK 协调之用。SS1 的整个系统被浓缩进一个 4 机架单位(4U)机箱中,集电源、冷却、网络、多系统互联及文件系统于一体,客户可以在此基础上实现快速的二次开发或系统集成,最大程度上方便了用户对深度学习系统的利用。
SOPHON SS1 实物图如下:
SS1 具备的几大特点:
· 为应用场景而定制的 Turn Key 开箱即用的方案
· 高性能的异构计算优化,异构协同
· 首个为深度学习预测/推理而优化的软硬件 CoDesign 方案
· 强大的工程和研发团队支持
· 数据中心级别的硬件品质
· 向用户开放全部的软件源代码
SS1 规格参数如下:
SOPHON 视频分析 AI 应用展示
SOPHON SS1 服务器集成的人脸/人体检测、机非人视频结构化分析等等 DEMO,展示行业应用方案能力场景,落地 视频分析安防行业方案。展示 人检测,车检测等等。BITMAIN 也将快速快速迭代的视频结构化 API。
SOPHON 板卡和服务器,将在官网 SOPHON.AI 面向全球发售
全球官网 SOPHON.AI 已经全面发布,客户可以了解最新的产品、方案信息。
板卡产品 SC1 规格和发售价:
服务器 SS1 规格和发售价:
另外,据官方介绍,在此次发布的第一代人工智能产品 BM1680 芯片,以及板卡、服务器等的基础上,BITMAIN 还将保持创新和快速迭代,预期于下个月推出第二代芯片BM1682,2018 年9月份推出基于12nm FinFET 制程的第三代产品,加速人工智能时代的进程。