太空飞船轨迹想要更精准？8-Bit实现零损耗

cys

2018-12-28

关注关注

本文包含了以下重点内容：

• 一种新的8-Bit浮点格式，结合了DNN（深度神经网络）训练的见解，实现了一般矩阵算法（GEMM）在深度学习中模型精度的零损耗。

• 一种叫作“基块计算”的新技术。在分层应用中，仅使用了8-bit乘法和16-bit加法（代替了16-bit和32-bit的独立计算）进行矩阵和卷积计算。

• 在权重更新过程中应用了浮点随机舍入，实现了用16-bit精度进行更新（而不是32-bit）。

• 从综合效果来看，这项技术广泛适用于整套深度学习模型和数据集，同时完全保证精度。

这种方法的根基是近似计算。研究人员尝试在硬件中进行调整，使模型更牢固，同时通过专有架构获得高效收益。

太空飞船轨迹想要更精准？8-Bit实现零损耗

CDC1604是第二代48-bit计算机，用于美国海军导弹自动控制系统，每秒运行可超10万次。但是，如果用CDC1604运行苹果手机，它甚至无法提高自拍像素。因此，掌上机（手机）本有能力运行多个导弹系统，否则这些系统将需要房间大小的处理器。

计算机结构体系最初专门用于串行处理，随后使用DRAMs (动态随机存取存储器）优化高密度存储。但是，芯片表面处理区域价格高昂，且不适宜大量增加内存容量。神经网络存储器，必须存储输入数据、激活参数和权重参数等信息。

在一篇题为“使用8-bit浮点数训练深度神经网络算法”的论文中，作者Naigang Wang, Jungwook Choi, Daniel Brand, Chia-Yu Chen以及Kailash Gopalakrishnan，均来自IBM沃森研究中心。他们介绍了能使用8-bit浮动数（FP8）成功训练DNN（深度神经网络）并能同时保证精度的一项新技术。

这项突破的研究人员表示：“以往来说，高性能计算依赖于高精度的64-bit和32-bit浮点运算。但这种新方法保证了准确性，对一些科学任务的计算至关重要，比如模拟人类心脏，计算太空飞船轨迹等”。

但是，对于图像分类、语音识别等一类任务，近似计算比64-bit或32-bit提供的高精度计算更重要。

浮点的限制越低，驱动器也随之越小。比如，16-bit精度驱动器通常比32-bit高精度同类块小4倍。这种区域效率的提高直接有利于AI培训效果和工作负载性能的显著提升。

因此，高精度可以增强计算能力。在本文中，研究人员展示了全新的训练技术，并且最终将压缩方法加速了40-200倍。

早在2015年，IBM研究就已经展示了如何在32-bit到16-bit的推理过程中完全保证模型精度。

现在，16-bit训练和8-bit推理系统已经作为一项标准灌输至行业中。尽管有关8-bit和4-bit的精度推理工作还在进行，但最终也将成为行业标准。

与16-bit训练网络相关的主要挑战有：

• 在反向传播期间，是否该保持梯度计算和权重更新的保真度。

• 当矩阵乘法中的权重、误差和梯度降低到8-bit时，深度神经网络会遭受影响，最终精度明显下降。

• 此外，网络训练对算法收敛性有显著影响。

• 如今使用的32-bit权重更新系统，需要存储高精度权重和梯度的额外副本，价格高昂。

如何解决8-Bit浮点问题：

有一种新技术叫作“基块计算”，应用于卷积计算的时候，这种技术允许用8

-bit乘法和16-bit加法，去代替16-bit和32-bit的独立计算。并且，在权重更新中，浮点可随机舍入。

在“基块计算”中，累积计算被分解成块，由各深度学习点产品构成。研究人员已经做过测试，采用尺寸14nm的芯片检验这种技术，并用于训练ResNet50模型。结果表明，基块计算驱动器可以和降低精度的数据流驱动器一起使用，并且不会增加硬件开销。

作为基线，32-bit浮点的累积量会随向量长度呈线性增加趋势。在最接近舍入值的时候（比如：块=1），典型的16-bit浮点累积量将会面临极大的误差。（当长度 ≥ 4096时，累积停滞）。

这时，可以使用基块累积计算来填补误差，因为积累量的有效长度被“块”的大小所削减，以免被淹没。随机舍入的有效性如下：尽管由于舍入误差导致了在总体积累长度中存在轻微偏差，但是随机舍入值会遵循32-bit浮点结果。

这一成功实践为硬件培训平台进入新时代铺平了道路，该平台的性能是当前系统的两倍。

太空飞船轨迹想要更精准？8-Bit实现零损耗

编译组：姚宇歌、胡婷

安科网

太空飞船轨迹想要更精准？8-Bit实现零损耗

cys

cys

相关推荐

从数据库获取bit类型判断的时候要注意大小写

BPI:bit webduino和arduino STEAM教育开发板，比micro:bit强大

Python 布尔值在数据库怎么显示

Step by step install and run Hadoop 2.9.1 on Windows 10 64 bit (最全步骤整理)

redis中setbit bitcount命令详解

lunrjs - A bit like Solr, but much smaller and not as bright.

查看Linux 32 or 64 bit及Linux版本命令

关于NRF24L01的Linux驱动和s3c2410_getpin();函数问题

可持久化数据结构板子整理（可持久化线段树/字典树/可并堆）

查看Linux 32 or 64 bit及Linux版本命令

linux下特殊的访问控制权限sticky bit, setuid, setgid

查看linux系统版本是32位的还是64位的

MYSQL Connector: 32-bit or 64 bit?

PHP 规范开发（一）：断点调试

Redis字符串(STRING)中BIT相关命令

java源码Integer.bitCount算法解析，分析原理（统计二进制bit位）

k8s与日志--采用golang实现Fluent Bit的output插件

Git on Win7 64 bit

Linux权限管理（3）Set UID权限、Set GID权限、Sticky BIT权限、chattr权限

micro:bit 开发用的一款命令行工具

cys