微信也在用的Transformer加速推理工具，现在腾讯开源了

酒囊饭袋

2020-04-26

关注关注

即将开播：4月29日，民生银行郭庆谈商业银行金融科技赋能的探索与实践

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

近年来，基于Transformer的模型，可以说是在NLP界杀出了一片天地。

虽然在提高模型模型精度上，Transformer发挥了不容小觑的作用，但与此同时，却引入了更大的计算量。

那么，这个计算量有多大呢？

来看下数据。

因此，实现一个能充分发挥CPU/GPU硬件计算能力的Transformer推理方法，就成了急需解决的问题。

近日，腾讯便开源了一个叫TurboTransformers的工具，对Transformer推理过程起到了加速作用，让你的推理引擎变得更加强大。

这个工具已经在微信、腾讯云、QQ看点等产品中广泛应用，在线上预测场景中可以说是“身经百战”。

Turbo具有如下三大特性：

优异的CPU/GPU性能表现。
为NLP推理任务特点量身定制。
简单的使用方式。

值得一提的是，TurboTransformers，是腾讯通过Github对外开源的第100个项目。

那么，具有如此“纪念意义”的开源工具，到底有多厉害？

接下来，我们将一一讲解。

多项性能测试“摘桂冠”

Turbo在CPU/GPU性能上的表现可以说是非常优异。

在多种CPU和GPU硬件上获得了超过pytorch/tensorflow和目前主流优化引擎的性能表现。

CPU上的测试结果

首先，是在CPU 硬件平台上，测试了 TurboTransformers 的性能表现。

选择 pytorch、pytorch-jit 和 onnxruntime-mkldnn 和 TensorRT 实现作为对比。

性能测试结果为迭代 150 次的均值。为了避免多次测试时，上次迭代的数据在 cache 中缓存的现象，每次测试采用随机数据，并在计算后刷新的 cache 数据。

下图是Intel Xeon 6133 CPU的性能测试结果。

GPU上的测试结果

其次，是在GPU硬件平台上，测试了 TurboTransformers 的性能表现。

选择对比的对象分别是：pytorch、NVIDIA Faster Transformers、onnxruntime-gpuTensorRT。

性能测试结果为迭代 150 次的均值。

下图是在NVIDIA RTX 2060 GPU的性能测试结果。

接下来，是在NVIDIA P40 GPU的性能测试结果。

最后，是在NVIDIA V100 GPU的性能测试结果。

Turbo技术原理

能够取得如此好的推理性能，这背后的计算原理又是什么呢？

TurboTransformers的软件架构如下图，它让微信内部众多NLP线上应用能够充分榨取底层硬件的计算能力，让算法更好地服务的用户。

具体来说TurboTransformers可以在算子优化、框架优化和接口部署方式简化三个方面做了工作。

算子层优化

Transformer都包含了什么计算呢？

如下图所示，图(a)展示了论文Transformer结构示意图，这里称灰色方框内的结构为一个Transformer Cell，BERT encoder堆叠了Nx个这样的Transformer Cell。

图(b)将一个Cell的细节加以展开，每一个矩形都是一个独立的计算核心。

Transformer Cell计算包含了8个GEMM(通用矩阵乘法，General Matrix Multiplication)运算。通过调优Intel MKL和cuBLAS的GEMM调用方式来获得最佳GEMM性能。

并且在硬件允许条件下，在GPU上使用tensor core方式进行GEMM运算。

类似NVIDIA FasterTransformers方案，将所有GEMM运算之间的计算融合成一个调用核心。融合会带来两个好处，一是减少了内存访问开销，二是减少多线程启动开销。

对于这些核心，在CPU上采用openmp进行并行，在GPU上使用CUDA进行优化实现。

对于比较复杂的LayerNorm和Softmax算子，它们包含了不适合GPU上并行的规约操作，TurboTransformers为它们设计了创新并行算法，极大降低了这些算子的延迟。

理论上Transformers推理延迟应该近似于矩阵乘法延迟。

框架层优化

TurboTransformers采用了一个有效的内存管理方式。

由于NLP的采用变长输入特性，每次运算中间结果的大小其实并不相同。为了避免每次都分配释放内存，研究人员通过Caching方式管理显存。

为了能够无缝支持pytorch/tensorflow训练好的序列化模型，提供了一些脚本可以将二者的预训练模型转化为npz格式，供TurboTransformers读入。

特别的，考虑到pytorch huggingface/transformers是目前最流行的transformers训练方法，支持直接读入huggingface/transformers预训练模型。

应用部署

Turbo提供了C++和Python调用接口，可以嵌入到C++多线程后台服务流程中，也可以加入到pytorch服务流程中。

性能测试

酒囊饭袋

0 关注 0 粉丝 0 动态

关注关注

【内测来袭】PerfDogService 一键搭建您的性能测试平台

PerfDog是一款移动平台的性能测试工具，快速定位分析性能问题，提升APP应用及游戏性能和品质。手机无需ROOT/越狱，手机硬件、游戏及应用APP也无需做任何修改，极简化即插即用，是全网唯一支持iOS/Android/小程序/H5等移动全平台性能测试的工

today0 2020-09-22

性能测试综述

性能测试旨在检查应用程序或软件在特定负载下工作时的响应性和稳定性，从而检测应用程序/软件在响应速度、可扩展性和稳定性方面是否达到预期的要求。简而言之，性能测试目标就是为了识别并消除应用程序中的性能瓶颈。性能测试主要有[负载测试]，[压力测试]，[容量测试]

mohanzb 2020-08-01

性能测试

1，首先做性能测试，要搜集性能测试需求，符合自己公司业务场景及系统。例如，你们的前端登录系统，老大说让你做一个性能测试，你按照12306的标准去做并发，那不是傻逼吗？

goodby 2020-07-04

性能测试系列（3）-常用的性能指标，对性能指标的解释

通常我们会从两个层面定义性能场景的需求指标，它们有映射关系，技术指标不能脱离业务指标。指同一个时间点执行相同的操作。并发用户数（重点）。假设有 10 个用户数，每个用户同一时间点内发起 2 个请求，那么服务器收到的请求并发数就是 20. 客户端向服务器发送

老道长的测试生活 2020-06-16

移动端性能测试概述

　　随着移动设备的普及和使用范围越来越广，APP的性能测试变的越来越重要。比起之前的性能测试，APP性能测试有着自己的特色和KPI，难度也随之增加。　　APP的自动化测试工具发展跟不上设备的发展速度，虽然有不少工具提供了设备模拟器来运行程序，但是和真机测试

jszy 2020-06-09

jmeter 性能测试入门手册分享

没想到知识点积累的越来越多。渐渐的发现很多知识点都可以分类收纳，在整理过程中又将自己掌握的一些技巧补充了进去，逐步的就形成了本书的一个轮廓。经历了十几次改版之后形成一个完整的知识体系框架。后期又将这些知识体系拆分，变成了两个部分。分别是 jmeter

测试自动化顾问 2020-06-08

除了RPS和错误率，性能测试还需要关注这些指标

最近发现交给外包做的性能测试，外包人员除了看RPS、错误率，其他指标完全不看。换一个思路，当你进行性能摸底，发现某个节点，RPS就上不去了，你不好奇为什么吗？所以，写了这篇文章，想告诉大家除了RPS和错误率，你还可以关注什么。服务处理一个请求或者任务的耗时

Testingba工作室 2020-05-31

jmeter性能测试工具

Apache JMeter 是Apache组织的开放源代码项目，是一个纯Java桌面应用，用于压力测试和性能测量。它最初被设计用于Web应用测试但后来扩展到其它测试领域。Apache JMeter可以用于对静态的和动态的资源的性能进行测试。JMeter可以

TesterJingel 2020-05-30

MySQL 压力测试工具

mysqlslap为mysql性能优化前后提供了直观的验证依据,系统运维和DBA人员应该掌握一些常见的压力测试工具,才能准确的掌握线上数据库支撑的用户流量上限及其抗压性等问题。

chichichi0 2020-05-30

今日份学习性能测试工具、瀑布图

了解了下性能测试工具常用的有很多，主要认识下这三个1、kylinTOP测试与监控平台（商用版），是一款B/S架构的跨平台的集性能测试、自动化测试、业务监控于一体的测试平台。奇林软件公司的。仿真能力上是目前业界做的最好的性能工具，可以做到完全仿真浏览器行为，

ITstudied 2020-05-27

Linux 主机性能测试工具

CPU性能 Pi圆周率测试：bc命令进行浮点运算，小数点后的位数为 3000，测试耗时越短则表明性能越好。ClickHouse测试ClickHouse是一个用于联机分析处理的列式数据库管理系统，会使服务器上一切可用的资源，以最自然的方式并行处理大型查询。C

chichichi0 2020-05-27

MySQL 之压力测试工具

woxxoole 2020-05-27

8年软件测试老鸟告诉你：软件测试必会技能

有很多刚入行的软件测试小白，认为软件测试就是功能测试，只需要不断的点点点就可以了，在加上入职的公司业务量不大，涉及不到压力测试、性能测试乃至自动化测试等，或者是因为你从事软件测试经验少，领导暂时只让你做功能测试，因此一直停留在小白阶段。如果想要成长和发展，

abdstime 2020-05-16

shell性能测试脚本优化的技巧

现在更换authTest.sh，原因是这个是要运行eaidkAuth文件的，因此需要更改，否则，就会像血轮眼一样，无限月读。接着检查一下eaidkAuth是否适合使用sh运行：。发现这不是一个shell脚本，如果是shell脚本，会有“shell scr

以梦为马不负韶华 2020-02-20

性能测试之数据库篇-查询（一）

表示MySQL在表中找到所需行的方式，又称“访问类型”。如将主键置于where列表中，MySQL就能将该查询转换为一个常量,system是const类型的特例，当查询的表只有一行的情况下，使用system. 指出MySQL能使用哪个索引在表中找到记录，查询

逍遥斩舞 2020-05-05

性能测试之数据库篇-查询

　　数据库性能测试，各位都有过这种经历，前台界面按照某些条件筛选查询的时候返回结果特别慢，通常情况就是数据库查询返回结果比较慢，所以先看下从前到后是怎么个查询数据流走向。首先前端界面--勾选或者添加查询条件--经过一系列的转化，转化成sql语句，然后在数据

tlsmile 2020-05-05

【刷题】面筋-测开-比较压力测试、负载测试、性能测试

是一个较大的范围，实际上性能测试本身包含了性能、强度、压力、负载等多方面的测试内容。100个用户对系统进行连续半个小时的访问可以看作压力测试，那么连续访问8个小时就可以认为负载测试，1000个用户连续访问系统1个小时也可以看作是负载测试。实际上压力测试和负

chichichi0 2020-04-16

AMD RX 5500怎么样 AMD RX 5500显卡拆解+性能测试

下面小编带来AMD RX 5500显卡拆解+性能测试，希望对大家有所帮助。AMD十月初发布了RX 5500系列新一代主流显卡，移动版已经用于苹果16英寸MacBook Pro和其他一些笔记本，部分台式机也开始预装，但零售版始终没有了下文，有消息说推迟到了1

sharpljc 2019-11-24

使用Jmeter对SHA1加密接口进行性能测试

添加线程组，Jmeter执行是通过线程组进行驱动的，测试计划必须最少有一个线程组，选中Test Plan，点击右键，添加》Threads》线程组。在页面点击启动按钮，就可以看到脚本正常执行，响应结果正常，到此脚本开发完成，可以直接调用该脚本进行性能测试

HappinessCat 2020-03-27

jmeter学习-性能指标、jmeter初识

Apachejmeter.jar----读取的是system.properties的配置，所以两个启动文件打开后显示的语言有时候是不一样的

Cherishyuu 2020-03-26

安科网

微信也在用的Transformer加速推理工具，现在腾讯开源了

酒囊饭袋

即将开播：4月29日，民生银行郭庆谈商业银行金融科技赋能的探索与实践

多项性能测试“摘桂冠”

CPU上的测试结果

GPU上的测试结果

Turbo技术原理

算子层优化

框架层优化

应用部署

酒囊饭袋

相关推荐

【内测来袭】PerfDogService 一键搭建您的性能测试平台

性能测试综述

性能测试

性能测试系列（3）-常用的性能指标，对性能指标的解释

移动端性能测试概述

jmeter 性能测试入门手册分享

除了RPS和错误率，性能测试还需要关注这些指标

jmeter性能测试工具

MySQL 压力测试工具

今日份学习性能测试工具、瀑布图

Linux 主机性能测试工具

MySQL 之压力测试工具

8年软件测试老鸟告诉你：软件测试必会技能

shell性能测试脚本优化的技巧

性能测试之数据库篇-查询（一）

性能测试之数据库篇-查询

【刷题】面筋-测开-比较压力测试、负载测试、性能测试

AMD RX 5500怎么样 AMD RX 5500显卡拆解+性能测试

使用Jmeter对SHA1加密接口进行性能测试

jmeter学习-性能指标、jmeter初识

酒囊饭袋