< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

让Transformer的推理速度提高4.5倍，这个trick还能给你省十几万

丰色 2021-12-30 13:13:24 来源：量子位

大多数Transformer模型“开箱可用

最近，NLP明星公司Hugging Face发布了一个叫做Infinity的产品，可以以1ms延时完成Transformer的推理，性能相当高了。

但是，厉害归厉害，还是有点贵——1年至少要十几万块 （2万美元）。

那有没有什么平替的方法呢？

有的！还是开源的、“不费吹灰之力”就可以达到Infinity一些公共基准的那种。

并且现在，通过在该方法上施加一个小trick，将Transformer的推理速度提高4.5倍！

△ 帖子发布不到一天就收获了250+热度

那么，一个“平替”到底为什么能达到“付费”的效果呢？

一个trick让Transformer推理速度提高4.5倍

先来认识一下这个方法：Transformer-deploy。

它可以用一行命令优化和部署Hugging Face上的Transformer模型，并支持大多数基于Transformer编码器的模型，比如Bert、Roberta、miniLM、Camembert、Albert、XLM-R、Distilbert等。

Transformer-deploy推理服务器用的是Nvidia Triton。

推理引擎为Microsoft ONNX Runtime（用于CPU和GPU推理）和Nvidia TensorRT（仅限 GPU）。

如果想在GPU上获得一流的性能，Nvidia Triton+Nvidia TensorRT这样的组合无疑是最佳选择。

虽然TensorRT用起来有点难，但它确实能比用Pytorch快5～10倍。

在实际性能测试中，Transformer-deploy在batch size为1、token分别为16和128的输入序列中的推理速度，都比付费的Hugging Face Infinity要快：

Transformer-deploy在token为16时要1.52ms，Infinity则需要1.7ms；token为128时需要1.99ms，Infinity则需要2.5ms。

那前面说的能让Transformer的推理性能进一步提高的小trick是什么呢？

GPU量化（quantization）。

作者表示：

据我所知，目前任何OOS云服务都还没用到过这个方法。

不过执行GPU量化需要修改模型源代码（需在矩阵乘法等代价高昂的操作上添加一些叫做QDQ的特定节点），既容易出错，又很无聊，并且还需自己维护修改后的代码。

因此作者已经为多个基于Transformer的模型手动完成了这项工作。

后来，他们又发现似乎只需修补模型模块的抽象语法树 （AST）也可以自动完成。

在用户端，在GPU上执行模型的基本量化类似这样：

最终，该方法在Roberta-base模型和MNLI数据集（分类任务）上实现了4.53倍的推理速度。

当然这也牺牲了0.4个点的精度；如果一点不牺牲的话，也可以加速3.2倍左右。

作者表示，与Transformer-deploy原来的版本相比，这已经是一个很大的改进了，毕竟原版本的加速成本需要超过1个点的精确度。

最终他们用Albert、Bert（包括miniLM）、Distilbert、Roberta（包括 Camembert、XLM-R、DistilRoberta等）、Electra测试了该trick。

结果是对于任何可以导出为ONNX格式的Transformer模型，都可以“开箱即用”。

参考链接：
https://www.reddit.com/r/MachineLearning/comments/rr17f9/p_45_times_faster_hugging_face_transformer/

Transformer 机器学习模型推理

丰色

让Transformer的推理速度提高4.5倍，这个trick还能给你省十几万

一个trick让Transformer推理速度提高4.5倍

相关阅读

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

“史上最全PyTorch学习资源汇总”：教程、实战、论文、教材俱全

北航成AAAI 2021最大赢家，两篇一作斩获最佳论文及提名

“关于word2vec都是错的”：论文和代码天壤之别，是普遍现象了？

李沐在斯坦福开新课了！面向机器学习实战，课程全部免费，9月1日可报名

机器学习博士自曝：实验室「阉割」我的创造力，劝你别读

热门文章

美国具身也没成熟！PI：中国公司何必总当“中国版XX”｜RSS 2026

半价干翻Fable 5？Opus 5实测炸场，网友：差点从椅子上摔下来

北京说Agent已经能造世界，杭州却说它是刚发明的电灯泡

具身智能的「ChatGPT时刻」还没到，科沃斯先把机器人拆开了

3万小时触觉数据补齐具身智能“手感”！新智具身&复旦报告三连发