< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

英伟达NLP公开课：如何突破Decoder性能瓶颈？揭秘FasterTransformer2.0的原理与应用，已开源 |

liming 2020-04-21 17:54:22 来源：量子位

位来发自凹非寺
量子位报道 | 公众号 QbitAI

4月9日，英伟达x量子位分享了一期nlp线上课程，来自NVIDIA的GPU计算专家、FasterTransformer 2.0开发者之一的薛博阳老师，与数百位开发者共同探讨了：

FasterTransformer 2.0 新增功能介绍
如何针对Decoder和Decoding进行优化
如何使用Decoder和Decoding
Decoder和Decoding能够带来什么样的加速效果

应读者要求，我们将分享内容整理出来，与大家一起学习。文末附有本次直播回放、PPT链接，大家也可直接观看。

以下为本次分享的内容整理：

大家好，今天为大家介绍的是FasterTransformer 2.0的原理与应用。

什么是FasterTransformer？

首先，参加本期直播的朋友对Transformer架构应该都有了一定了解。这个架构是在“Attention is All You Need”这篇论文中提出的。在BERT Encoder中使用了大量Transformer，效果很好。因此，Transformer已成为 NLP 领域中非常热门的深度学习网络架构。

但是，Transformer计算量通常是非常大的。因此，Transformer的时延往往难以满足实际应用的需求。

如何突破Decoder性能瓶颈？揭秘FasterTransformer的原理与应用

△Attention is All You Need截图

Transformer架构可以应用于Encoder或Decoder上。在Encoder中，Transformer包含1个multi-head attention和1个feed forward网络，在Decoder中，包含2个multi-head attention和1个feed forward网络。

其中，纯Encoder架构在目前的很多应用中都有很好的表现，比如Q&A系统、广告推荐系统等，因此，针对Encoder的优化是非常有必要的。

而在一些场景中，如翻译场景，我们需要Encoder和Decoder架构。在这种架构下，Decoder消耗的时间占比是非常高的，可能达到90%以上，是推理的主要瓶颈。因此，针对Decoder的优化也是一项重要的工作，能带来明显的加速效果。

实际应用中，FasterTransformer 1.0版本针对BERT中的Encoder为目标做了很多优化和加速。在2.0版本中，则主要新增了针对Decoder的优化，其优越的性能将助力于翻译、对话机器人、文字补全修正等多种生成式的场景。

如何突破Decoder性能瓶颈？揭秘FasterTransformer的原理与应用

上表比较了Encoder和Decoder计算量的不同。当我们需要编解码一个句子的时候，Encoder可以同时编码很多个字，甚至可以直接编码一个句子。

但是Decoder是一个解码的过程，每次只能解码一个字，因此，解码一个句子时我们需要多次Decoder的forward，对GPU更不友善。

如何突破Decoder性能瓶颈？揭秘FasterTransformer的原理与应用

△Faster Transformer框架

上图列出了FasterTransformer中针对BERT优化的模块。在编码方面，以BERT为基准，提供了一个单层的、等价于BERT Transformer 的模块，供使用者做调用。当我们需要多层的Transformer时，只需调用多次Encoder即可。

解码方面更为复杂，为了兼顾灵活性与效率，我们提供两个不同大小和效果的模块：

Decoder（黄色区块）由单层的 Transformer layer 组成，它包含两个attention和一个feed forward 网络；而Decoding（蓝色区块）除了包含多层的 Transformer layer 之外，还包括了其他函数，例如 embedding_lookup、beam search、position Encoding 等等。

我们用一个简单的虚拟码展示Decoder和Decoding的区别。

在Decoding中通常有两个终止条件，一是是否达到预先设定的最大的sequence length，第二个条件是所有的句子是否都已经翻译完毕，未终止时会不断循环。

以句子长度为128的句子翻译场景为例，若其 Decoder 是由6层的 Transformer layer 组成的，总共需要调用 128×6=768 次的Decoder；如果是使用 Decoding 的话，则只需要调用一次Decoding，因此Decoding的推理效率更高。

小结

首先，FasterTransformer提供了高度优化过的Transformer layer：在Encoder方面是基于BERT实现的；在Decoder方面基于OpenNMT-TensorFlow开源的库做为标准；Decoding包含了翻译的整个流程，也是基于OpenNMT-TensorFlow。

其次，FasterTransformer 2.0的底层由CUDA和cuBLAS实现，支持FP16 和 FP32 两种计算模式，目前提供C++ API和TF OP。

现在，FasterTransformer 2.0已经开源，大家可以在DeepLearningExamples/FasterTransformer/v2 at master · NVIDIA/DeepLearningExamples · GitHub获取全部源代码。

如何进行优化？

先以Encoder为例。

如何突破Decoder性能瓶颈？揭秘FasterTransformer的原理与应用

△TF Encoder Transformer layer

参数：no XLA，batch size 1，12 heads，size per head 64，FP 32

图中蓝色方块表示GPU在实际运行，空白的表示GPU在闲置，因此GPU在很多时间是闲置状态。造成GPU闲置的原因是kernels太小，GPU要不断闲置以等待CPU启动kernel的时间，这也称为kernel launch bound问题。

如何解决这个问题？

我们尝试开启TF的XLA，其他参数不变。图中我们看到，从原本计算1层Transformer layer需要50个kernel缩减到24个左右。大部分kernel变得比较宽，虽有加速，但是闲置的时间还是比较多。

因此，我们提出FasterTransformer针对Encoder进行优化。

首先，我们把矩阵计算部分挑选出来，用NVIDIA高度优化的库cuBLAS 来计算，此外的部分，我们把能融合的kernel都尽可能融合起来。

最终的结果如上图右边，经过整体的优化后，我们只需要8个矩阵计算加6个kernel就可以完成单层Transformer layer计算，也就是说所需kernel从24个减少到14个。

我们可以看到，优化后每一个 kernel 都相对比较大，时间占比小的kernel也减少了。但还是有很多空白的片段。

我们直接调用C++ API，如图，GPU闲置的时间几乎没有了。因此，小batch size情况下，我们推荐使用C++ API以获得更快的速度。当batch size比较大时，GPU闲置时间会比较少。

接下来我们看下Decoder。

参数：no XLA，batch size 1，8 heads，size per head 64，FP32

经过统计，TF需要使用70个左右kernel来计算1层Transformer layer。直观来看，非常小、时间占比非常短的kernel更多。因此，batch size比较小的情况下，优化效果会更明显。

Decoder的优化同上述Encoder，特别之处是，Decoder里面的矩阵计算量非常少，因此我们把整个multi-head attention以一个kernel来完成。经过优化之后，原本需要70个kernel才能完成的计算，只需要使用16个kernel就能够完成。

在更大的Decoding模块中，另一个时间占比较多的kernel是beam search，这里我们针对top k做出优化。在GPU中可以同时执行多个block和多个warp，并行运算，大大节省时间。

如何突破Decoder性能瓶颈？揭秘FasterTransformer的原理与应用

△更多优化细节

如何使用FasterTransformer？

大家可以在DeepLearningExamples/FasterTransformer/v2 at master · NVIDIA/DeepLearningExamples · GitHub根目录下找到对应资料：

针对 Decoder 和 Decoding，FasterTransformer 分别提供了 C++ 和 TensorFlow OP 这两种接口。

C++接口

首先创建一个Eecoder，超参数如图:

其次，设定训练好的模型权重；

设置好后，直接调用forward即可。

TF OP接口

首先，我们需要先载入OP。这里以Decoder为例，会自动创建TF需要使用的库，调用接口时先导入.so文件（图中已标红）：

然后调用Decoder，放入input、权重、超参数，然后针对out put 做Session run。

这里需要注意的是，参数里有一个虚拟的输入 (pseudo input)。这个输入是为了避免 TensorFlow 的 decoder 和 FasterTransformer Decoder 发生并行，因为我们发现并行执行时，Decoder中的memory可能会被污染。实际应用的时候可以将这个输入拿掉。

优化效果

最后我们来看下优化的效果如何。首先测试环境设置：

使用的GPU是NVIDIA的Tesla T4和V100。

Encoder模块在Tesla V100的结果

超参数设置：12 layers，32 sequence length，12 heads，64 size per head（BERT base），under FP 16

结果如上图，batch size从100逐步增加到500的过程中，FasterTransformer对比TF开启XLA，大概可以提供1.4倍的加速。

Decoder和Decoding模块在Tesla T4的结果

超参数设置：Batch size 1，beam width 4，8 heads，64 size per head，6 layers，vocabulary size 30000，FP 32

结果如上图，不同的sequence length下，相比于TF，FasterTransformer Decoder可以带来3.4倍左右的加速效果，Decoding可以带来7-8倍的加速，效率更高。

超参数设置：Batch size 256，sequence length 32，beam width 4，8 heads，64 size per head，6 layers，vocabulary size 30000

结果如上图，把batch size固定在较高值时，不同的FP下，FasterTransformer Decoder和Decoding也带来一定的加速效果。

最后，本次直播的PPT获取连接：「链接」

本次直播回放：NVIDIA Webinar

BERT NLP 英伟达量子位活动合辑

liming

英伟达NLP公开课：如何突破Decoder性能瓶颈？揭秘FasterTransformer2.0的原理与应用，已开源 |

什么是FasterTransformer？

如何进行优化？

如何使用FasterTransformer？

优化效果

相关阅读

爱奇艺多模态技术沙龙 | 爱奇艺路香菊：视频人物识别关键技术及其应用

训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

英伟达被智能车合作方起诉窃密！视频会议露马脚，回应：我没兴趣

要让机器人切土豆丝，英伟达首先给土豆建了个模

高额奖池、院士评定，首届全球人工智能技术创新大赛开启征召

显卡又要涨价了：NVIDIA通知Q3季度GPU芯片供应量仅为70%水平

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字