Pre-LN Transformer巧置LayerNorm使Transformer加速收敛
ICML 2020 | 摆脱warm-up!巧置LayerNorm使Transformer加速收敛
什么是模型的warm-up阶段?
在模型训练中,直觉上应该是在开始时将学习率设置的稍大,然后逐渐的衰减或者直接将学习率设置为常数。但是在Transformer的训练上这两种策略均不能很好的使模型进行收敛,于是在优化 Transformer 结构时,除了设置初始学习率与它的衰减策略,往往还需要在训练的初始阶段设置一个非常小(接近0)的学习率,让它经过一定的迭代轮数后逐渐增长到初始的学习率,这个过程也被称作 warm-up 阶段。
Warm-up 是原始 Transformer 结构优化时的一个必备学习率调整策略。Transformer 结构对于 warm-up 的超参数(持续轮数、增长方式、初始学习率等)非常敏感,若调整不慎,往往会使得模型无法正常收敛。
Pre-LN Transformer
Pre-LN Transformer就是将LayerNorm层提前到了Multi-head Self-Attention层和FNN层的前面,可以使得Transformer的训练加速收敛,摆脱warm-up的阶段。结构如下图。
理论证明请看论文。