残差连接与层归一化

观察残差连接和层归一化如何稳定深层网络训练

output = LayerNorm(x + Sublayer(x))
残差: 梯度直通 | LayerNorm: 稳定训练
点击模式按钮查看残差与归一化
Post-LN(原版) vs Pre-LN(改进): 归一化位置不同