残差连接与层归一化
观察残差连接和层归一化如何稳定深层网络训练
output = LayerNorm(x + Sublayer(x))
残差: 梯度直通 | LayerNorm: 稳定训练
点击模式按钮查看残差与归一化
Post-LN(原版) vs Pre-LN(改进): 归一化位置不同
残差连接
层归一化
Post-LN vs Pre-LN
↻ 重置