梯度裁剪效果对比

观察梯度裁剪如何防止梯度爆炸导致训练不稳定

if ‖g‖ > C: g ← C·g/‖g‖ (全局L2裁剪)
阈值C=1.0 | 梯度范数: 爆炸时可达10-100+
点击模式按钮查看裁剪效果
裁剪保持方向不变, 只限制步长