梯度裁剪效果对比
观察梯度裁剪如何防止梯度爆炸导致训练不稳定
if ‖g‖ > C: g ← C·g/‖g‖ (全局L2裁剪)
阈值C=1.0 | 梯度范数: 爆炸时可达10-100+
点击模式按钮查看裁剪效果
裁剪保持方向不变, 只限制步长
无裁剪
有裁剪
训练曲线对比
↻ 重置