反向传播梯度流动可视化
观察梯度在深层网络中如何逐层衰减或爆炸
∂L/∂W_l = ∂L/∂a_L × ∏ σ'(z_i) × W_i
梯度消失
梯度爆炸
正常梯度
↻ 重置