反向传播梯度流动可视化

观察梯度在深层网络中如何逐层衰减或爆炸

∂L/∂W_l = ∂L/∂a_L × ∏ σ'(z_i) × W_i