BPTT梯度流动可视化
观察反向传播通过时间(BPTT)的梯度如何沿时间步回传
∂L/∂h_t = ∂L/∂h_{t+1}·W_hh·diag(tanh'(h_t))
序列长度: 6 | 谱半径: 0.8(vanish) / 1.2(explode)
点击模式按钮观察梯度流动
梯度连乘: 每步乘以 W_hh·tanh'(h_t)
梯度消失
梯度爆炸
梯度流对比
↻ 重置