RNN梯度消失可视化
观察梯度在反向传播中如何指数级衰减
∂L/∂W = Σ_t ∂L/∂y_T · Π_{k=t+1}^{T} (∂h_k/∂h_{k-1}) · ∂h_t/∂W
∂h_k/∂h_{k-1} = W_hh^T · diag(tanh'(a_k))
点击模式按钮观察梯度消失
tanh'最大值0.25, 连乘导致指数衰减
梯度链式衰减
不同谱半径
有效记忆范围
↻ 重置