RNN梯度消失可视化

观察梯度在反向传播中如何指数级衰减

∂L/∂W = Σ_t ∂L/∂y_T · Π_{k=t+1}^{T} (∂h_k/∂h_{k-1}) · ∂h_t/∂W
∂h_k/∂h_{k-1} = W_hh^T · diag(tanh'(a_k))
点击模式按钮观察梯度消失
tanh'最大值0.25, 连乘导致指数衰减