DQN训练流程演示

从交互到更新的完整动画

L(θ) = E[(r+γmaxQ(s',a';θ^-) - Q(s,a;θ))²]
经验池: 0/500 | ε: 1.00 | Episode: 0
交互→存储→采样→更新→目标网络更新
绿色=当前网络 橙色=目标网络