DQN训练流程演示

从交互到更新的完整动画

L(θ) = E[(r+γmaxQ(s',a';θ^-) - Q(s,a;θ))²]

经验池: 0/500 | ε: 1.00 | Episode: 0

交互→存储→采样→更新→目标网络更新

绿色=当前网络橙色=目标网络