DQN训练流程演示
从交互到更新的完整动画
L(θ) = E[(r+γmaxQ(s',a';θ^-) - Q(s,a;θ))²]
经验池: 0/500 | ε: 1.00 | Episode: 0
交互→存储→采样→更新→目标网络更新
绿色=当前网络 橙色=目标网络
训练流程
学习曲线
↻ 重置