Q-Learning收敛过程演示
Q值从初始到收敛的动画过程
Q(s,a) ← Q(s,a) + α[r + γmax_a'Q(s',a') - Q(s,a)]
3×3网格 | α: 0.1 | 迭代: 0
Q值逐渐稳定,最优策略方向逐渐清晰
颜色: 红(高Q)→蓝(低Q) | 箭头=最优动作
逐步训练
自动收敛
↻ 重置