Q-Learning收敛过程演示

Q值从初始到收敛的动画过程

Q(s,a) ← Q(s,a) + α[r + γmax_a'Q(s',a') - Q(s,a)]

3×3网格 | α: 0.1 | 迭代: 0

Q值逐渐稳定，最优策略方向逐渐清晰

颜色: 红(高Q)→蓝(低Q) | 箭头=最优动作