Q函数交互演示
状态-动作价值函数的完整展示
Q^π(s,a) = E_π[G_t | S_t=s, A_t=a]
4×4网格 | 点击格子查看Q值详情
箭头长度表示Q值大小,方向表示动作
训练步数: 0 | 点击格子查看Q值
Q值热图
训练过程
↻ 重置