值迭代动画演示
从初始化到收敛的值迭代过程
V(s) = max_a Σ P(s'|s,a)[R + γV(s')]
迭代: 0 | γ: 0.9 | 最大V值变化: --
值迭代逐步收敛到最优V*
颜色深浅表示V值大小,箭头表示最优策略
逐步迭代
自动收敛
↻ 重置