值迭代动画演示

从初始化到收敛的值迭代过程

V(s) = max_a Σ P(s'|s,a)[R + γV(s')]
迭代: 0 | γ: 0.9 | 最大V值变化: --
值迭代逐步收敛到最优V*
颜色深浅表示V值大小,箭头表示最优策略