值迭代动画演示

从初始化到收敛的值迭代过程

V(s) = max_a Σ P(s'|s,a)[R + γV(s')]

迭代: 0 | γ: 0.9 | 最大V值变化: --

值迭代逐步收敛到最优V*

颜色深浅表示V值大小，箭头表示最优策略