状态价值函数对比演示

不同策略下的V值差异

V^π(s) = E_π[G_t | S_t = s]

4×4网格 | 当前策略: 随机

随机策略V值低 | 贪心策略V值中 | 最优策略V值高

颜色深浅表示V值大小