状态价值函数对比演示
不同策略下的V值差异
V^π(s) = E_π[G_t | S_t = s]
4×4网格 | 当前策略: 随机
随机策略V值低 | 贪心策略V值中 | 最优策略V值高
颜色深浅表示V值大小
随机策略
贪心策略
最优策略
↻ 重置