贝尔曼期望方程演示

V^π与Q^π的递归关系

V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s,a)[R + γV^π(s')]
3状态MDP | 策略: 均匀 | γ: 0.9
V值从叶子向根传播
点击切换策略观察V值变化