网格世界MDP交互演示

状态、动作、奖励、转移的完整MDP

MDP = (S, A, P, R, γ)

4×4网格 | 动作: ↑↓←→ | 目标: 右下角

点击格子选择起点，观察智能体路径

绿色=目标(+10) 红色=陷阱(-5) 灰色=普通(-0.1)