网格世界MDP交互演示

状态、动作、奖励、转移的完整MDP

MDP = (S, A, P, R, γ)
4×4网格 | 动作: ↑↓←→ | 目标: 右下角
点击格子选择起点,观察智能体路径
绿色=目标(+10) 红色=陷阱(-5) 灰色=普通(-0.1)