On-Policy vs Off-Policy演示

行为策略与目标策略的分离

On: π_b=π_t | Off: π_b≠π_t

SARSA(On) vs Q-Learning(Off) | ε: 0.2

SARSA走安全路径 | Q-Learning走最优路径

蓝色=SARSA 红色=Q-Learning 观察悬崖旁行为差异