On-Policy vs Off-Policy演示
行为策略与目标策略的分离
On: π_b=π_t | Off: π_b≠π_t
SARSA(On) vs Q-Learning(Off) | ε: 0.2
SARSA走安全路径 | Q-Learning走最优路径
蓝色=SARSA 红色=Q-Learning 观察悬崖旁行为差异
路径对比
奖励曲线
↻ 重置