悬崖行走对比演示
Q-Learning vs SARSA策略路径可视化
Q: r+γmaxQ(s',a') | SARSA: r+γQ(s',a')
4×12悬崖网格 | ε: 0.1
Q-Learning走悬崖边缘(最优但危险) | SARSA走安全路径
红色=Q-Learning路径 蓝色=SARSA路径
路径对比
奖励曲线
↻ 重置