悬崖行走对比演示

Q-Learning vs SARSA策略路径可视化

Q: r+γmaxQ(s',a') | SARSA: r+γQ(s',a')

4×12悬崖网格 | ε: 0.1

Q-Learning走悬崖边缘(最优但危险) | SARSA走安全路径

红色=Q-Learning路径蓝色=SARSA路径