悬崖行走对比演示

Q-Learning vs SARSA策略路径可视化

Q: r+γmaxQ(s',a') | SARSA: r+γQ(s',a')
4×12悬崖网格 | ε: 0.1
Q-Learning走悬崖边缘(最优但危险) | SARSA走安全路径
红色=Q-Learning路径 蓝色=SARSA路径