探索策略对比

不同探索策略在网格世界中的表现

ε-greedy(ε=0.1) | ε-greedy(ε=0.3) | 乐观初始化 | UCB
4×4网格 | 目标: 右下角
观察不同策略的探索热力图和累积奖励
颜色越深=访问越多 | 蓝色=ε0.1 绿色=ε0.3 橙色=乐观 紫色=UCB