多臂老虎机探索演示
ε-greedy vs UCB vs Thompson Sampling
ε-greedy | UCB: A_t = argmax[Q_t(a)+c√(ln t/N_t(a))] | Thompson
3个摇臂 | 真实均值: [0.2, 0.5, 0.8] | 步数: 0
ε-greedy累积奖励: 0 | UCB: 0 | Thompson: 0
观察三种策略的探索-利用权衡差异
ε-greedy
UCB
Thompson
↻ 重置