多臂老虎机探索演示

ε-greedy vs UCB vs Thompson Sampling

ε-greedy | UCB: A_t = argmax[Q_t(a)+c√(ln t/N_t(a))] | Thompson

3个摇臂 | 真实均值: [0.2, 0.5, 0.8] | 步数: 0

ε-greedy累积奖励: 0 | UCB: 0 | Thompson: 0

观察三种策略的探索-利用权衡差异