PER vs 均匀回放对比
学习速度和收敛效果对比
Uniform: 随机采样 | PER: P(i)∝|δ_i|^α, w_i=(1/(N·P(i)))^β
α: 0.6 | β: 0.4→1.0 | Episode: 0
PER收敛更快,重要经验被更频繁学习
蓝色=均匀回放 橙色=PER
学习曲线
经验池
↻ 重置