PER vs 均匀回放对比

学习速度和收敛效果对比

Uniform: 随机采样 | PER: P(i)∝|δ_i|^α, w_i=(1/(N·P(i)))^β

α: 0.6 | β: 0.4→1.0 | Episode: 0

PER收敛更快，重要经验被更频繁学习

蓝色=均匀回放橙色=PER