优先经验回放演示
SumTree采样与优先级更新动画
P(i) ∝ |δ_i|^α
经验池: 8条 | α: 0.6 | 采样: 随机
TD误差大的经验优先级高,被采样更频繁
柱高=优先级 颜色=TD误差大小
优先级分布
采样过程
↻ 重置