优先经验回放演示

SumTree采样与优先级更新动画

P(i) ∝ |δ_i|^α
经验池: 8条 | α: 0.6 | 采样: 随机
TD误差大的经验优先级高,被采样更频繁
柱高=优先级 颜色=TD误差大小