优先经验回放演示

SumTree采样与优先级更新动画

P(i) ∝ |δ_i|^α

经验池: 8条 | α: 0.6 | 采样: 随机

TD误差大的经验优先级高，被采样更频繁

柱高=优先级颜色=TD误差大小