分布式RL演示

C51分布学习过程可视化

Z(s,a) = Σ p_i · δ_{z_i}, Q = Σ z_i · p_i

51个原子 | V_min: -10, V_max: 10 | 训练步: 0

分布从均匀逐渐集中到真实值附近

柱状图=概率分布虚线=Q值(期望)