分布式RL演示

C51分布学习过程可视化

Z(s,a) = Σ p_i · δ_{z_i}, Q = Σ z_i · p_i
51个原子 | V_min: -10, V_max: 10 | 训练步: 0
分布从均匀逐渐集中到真实值附近
柱状图=概率分布 虚线=Q值(期望)