Dueling网络结构演示
V流和A流的分离可视化
Q(s,a) = V(s) + A(s,a) - mean(A)
当前状态: 重要 | V(s)=8.5 | A=[-0.5, 1.2, -0.3, 0.6]
重要状态: A值差异明显 | 不重要状态: A值接近0
蓝色=V流 紫色=A流 橙色=Q值
重要状态
不重要状态
↻ 重置