COMA反事实基线

反事实优势估计解决多智能体信用分配

COMA: A_i = Q(s,a) - Σ π(a\'|o_i)Q(s,a_\\i,a\')
模式: 反事实基线
等待演示...
切换模式查看不同视角