COMA反事实基线
反事实优势估计解决多智能体信用分配
COMA: A_i = Q(s,a) - Σ π(a\'|o_i)Q(s,a_\\i,a\')
模式: 反事实基线
等待演示...
切换模式查看不同视角
反事实基线
信用分配
方法对比
↻ 重置