安全RL方法对比

Lagrangian vs 安全层 vs CPO三种方法比较

CMDP: max J(π) s.t. J_C(π) ≤ d
模式: 方法对比
等待演示...
切换模式查看不同对比维度