安全约束RL演示

Lagrangian方法与CMDP安全约束优化

max_π J(π) s.t. J_C(π) ≤ d

模式: Lagrangian方法

等待演示...

切换模式查看不同安全RL方法