TRPO核心组件实现

信赖域策略优化的三大核心步骤

TRPO: max E[A] s.t. KL[π_old,π] ≤ δ

模式: 信赖域

等待演示...

切换模式查看不同组件