TRPO核心组件实现

信赖域策略优化的三大核心步骤

TRPO: max E[A] s.t. KL[π_old,π] ≤ δ
模式: 信赖域
等待演示...
切换模式查看不同组件