TRPO核心组件实现
信赖域策略优化的三大核心步骤
TRPO: max E[A] s.t. KL[π_old,π] ≤ δ
模式: 信赖域
等待演示...
切换模式查看不同组件
信赖域
KL约束
更新流程
↻ 重置