PPO vs TRPO对比可视化

两种信赖域策略优化方法的更新机制对比

TRPO: KL约束 | PPO: Clip近似
模式: 更新机制
等待演示...
切换模式查看不同对比