TRPO线搜索实现
回溯线搜索确保KL约束与目标改善
θ_new = θ_old + α^j · s, j=0,1,2...
模式: 线搜索过程
等待演示...
切换模式查看不同视角
线搜索过程
KL与目标
回溯策略
↻ 重置