TRPO线搜索实现

回溯线搜索确保KL约束与目标改善

θ_new = θ_old + α^j · s, j=0,1,2...
模式: 线搜索过程
等待演示...
切换模式查看不同视角