TRPO线搜索实现

回溯线搜索确保KL约束与目标改善

θ_new = θ_old + α^j · s, j=0,1,2...

模式: 线搜索过程

等待演示...

切换模式查看不同视角