连续动作空间控制

SAC算法与高斯策略的连续控制

J(θ) = E[Σγ^t(r + α·H(π))]

模式: 机械臂控制

等待演示...

切换模式查看连续控制核心机制