连续动作空间控制

SAC算法与高斯策略的连续控制

J(θ) = E[Σγ^t(r + α·H(π))]
模式: 机械臂控制
等待演示...
切换模式查看连续控制核心机制