连续动作空间控制
SAC算法与高斯策略的连续控制
J(θ) = E[Σγ^t(r + α·H(π))]
模式: 机械臂控制
等待演示...
切换模式查看连续控制核心机制
机械臂控制
高斯策略
SAC架构
↻ 重置