离线RL推荐演示

CQL保守Q-Learning与离线策略评估

CQL: Q(s,a) -= α·penalty(未见过动作)

模式: CQL原理

等待演示...

切换模式查看离线RL核心机制