RL方法对比演示
基于价值 vs 基于策略 vs Actor-Critic
Value: Q(s,a) → Policy: π_θ(a|s) → AC: V(s)+π_θ
三类方法核心思想对比
基于价值学Q→推导策略 | 基于策略直接学π | AC两者结合
观察三类方法在相同环境中的学习差异
架构对比
学习过程
↻ 重置