RL方法对比演示

基于价值 vs 基于策略 vs Actor-Critic

Value: Q(s,a) → Policy: π_θ(a|s) → AC: V(s)+π_θ
三类方法核心思想对比
基于价值学Q→推导策略 | 基于策略直接学π | AC两者结合
观察三类方法在相同环境中的学习差异