推荐系统RL综合演示

从MDP建模到策略梯度推荐的完整流程

π_θ(a|s) = softmax(sim(s, e_a)/τ)

模式: MDP建模

等待演示...

切换模式查看推荐RL完整流程