推荐系统RL综合演示

从MDP建模到策略梯度推荐的完整流程

π_θ(a|s) = softmax(sim(s, e_a)/τ)
模式: MDP建模
等待演示...
切换模式查看推荐RL完整流程