推荐系统RL综合演示
从MDP建模到策略梯度推荐的完整流程
π_θ(a|s) = softmax(sim(s, e_a)/τ)
模式: MDP建模
等待演示...
切换模式查看推荐RL完整流程
MDP建模
策略梯度
Embedding空间
↻ 重置