推荐系统RL演示
探索-利用权衡与用户兴趣建模
s_t → π(a|s) → r_t → s_{t+1}
模式: 探索利用
等待演示...
切换模式查看推荐RL核心机制
探索利用
兴趣漂移
长期价值
↻ 重置