RLHF——人类反馈强化学习全流程演示

交互式体验奖励模型训练和PPO优化过程

L = E[r(x,y)] - β·KL(π_θ||π_ref)

当前模式: 偏好标注 | 标注数: 0

第一步：人类对模型输出进行排序

RLHF三步走：偏好标注→奖励训练→PPO优化