RLHF——人类反馈强化学习全流程演示

交互式体验奖励模型训练和PPO优化过程

L = E[r(x,y)] - β·KL(π_θ||π_ref)
当前模式: 偏好标注 | 标注数: 0
第一步:人类对模型输出进行排序
RLHF三步走:偏好标注→奖励训练→PPO优化