RLHF——人类反馈强化学习全流程演示
交互式体验奖励模型训练和PPO优化过程
L = E[r(x,y)] - β·KL(π_θ||π_ref)
当前模式: 偏好标注 | 标注数: 0
第一步:人类对模型输出进行排序
RLHF三步走:偏好标注→奖励训练→PPO优化
偏好标注
奖励训练
PPO优化
↻ 重置